Dynatrace SLO İhlali Tahmini, Sorun Analizi, Otomasyon ve Yazılım Kalitesi

Perform Yazılım
4 min readAug 29, 2022

--

Kalite iyileştirmelerine zaman ve para yatırmak için en iyi nereye yatırım yapacağınızı nasıl bilebilirsiniz? Müşteri deneyiminiz ve iş başarınız üzerinde en önemli etkiye sahip bilinen sorunlar hangileridir? Otomatik sorun önceliklendirme olmadan, kaynaklarınızı düşük öncelikli sorunlara kolayca yanlış tahsis edebilirsiniz.

Bu blog yazısında, iş açısından kritik metriklerinizi hizmet düzeyi hedefleri (SLO’lar) olarak nasıl etkili bir şekilde kullanabileceğinizi açıklayacağız. Dynatrace’in sistemlerinizde belirlediği sorunlar, otomatik olarak kritik SLO’lara ve bunların ilgili hata bütçesine ve bitme oranına bağlanır.

Hata bütçesi ve ihlal oranı, site güvenilirlik mühendislerine (SRE’ler) son kullanıcıları etkilenmeden önce harekete geçmeleri için ihtiyaç duydukları bilgileri sağlar. Bu tür bilgiler, diğer paydaşlarla problemi tartışma toplantılarından kaçınma şansınızı önemli ölçüde artırır.

Hatalı bütçeler ve tamamlanma oranları:

Dynatrace, herhangi bir işlem yapılmazsa bir hata bütçesinin ne zaman tükeneceğini tahmin eden yüksek hata bütçesi ihlal oranları hakkında uyarılar sağlar. Tespit edilen sorunların analizi, hızlı sorun giderme için temel neden analizini ve SLO hedeflerinizin karşılandığının güvencesini içerir. Kritik bir metriğin SLO durumu uygun (yeşille gösterilir) veya uyarı düzeyinde (sarı ile gösterilir) olsa da, hata bütçesi hızla tüketilebilir. Bu gibi durumlarda, Dynatrace Davis® AI algılanan sorunlar, kullanıcılarınızı veya hata bütçenizi etkilemeden önce SLO ihlalini azaltmak için bir eylem çağrısına ek olarak sorunun tanımlanan temel nedenini gösterir. Bu sayede hata bütçenizin tüketimini durdurabilir ve doğru zamanda doğru soruna odaklanabilirsiniz.

SLO panosu kutucukları, ihtiyacınız olan tüm bilgileri sağlar: Kırmızı oklar, azalan hata bütçesi eğilimini gösterir ve kırmızı uyarı simgeleri, Davis AI’ın bu SLO’ları etkileyen sorunlar tespit ettiğini gösterir. SLO’yu etkileyen sorunları düzeltmek için kullanabileceğiniz temel neden analizi ve harekete geçirici mesaj ayrıntılarını içeren ilgili sorun açıklamalarını görüntülemek için bu uyarı simgelerini seçin.

Yatırımları önceliklendirmek için SLO’lar:

Bir hata bütçesi, hatalar son kullanıcı deneyimini etkilemeden önce bir sistemde meydana gelebilecek kabul edilebilir bir teknik hata oranına eşit olan bir metrik değer olarak anlaşılabilir. Özünde, hata bütçeleri size kalite iyileştirmelerine yapılan yatırımların ne zaman çabaya değer olduğunu söyler.

Başarılı olmak için kuruluşlar müşterilerinin ihtiyaçlarını ön plana ve merkeze koymalıdır. Bir hata bütçesi kullanarak SRE’ler, yüksek ihlal oranı nedeniyle müşteri memnuniyetinin nerede risk altında olduğunu ölçebilir.

Dynatrace, aşağıdaki ihtiyaçlarda SRE’leri destekler:

  • SLO’ları etkileyen sorunlar üzerinde çalışmaya etkin bir şekilde öncelik vermek için hangi SLO hata bütçelerinin tükendiğini görün.
  • Bir SLO’nun hata bütçesini tüketip tüketmeyeceğini ve ne zaman tüketeceğini tahmin etmek için SLO durum/hata bütçelerinin trendini görün.
  • Ekipler arasındaki iletişimin planlanabilmesi ve yüksek ihlal oranları için uyarılar alın.
  • Hata bütçesi tükenmeden sorunun çözülebilmesi için yüksek hata bütçesi ihlal oranının temel nedenini bulma konusunda destek alın.

Yatırım önceliklendirmesine farklı yaklaşımlar:

Uyarıya (“yangınla mücadele”) dayalı reaktif çalışma ile kalite ve otomasyon yatırımları için proaktif planlama arasında ayrım yapmak hayati önem taşır. Her iki yaklaşım da önceliklendirme gerektirir. Reaktif yaklaşım, SLO’ları etkileyen yeni keşfedilen sorunlar için düşük ortalama onarım süresi oranı (MTTR — DORA metriklerinden biri) ve yüksek bir hata bütçesi ihlal oranı ile sonuçlanır.

Reaktif uyarıya dayalı yaklaşımla, SRE’ler tükenen hata bütçelerini azaltmak için çözümler belirlemeli ve uygulamalıdır. Kalite iyileştirmeleri ve otomasyona yönelik yatırımların akıllıca önceliklendirilmesi, SLO’ların katkısıyla desteklenmelidir. Çoğu durumda, birden fazla sorun, tükenen bir hata bütçesine katkıda bulunur ve SRE’ler, yatırımlara kaliteye öncelik vermek için ilgili tüm sorunları manuel olarak araştırmalıdır.

Dynatrace, kalite yatırımlarına öncelik vermek için hem proaktif yaklaşım hem de reaktif yaklaşım için çözümler sunar.

Reaktif yaklaşım:

Tespit edilen temel nedenlere dayalı olarak reaktif yangınla mücadele tarzı önceliklendirmede Dynatrace Davis® AI, sorunları tanımlar ve size potansiyel olarak etkilenen SLO’ların sayısını gösterir. Sorun sayfasından doğrudan etkilenen SLO’lara bağlantı verebilirsiniz (aşağıdaki Şekil 2). Bu şekilde, bir problem üzerindeki çalışmayı diğerine göre önceliklendirmek kolaydır. SRE’ler, bu hata bütçeleri tükenmeden önce etkilenen SLO’lara hızla tepki verebilmeleri için yüksek hata bütçesi ihlal oranları için uyarılar ayarlayabilir. Dynatrace Davis AI, tespit edilen her sorun için temel neden analizi sunar, böylece SRE’ler, hata bütçesi ihlal oranlarını iyileştirecek ve minimum ortalama onarım süresi ile herhangi bir SLO ihlalini önleyecek eylem öğelerini tanımlayabilir.

Sorunlar görünümü, etkilenen SLO’ların sayısını ve bu SLO’lara çapraz bağlantıları gösterir.

Proaktif yaklaşım:

Kalite iyileştirmeleri ve otomasyon için yatırım önceliklendirmesine yönelik proaktif yaklaşımla, SLO’larla ilgili sorunlar, etkilenen tüm SLO hata bütçesi ihlal oranlarını ve tükenen hata bütçelerini gösterir (aşağıdaki Şekil 3). Ayrıca, her bir SLO’yu etkileyen tüm sorunların sayısını da gösterirler. Bu bilgilerle, SRE’ler, tükenen her bir hata bütçesine katkıda bulunan tüm sorunlara ilişkin bir genel bakış elde eder. Bu tür önemli bilgiler, gelecekteki kalite iyileştirmelerini planlamak ve otomatik sorun gidermeyi uygulamak için paha biçilmezdir.

Bu SLO genel bakışı, bir hata bütçesi ihlal oranı simgesi gösterir ve yüksek hata bütçeli ihlal oranları için uyarılar oluşturmanıza olanak tanır.

Şekil 3'te gösterilen ilk SLO’nun durumu hala iyi olsa da, hata bütçesi zaten tüketilmiştir. Bu nedenle, SRE’lerin hata bütçeleri tükenmeden bu tür uyarıları alması gerekir. İkinci SLO zaten kötü durumda olduğundan, yangınla mücadelenin yanı sıra ilgili yedi sorunun araştırılması, SRE’nin önceki sorunların tarihini ve ortak temel nedenleri anlamasına yardımcı olacaktır. SRE daha sonra kalite iyileştirmelerinin veya iyileştirme otomasyonunun en çok nerede gerekli olduğunu tam olarak belirleyebilir.

Detaylı bilgi İçin lütfen tıklayınız.

--

--

Perform Yazılım
Perform Yazılım

No responses yet