Dynatrace AI, Hata Öngörülebilirliği ve Kök-Neden Analizi

Perform Yazılım
4 min readJul 5, 2021

--

Dynatrace, Site Güvenilirlik Mühendisliği (Site Reliability Engineering-SRE) ekiplerinin proaktif olarak en yüksek hizmet kalitesi düzeylerini sağlamasını sağlar. Dynatrace AI motoru olan Davis, eşikler aşılmadan önce gerçek zamanlı olarak SLO ihlallerine katkıda bulunanları tanımlar, sorunların temel nedenlerini ve bunların SLO’lar üzerindeki etkilerini belirler.

Modern hizmet ortamlarında, Hizmet düzeyi hedefleri (Service-level-objectives-SLO’lar), Site Güvenilirlik Mühendisliği (SRE) ekiplerinin dijital hizmetlerinin yüksek kalitede sunulmasını sağlamak için seçilen metodolojisidir. Bununla birlikte, birçok SRE ekibinin karşılaştığı büyük bir zorluk vardır: Bir SLO sağlıksız bir durum göstermeden ilgili bozulmaları erkenden nasıl yakalayabilirim.

Hâlâ olumsuz değerlere bakarak mı tepki mi veriyorsunuz?

Örneğin bir haftalık gözlem süresine sahip SLO’lar elbette kısa ömürlü aykırı değerlerden aşırı derecede etkilenmezler. Bununla birlikte, bu tür gözlem sürelerinin bir dezavantajı vardır: olaylar birikebilir ve bu olaylar ile karşılık gelen sağlık ölçümleri arasında bir uyarıyı tetikleyecek kadar azalan bir gecikme vardır.

Çevik ekipler, bir sistemde durumunun müdahale gerektirecek kadar kötüleştiğine karar vermek için SLO’ları kullanır.

Bazı SRE ekipleri, bir olay durumunda eylem sürelerini azaltmak için farklı gözlem dönemleri için aynı SLO’ları tanımlayarak işlem yapar. Birçok ekip, biri stratejik kararlar için, biri taktik kararlar için ve biri de kısa süre olayları yakalamak için olmak üzere üç farklı gözlem süresi seviyesi kullanır.Bu fazlalıklar elbette ek çabalar ve karmaşıklık yaratabilir.

Hata payları ve problem oranlarının izlenmesi çok daha iyi bir yaklaşım sunar, ancak kapsamlı bir manuel çaba olmadan bu yaklaşım hala iki soruyu açık bırakır:

  • Anormallikleri SLO’larınızı etkilemeden önce nasıl erken tespit edebilirim?
  • Hızlı düzeltmeyi kolaylaştırmak için, büyük potansiyel SLO etkisi olan ve ortaya çıkan sorunların temel nedenlerini nasıl hızlı bir şekilde belirleyebilirim?

Çoğu izleme aracı yalnızca tek bir SLO metriği sunar. Ancak, tek bir SLO sağlık metriğini ve hata paylarının değiştiğini izlemek yanıtlar açısından fazla bir şey sağlamaz; sadece bariz olanı doğrular ki bu da SLO’nun sağlıksız olduğunu gösterir. En iyi senaryoda, yukarıdaki soruları cevaplamak için, manuel araştırma yapacak ve verileri sizin için yorumlayacak uzmanlara ihtiyacınız vardır. En kötü durumda ise, günümüzün dinamik ve heterojen ortamlarının doğası böyle bir manuel araştırmayı imkansız kılmaktadır.

Dynatrace, Site Güvenilirlik Mühendislerinin SLO’larını sağlıklı tutmasına proaktif olarak yardımcı olur.

Yapay zeka motorumuz Dynatrace Davis, stratejik gözlem dönemlerinde bile yeterince hızlı tepki verme konusundaki temel zorluğun üstesinden gelen benzersiz bir özellik sunar. Davis, SLO’larınızdan herhangi biri risk altında olduğunda, herhangi bir ölçüm kırmızıya dönmeden önce sizi bilgilendirir.

Dynatrace, tüm uygulama ve altyapı bileşenlerinizin birbirine nasıl bağlı olduğunu anladığı için bu hemen çalışır. Bu şekilde Davis, tanımlanmış SLO’ları potansiyel olumsuz etki sunan anormalliklere bağlayabilir.

Davis AI, gelecekteki SLO sağlığının risk altında olup olmadığını tahmin eder.

Mükemmel bir %100 SLO sağlık durumu gösteren bir ön uç hizmetinin kararlılığı için bir SLO’nun tanımlandığı bir örneğe bakalım:

Yukarıdaki SLO kutucuğunda Davis’in, SLO’nun kapsadığı hizmet topolojisi içinde devam eden bir olay hakkında SRE ekibini bilgilendirmek için kritik bir hata göstergesi gösterdiğine dikkat edin. SLO hala %100 mükemmel sağlık gösterse de, Davis AI proaktif olarak gelecekteki SLO sağlığının risk altında olduğunu tahmin ediyor.

Dynatrace AI, SLO’yu etkileyen olayların temel nedenlerini saptar.

Ayrıca, bu kutucuğa tek bir tıklama, tüm etkin olayları ve SLO’nun gelecekteki durumu üzerindeki olası olumsuz etkileri görüntüler.

Temel neden nedir?

Sağlıksız bir SLO’nun ayrıntılı incelemesi, sizi bu olayların temel nedenleri olan algılanan sorunların filtrelenmiş bir akışına götürür. Temel nedenlerin bu hassas AI destekli tespiti, kritik hizmet kesintileri sırasında yalnızca tek bir izole sağlık metriği göstermek yerine SRE ve DevOps ekipleri için değerli zaman tasarrufu sağlar.

SLO şablonları ile bir dakikadan kısa sürede çalışmaya başlayın

Hizmet düzeyi hedefleri, hizmet düzeyinin her yönüne ilişkin nicel bir ölçüm sağlayan özenle seçilmiş Hizmet düzeyi göstergelerinden (SLI’ler) oluşur. Tipik olarak, bir SRE ekibi verilen hizmetler için en iyi gösterge metriklerini seçmek için iyi bir zaman harcar ve bu da hizmet kalitesini yansıtan iyi tanımlanmış SLO’lara yol açar.

Google Site Güvenilirlik Mühendisliği sayfası, güvenilir küresel BT hizmetleri için SLO’ları tanımlama fikrini anlamak ve benimsemek için harika bir başlangıçtır.

https://sre.google/

Ancak Dynatrace’te SLO’ları kullanmaya başlamak daha da kolaydır ve en popüler kullanım örnekleri için SLO şablonları kullanıma hazırdır.

Gözlemlenebilirlik alanının ötesinde çeşitli kullanım durumları için en iyi uygulamalı SLO tanımlarından oluşan bir koleksiyon sunuyoruz; Dynatrace’in kullanıma hazır sağladığı önceden tanımlanmış SLO şablonlarından birini seçmeniz yeterlidir.

Örneğin, mobil uygulama teklifinizin hizmet kalitesini ölçebilirsiniz. Dynatrace, mobil uygulamalarınızın güvenilirliğini ve kararlılığını ölçmek için en iyi uygulamalı SLO’yu oluşturmak için kullanabileceğiniz, mobil sorunsuz bir kullanıcı SLO şablonu sunar.

İş açısından kritik SLO’larınızı tanımladıktan sonra hazırsınız demektir. Davis daha sonra SLO’larınızı sürekli olarak otomatik olarak analiz edecek ve SLO’lara gerçekten proaktif bir yaklaşım sağlayacaktır.

SLI’ler/SLO’lar hakkında daha fazla bilgi edinmek istiyorsanız, burada önerdiğimiz birkaç kaynak bulunmaktadır:

  • Üretim raporlamasının ötesinde SLO — teslimatı ve operasyon esnekliğini otomatikleştirin (Andreas Grabner)SLOconf: SLOs beyond production reporting — automate delivery & operations resilience — by A Grabner
  • Teslimat hattınızdaki kalite kapıları için SLO’lar (Andreas Grabner) SLOconf: SLOs for quality gates in your delivery pipeline — by Andreas Grabner
  • Performans Kliniği: Dynatrace’de SLO’lara Başlarken | Dynatrace
  • info.dynatrace

Detaylı bilgi için lütfen tıklayınız.

--

--

Perform Yazılım
Perform Yazılım

No responses yet