AIOps’un 4 Aşaması ve Yapay Zeka
BT operasyonları için yapay zeka (AIOps), özellikle olay yönetimi olmak üzere BT operasyonlarındaki false-positive’leri yok etmek için makine öğrenimi (ML) ve yapay zeka (AI) kullanan bir BT uygulamasıdır.
Ama tam olarak AIOps nedir? Ve kuruluşunuzu nasıl destekleyebilir?
AIOps nedir?
Gartner, AIOps’u “olay korelasyonu, anormallik tespiti ve nedensellik belirleme dahil olmak üzere BT operasyon süreçlerini otomatikleştirmek için büyük veri ve makine öğreniminin” birleşimi olarak tanımlıyor.
Piyasadaki çoğu AIOps aracı ve platformunun doğru bir açıklamasıdır, ancak kapsamlı, modern bir AIOps çözümü için gerekli olan temel özellikleri içermez. AIOps’a böylesine modern bir yaklaşım, tam yazılım teslim yaşam döngüsüne hizmet eder ve modern çoklu bulut ortamlarının hacmini, hızını ve karmaşıklığını ele alır.
Çoğu AIOps çözümü, farklı gözlemlenebilirlik araçları da dahil olmak üzere BT yönetimi araçları ortamındaki çeşitli çözümlerden önceden toplanmış verileri alır ve analistin dikkatini odaklamak için neyin alakalı olduğunu sonuca bağlar. Bu umut verici görünse ve başarılı olduğunu gösterse de, dikkate alınması gereken önemli noktalar vardır.
Burada, AIOps ortamını bugünkü haliyle tartışacağız ve yapay zekayı DevOps sürecine gerçekten entegre eden alternatif bir yaklaşım sunacağız.
AIOps’a iki yaklaşım:
Daha fazla ayrıntıya dalmadan önce, AIOps’a yönelik iki kapsamlı yaklaşımı vurgulayalım:
Deterministik AI ve Makine Öğrenimi AI
Geleneksel AIOps:
Geleneksel AIOps yaklaşımları, uyarıları azaltmak ve korelasyon tabanlı panolar sunmak için makine öğrenimi modellerini kullanmak üzere tasarlanmıştır. Bu sistemlerin ölçeklendirilmesi genellikle zordur çünkü temeldeki ML motoru, sorunların kesin temel nedenine ilişkin sürekli, gerçek zamanlı bilgiler sağlamaz. Kapsamlı eğitim gerektirirler ve analistler değerli zamanlarını yanlış pozitifleri filtrelemek için harcamalıdır.
Modern AIOps:
Modern AIOps çözümleri, dinamik bulutlar ve yazılım teslim yaşam döngüsü (SDLC) otomasyonu için oluşturulmuştur, çünkü tam yığın gözlemlenebilirliği, gerçek zamanlı olarak kesin, sürekli ve eyleme dönüştürülebilir içgörüler sağlayabilen belirleyici bir AI motoruyla birleştirir. Bu, sistemlerin durumunu anlamak için olasılık modellerini kullanan stokastik AIOps yaklaşımlarıyla çelişir. Yalnızca belirleyici AIOps teknolojisi, tüm kurumsal geliştirme yaşam döngüsü boyunca tamamen otomatikleştirilmiş bulut işlemlerine olanak tanır.
AIOps neden gereklidir?
Modern uygulamalar, birçok buluta dağılmış yüzlerce veya binlerce birbirine bağlı mikro hizmetten oluşturulur ve bu da inanılmaz derecede karmaşık yazılım ortamlarına yol açar. Bu karmaşıklık, özellikle bir şeyler ters gittiğinde, bu sistemlerin durumunu anlamakta daha büyük zorluklara yol açar. AIOps genellikle sayısız uyarının gürültüsünü azaltmanın bir yolu olarak sunulur, ancak bundan daha fazlası olabilir ve olmalıdır. Tam özellikli bir deterministik AIOps çözümü, daha hızlı, daha kaliteli inovasyona, artan BT personeli verimliliğine ve büyük ölçüde iyileştirilmiş iş sonuçlarına yol açmalıdır.
İnsanlar, modern bir gözlemlenebilirlik çözümünün otomatik olarak işleyebileceği devasa miktardaki veriyi manuel olarak inceleyemez ve analiz edemez. Daha fazla görselleştirme, gösterge tablosu ve dilim ve detaya inmeyen sorgulama araçları ekleyen herhangi bir yaklaşım, sorunun çözümünden çok, sorunu örtmek için hantal bir sargıdır. Farklı arayüzler hala manuel müdahale ve analiz gerektirir ve bu şekilde geleneksel AIOps çözümleri esasen olay izleme araçları haline gelir.
Modern BT, daha yetenekli otomasyon üzerine kuruludur ve bunun için çaba gösterir ve AI, bu hedeflere ulaşmak için kritik öneme sahiptir. Sürekli entegrasyon ve sürekli teslim (CI/CD) süreçleri, yeni özelliklerin ve hizmetlerin kullanıma sunulması için akıllı işlem hatları sağlar. Kubernetes gibi düzenleme platformları, operasyon ekiplerini hizmetleri çalışır durumda tutmakla ilgili hataya açık ve sıradan görevlerden kurtarır. Tüm bu alanlar mümkün olduğunca otomatik hale getirildiğinde, geliştiriciler ve operasyon ekipleri sonsuz idari görevler yerine inovasyona odaklanabilir.
Modern bir AIOps çözümünün bileşenleri nelerdir?
AIOps’a kapsamlı, modern bir yaklaşım; gözlemlenebilirliği, yapay zekayı ve analitiği kapsayan birleşik bir platformdur. Bu hepsi bir arada yaklaşım, sistemlerdeki sorunları belirlemenin karmaşıklığını ele almak, sorunların bağlamını ve daha geniş ticari etkisini analiz etmek ve yazılım sorunlarına yanıt vermeyi otomatikleştirmek için gereklidir. En iyi çözümler, iş operasyonları için kritik olan sistemlerin ve hizmetlerin durumuna ilişkin gerçek zamanlı, sürekli içgörüler sağlar, böylece işletmeler, karmaşık sistemlerle kaçınılmaz sorunlara yanıt vermeye daha çok yeniliğe ve daha fazla odaklanmaya devam edebilir.
Geleneksel AIOps, sistem bileşenlerinin nasıl yapılandırıldığına dair bir model olmaksızın metriklere, günlüklere ve izleme verilerine bağlı olduğu için yapabileceği çıkarım türleri bakımından sınırlıdır. AIOps, bunun yerine, çözünürlüklere önemli ölçüde daha hızlı ulaşmak için karmaşık, dağıtılmış mimarilerin topolojisini tam olarak haritalamak için deterministik AI yeteneğinden yararlanmalıdır.
Geleneksel AIOps’un Zorlukları:
Deterministik olmayan AIOps çözümlerinin sağlayabileceği değerde sınırlamalar vardır ve geleneksel AIOps gerektiği gibi ölçeklendiremez.
Bir makine öğrenimi yaklaşımıyla, geleneksel AIOps çözümlerinin, algoritmanın daha sonra öğrenebileceği bir veri kümesi (yani eğitim verileri) oluşturmadan önce önemli miktarda veri toplaması gerekir. Yöneticiler, derecelendirme ve diğer benzer yollarla öğrenmeyi güçlendirebilir, ancak bu “AI”ın üretimdeki iş açısından kritik uygulamalara ilişkin içgörüler sağlayacak kadar iyi kalibre edilmesi haftalar hatta aylar alabilir.
Bu yaklaşım, hemen kurup unutmak değildir. Modern uygulamalar sık sık değişikliğe uğrar ve dağıtımları son derece değişkendir, bu da sürekli değişen bir veri kümesi anlamına gelir. Bu yöntem, karmaşık dağıtılmış uygulamalarda meydana gelen sık değişikliklerle ölçeklenemez.
Kayıp ve yeniden oluşturulmuş bağlam:
Geleneksel AIOps ile ilgili ikinci zorluk, veri işleme döngüsü etrafında toplanır. Geleneksel AIOps çözümleri, ürün satıcılarından bağımsız veri alımı için oluşturulmuştur. Bu, veri kaynaklarının tipik olarak farklı altyapı izleme araçlarından ve ikinci nesil APM çözümlerinden geldiği anlamına gelir. Bu araç setleri, önce farklı ayrıntı düzeylerinde bir veya daha fazla türde ham veri (metrikler, günlükler, izler, olaylar, kod düzeyinde ayrıntılar vb.) alır, ardından önceden belirlenmiş bir kurala dayalı uyarılar oluşturmadan önce bunları işler ( örneğin, bir eşik, öğrenilmiş temel veya belirli bir günlük düzeni).
Tipik olarak, makine öğrenimi yalnızca toplu olaylara erişilebilir olacak ve genellikle ek ayrıntıları hariç tutacaktır. AI, yeni olayların daha sonra sınıflandırılması için benzer yinelenen gelen olay kümelerini öğrenir. Bu verilerle bağlamı zaman ve meta veri tabanlı korelasyon yeniden oluşturur, ancak gerçek bağımlılıklara dair hiçbir kanıtı yoktur. Daha fazla verinin işlenmesine izin veren (metrikler gibi) entegrasyonlar olabilir, ancak bunlar sebep-sonuç kesinliği sorununu çözmeden sadece daha fazla veri seti ekler.
Veri işlemenin dört aşaması:
Veri işlemenin dört aşaması, ekiplerin veri işleme zincirlerinde AIOps’a ulaşmak için kullandıkları farklı yaklaşımlara bakmanın başka bir yoludur.
Dört aşama şunlardır:
- Ham verileri toplayın,
- Uyarılar için gruplayın,
- Verileri analiz edin,
- Bir eylem planı yürütün.
AIOps veri işlemenin 4 aşaması
- Siyah yay : Veri toplamayı kapsar ve veri analizlerini hazırlar : (ikinci nesil APM çözümü.)
- Gri yay : Veri toplama, gruplama ve analiz etme sırasında devreye girer ve onu uygulamaya hazırlar. (Geleneksel AIOps)
Bu iki aşamalı yaklaşım, fazla uyarıları azaltmak ve kritik sorunlara odaklanmak için ML yardımı ile farklı çözümlerden (ve satıcılardan) birçok olayın yönetilmesine yardımcı olan başka bir katman sunar.
Bununla birlikte, bu kolaylığın bedeli, araçlar değiştirilirken potansiyel bağlam kaybını da beraberinde getirir. Makine öğreniminin, otomatik kök neden analizi ve nihayetinde tam otomatik CloudOps elde etmek için bir adım daha ileri gitmenize izin vermesi gereken bağlam da budur.
Geleneksel AIOps çözümlerini statükoya bir yardımcı olarak düşünürsek; işlerinizin yetişmenize, olayları daha iyi yönetmenize ve daha reaktif olmanıza yardımcı olabilir. Ancak bu yaklaşım, günümüzün modern çoklu bulut ortamlarının ölçeğinde ve karmaşıklığı karşında çökmüştür.
Sonuç olarak, AIOps, BT organizasyonunuz genelinde daha fazla otomasyon sağlayarak, çalışma aşaması da dahil olmak üzere, tek bir ürün ve kullanıcı arayüzünde veri işlemenin dört aşamasını da kapsamalıdır. Buna olay yönetimine odaklanan CloudOps, uygulamaların daha iyi oluşturulması ve test edilmesi için DevOps ve uygulamaların güvenli olduğundan emin olmaya yardımcı olan SecOps (Mor yay) süreçlerin içinde olmalıdır.
Yalnızca deterministik yapay zeka ve sürekli otomasyon kullanan tüm veri işleme zincirini kapsayan bir yaklaşım, dağıtılmış mikro hizmet mimarilerinin hacmine, hızına ve karmaşıklığına ayak uydurabilir.
AIOps kullanım durumları:
Modern AIOps, CloudOps, DevOps ve SecOps dahil olmak üzere kuruluş genelinde daha kapsamlı otomasyon sağlar. Bu kullanım durumlarına daha yakından bakalım.
- CloudOps
CloudOps, olay ve özel durum yönetimi gibi süreçleri içerir. AIOps, bir olayın temel nedenlerini belirlemek ve bu nedenlere yönelik otomatik olarak yanıt vermek de dahil olmak üzere, olay yanıt sürecindeki önemli adımları otomatikleştirerek bir olayı çözmek için gereken süreyi azaltır. Günlükler değerli bir bilgi kaynağıdır, ancak çoğu zaman bu bilgilerin tanımlanması zordur. AIOps, bir miktar yanıt gerektiren ancak muhtemelen manuel olarak algılanmayacak ve üzerinde işlem yapılmayacak olayları belirlemeye yardımcı olabilecek teknikler getirir.
- DevOps.
DevOps, daha yetenekli oluşturma ve dağıtma işlem hatları desteğiyle AIOps’tan yararlanabilir. Test etme ve dağıtmadaki sorunlar otomatik olarak ele alınabilir, bu da CI/CD ardışık düzenlerini düzenlemeye ve inovasyon çıktısını artırmaya yardımcı olur. Bu artan otomasyon, esneklik ve verimlilik, DevOps ekiplerinin yazılım teslimini hızlandırmasına ve geri bildirim döngüsünü hızlandırarak daha hızlı ve daha güvenle yenilik yapabilmelerine yardımcı olur.
- SecOps.
Uygulamalar sürekli olarak geliştirilmekte, gözden geçirilmekte ve yeni özelliklerle güncellenmektedir, ancak bu yeni kodun dağıtılabilmesi için güvenlik açısından test edilmesi ve gözden geçirilmesi gerekmektedir. SecOps, uygulamaların güvenli olmasını sağlamaktan sorumludur ve AIOps, geliştirme, teslim ve dağıtım sırasında uygulamaları değerlendirme yeteneğiyle bunu destekler. Yeni dağıtılan bir uygulamadaki anormal davranış, insanların algılanmasından kolayca kaçabilir, ancak AIOps sistemleri, potansiyel olarak istismar edilebilir güvenlik açıklarını belirleyerek ve bildirerek SecOps mühendislerini tamamlar.
Otonom operasyonlar:
AIOps’un büyük hedefi, BT operasyonlarını otomatikleştirmek veya otonom operasyonları gerçekleştirmektir. Açıkçası, bu ancak dört aşamadan geçen akış insan müdahalesi veya yardımı olmadan gerçekleşebildiği zaman gerçekten başarılabilir.
Veri işleme zincirinin toplama, birleştirme ve yürütme aşamaları bir dereceye kadar çözülmüş olsa da, en zorlu kısım analiz aşamasıdır. Bir sorunun gerçek kök nedenini belirleme ve ardından, içgörüye dayalı olarak en iyi düzeltme eyleminin seçilmesi gerekir. Analiz aşamasını başarıyla üstesinden gelmek, yapay zekaya farklı bir yaklaşım gerektirir.
Deterministik yapay zeka:
Makine öğrenimi yaklaşımına alternatif bir yöntem, hata ağacı analizi olarak da bilinen deterministik yapay zekadır.
Deterministik bir yapay zeka nasıl çalışır?
Örneğin, bir uygulamanın arama isteklerini almada bir yavaşlama yaşadığını varsayalım. Değerleri farklılaşmış metrik, yanıt süresidir. Hata ağacı analizini tetikler, böylece analizinize metriğin ait olduğu izlenen varlıkla başlarsınız. Bu artık ağaçtaki başlangıç düğümüdür.
Ardından, bu uygulamanın sahip olduğu tüm bağımlılıkları araştırırsınız. Örneğin, CDN’ler gibi üçüncü taraf çağrıları veya arka uç veya mikro hizmet tabanlı bir uygulamaya yönelik daha karmaşık istekler olabilir. Tüm bu bağımlı düğümler, anormallikler için analiz edilecek ve araştırılacaktır. Bir düğüm temizlendiyse, bir yaprak oluşturacak ve anormallikleri gösteren düğümler, bağımlılıkları hakkında daha fazla araştırılacaktır.
Daha sonra, uygulamanın iletişim kurduğu web sunucusuna, ön uç katmanına ve arama hizmetine baktığınızı varsayalım. Ardından, tüm düğümlerde arama isteklerinin normalden daha yavaş olduğunu görürsünüz.
Bağımlılıkları tek yönde takip etmek o kadar basit değildir. Arama hizmetini barındıran işletim sisteminin, önemli miktarda CPU tüketen, bir eksikliğe neden olan ve arama hizmetini yavaşlatan tamamen bağımsız başka bir işlemi de çalıştırdığını varsayalım. Arama hizmetinden, sürece ve daha sonra ana bilgisayara olan bağımlılığı takip eder ve ardından o ana bilgisayarda çalışan diğer işlemlere yedeklersiniz. Bu, dikey (hizmetten ana bilgisayara) ve yatay (hizmetten hizmete veya süreçten işleme) bağımlılık analizini güzel bir şekilde gösterir.
Bu süreç, sistem bir temel neden belirleyene kadar devam eder. Bu durumda, çok işlem yapan en yakın servistir ve ağacın diğer ucunda etkiyi rahatlıkla artık değerlendirebilirsiniz (örneğin, bu sorundan kaç kullanıcının etkilendiğini bulabilirsiniz).
Bu yaklaşımın büyük avantajı hızıdır. Ayrıca eğitim verilerini tanımlamaya ve ince işçiliğe gerek kalmadan çalışır.
Topoloji bilgisinin önemi:
Deterministik AI, mantıksal bir hata ağacını takip ettiğinden, veri merkezinizin veya uygulama dağıtımınızın bir topoloji modelini gerektirir. Aksi takdirde, ağacın iç dallarının nasıl çalıştığı ve ardıdan problem kök neden bulunamaz.
ML tabanlı AIOps araçları, temel neden analizi yapmak için korelasyonel veriler ve panolar sunmak için verileri ve meta verileri alır. Öte yandan, hata ağacı analizine dayalı deterministik bir yapay zeka yaklaşımı, topoloji verilerinden yararlanır. Ve ölçümler, günlükler, olaylar, izler ve kullanıcı deneyimi verileri gibi bağlamsal bilgiler dahil olmak üzere gözlemlenen ham verileri dahil ederek gerçek zamanlı olarak bir varlık modeli oluşturur. Bağlamsal verilerle bu varlık modellemesi, deterministik yapay zekanın kesin ve tekrarlanabilir kök neden tanımlaması sunmasını sağlayan şeydir.
İki tür kök neden:
Ayrıca, iki farklı kök neden türü olduğunu da belirtmekte fayda var:
1. Teknik
ve
2. Temel.
Önceki örnek;
- Teknik: Sistemin teknik temel nedeni problemin nasıl oluştuğunu açıklar. Bu durumda, başka bir işlem CPU artışına neden olmuştur.
- Temel: Asıl kök neden, bu artışa neyin yol açtığını açıklamaktadır.
Otomatik temel kök neden analizi elde etmek için yapay zekanın, teknik kök neden olarak tanımlanan ve izlenen varlığın geçmişine veya değişiklik günlüğüne göz atabilmesi gerekir. Ve elbette, bu tür bilgilerin yapay zeka tarafından erişilebilir olması ve dolayısıyla varlığın bir parçası olması gerekir.
AIOps’u bir sonraki seviyeye taşımak:
Gartner, BT operasyonlarında yapay zeka için AIOps terimini kullandığından beri, uygulama ve teknolojileri olgunlaşıyor. Şimdi aslında, modern çoklu bulut ortamları, “AIOps nedir?” sorusunu yanıtlıyor. Ve bu ayrıca, AIOps’un tam yazılım teslim yaşam döngüsünü içerecek şekilde gelişmesi gerektiği anlamına gelmektedir.
Hala büyük ölçüde insan girdisine dayanan geleneksel, makine öğrenimi tabanlı yaklaşımlar, bize modern çoklu bulut mikro hizmet tabanlı uygulamaların taleplerini karşılamak için ölçeklenemeyen esasen olay izleme araçları sağlar.
Bununla birlikte, AI’ya yönelik deterministik bir hata ağacı yaklaşımı, gerçek zamanlı olarak kesin teknik ve temel kök neden tanımlamasına ve etki analizine izin verir. Sonuç, tüm geliştirme ve dağıtım hattı boyunca daha eksiksiz bir otomasyondur ve DevOps personelinin en iyi yaptıkları şeyi yapmalarını sağlar.
Sonuç olarak : Yalnızca ışıkları açık tutmak yerine inovasyon yaparak ve insan sorunlarına yeni çözümler yaratılmalıdır.