SRE’nin (Site Güvenilirlik Mühendisliği) Rolleri ve Sorumlulukları
Bazı şirketler, ne olabileceğini ve bununla nasıl başa çıkılacağını anlamak için en kötü durum senaryolarıyla başa çıkmak için ‘kaos günleri’ düzenliyor.
“Site güvenilirliği mühendisleri, kuruluşlarına ve gerçekten yeni uygulamalar sunan insanlara esnek altyapı ve esnek hizmetler sağlamak için yazılım mühendisliği etrafında iyi uygulamaları kullanır”. Ayrıca, SRE’lerin genellikle sistemleri çalışır durumda tutan sistem mühendisleri gibi geleneksel operasyon rollerinden de gelebilir. Kısacası; “Saha güvenilirliği mühendisleri, sistemlerin güvenilir, dayanıklı ve kullanılabilir kalmasını sağlar”.
SRE Raporunun Durumu
Çeşitli endüstrilerdeki 450 SRE’den, site güvenilirliği mühendisliğinin (SRE) bir disiplin olarak nasıl geliştiğine dair filtrelenmemiş bakış açılarını paylaşmalarını istedik. Rapor, SRE’lerin üstesinden gelmesi gereken zorlukları ve SRE’nin geleceğinin nasıl göründüğünü ortaya koyuyor.
SRE’ler için tipik beklentiler:
Tipik olarak, SRE’ler teslimat hızının güvenlik, hizmet veya çözüm kesintisi ile sonuçlanmamasını sağlamakla görevlendirilir. Ancak, “Beklentiler her şirket için biraz farklıdır. Altın kural yok. Birçoğu, sistemleri izleme ve gözlemlenebilirlik ve bakımdan ve gerekli ortamları döndürmek için otomasyon sağlamaktan sorumludur.”
Hizmet ve uygulama dağıtımı için çerçeveler ve platformlar sağlamada SRE’lerin rolünü vurgulanır. “İşler ters gittiğinde, bir alarm varsa, SRE’ler genellikle birinci sınıf savunucuların rolünü üstlenir”. “Harika bir organizasyonda, bunu tek başlarına yapmazlar — ateş altında olan uygulamalarla başa çıkmak için sürekli olarak bireysel uygulama ekipleriyle ve içinde çalışırlar.”
Belki de SRE’lerin en önemli rolü esneklik mimariliğidir. Bir hizmet olarak esneklik satın alamazsınız. Tasarımla dayanıklı sistemler inşa ederek bunun için mimarlık yapmalısınız. Bu mimari yaklaşım yakın zamanda Dynatrace’in Almanya’daki bir AWS kesintisine dayanmasına yardımcı oldu. Otomatik teslimat, esneklik ve auto-remediation, kritik sistemlerin etkilenmemesini sağlamaya yardımcı oldu.
Bir SRE’nin rolleri ve sorumlulukları
Teknoloji gelişmeye devam ettikçe ve işletmeler dijital altyapıya daha fazla bağımlı hale geldikçe, bir SRE’nin rolü paha biçilmez hale geldi. Bir SRE’nin standart sorumluluklarından bazıları şunlardır:
- 1- İzleme ve Uyarı
Bir SRE’nin birincil görevlerinden biri, bir şirketin dijital altyapısını izlemektir. Bu, endişeleri önemli sorunlar haline gelmeden önce tespit etmek için izleme araçları ve sistemleri kurmayı içerir. SRE’ler, sorunlar tespit edildiğinde uygun kişileri bilgilendiren uyarı sistemleri kurar.
- 2- Olay Müdahalesi
SRE, sorunlar tespit edildiğinde temel nedeni belirleyerek, bir plan geliştirip uygulayarak ve ilgili paydaşlarla iletişim kurarak hızlı ve etkili bir şekilde yanıt verir.
- 3- Otomasyon ve Takımlama
SRE’ler, bir şirketin dijital altyapısını yönetmek için kullanılan araçları ve sistemleri geliştirir ve sürdürür. Bu, süreçleri düzene sokmak ve insan hatası riskini azaltmak için otomasyon komut dosyaları geliştirmeyi içerir. SRE’ler ayrıca araçların geliştirilebileceği alanları belirler ve işletmenin değişen ihtiyaçlarını karşılamak için yeni araçlar oluşturur.
- 4- Kapasite Planlama
SRE’ler, bir şirketin dijital altyapısının işletmenin ihtiyaçlarını karşılayabilmesini sağlar. Bu, gelecekteki talebi karşılamak için gerekli kapasiteyi tahmin etmek ve garanti etmek için kullanım kalıplarını analiz etmeyi içerir.
- 5- Işbirliği
SRE’ler, şirketin dijital altyapısının güvenilir, ölçeklenebilir ve güvenli olmasını sağlamak için diğer ekiplerle yakın bir şekilde çalışır.
Bir SRE’yi harika yapan nedir?
Büyük SRE’ler risk alanlar, tamirciler ve yenilikçilerdir. Bir sistemi 100 kullanıcıdan 100.000 kullanıcıya, çalışma süresini ve esnekliği korurken 1.000.000 kullanıcıya ölçeklendirmek için ne gerektiğini anlıyorlar. Geliştirmede alınan kararların üretim ortamlarını nasıl etkilediğini ve üretim sistemlerinin ihtiyaçlarının tasarımı nasıl etkileyebileceğini düşünen sistem düşünürleridir.
Bu, sürekli test etme, hatayı kabul etmeyi ve tekrarlanabilir süreçleri uyarlamayı, otomatikleştirmeyi gerektirir. Başarılı SRE’ler her duruma esneklik ve adaptasyon zihniyeti getirir.
Bazı şirketler, ne olabileceğini ve bununla nasıl başa çıkılacağını anlamak için en kötü durum senaryolarıyla başa çıkmak için ‘kaos günleri’ düzenliyor”
Otomasyon, SRE başarısının bir başka göstergesidir. İnsanlar otomatikleştirilebilen ve otomatikleştirilmesi gereken tüm görevleri otomatikleştirmeye çalıştıklarında bu rolde başarılı olurlar. Bu, gerçek yenilik sunmak için onları serbest kılar. Herkesin doğru koşullar altında yenilik yapabilse de, ekiplerin genellikle manuel ve tekrarlayan görevlerin “zahmeti” tarafından engellenir. Amaç, kendinizi mevcut rolünüzden ve bir sonraki rolünüze otomatikleştirmektir.
SRE’lerin izole bir şekilde çalışamaz. İnsanların kendilerini yeni teknolojiler ve uygulamalarla eğitmesine izin verilmelidir. Sır saklamayın — açık olun ve başkalarından öğrenmenin yanı sıra kendi öğrendiklerinizi paylaşın. Dışarıda birçok harika konferans var — başkalarının yaptıklarından ilham almaya ve yaptıklarınızla başkalarına ilham vermeye değer.
DevOps’a karşı SRE
DevOps ekiplerinin değişimi düzene sokmaya odaklandığı yerlerde, SRE’ler bu değişikliklerin genel başarısızlık oranlarını artırmamasını sağlamaya yardımcı olur. Aslında, bunlar aynı madalyonun iki yüzü: DevOps hızı otomatikleştirirken, SRE güvenilirliği otomatikleştirir. Sonuç: Hız ve güvenlik arasında bir dengedir.
DevOps süreçlerini, genellikle dağıtım sıklığı ve değişiklikler için teslim süresi ile ölçülen yeni yetenekleri hızlandırmak için otomasyonu kullanarak, geliştirme yaşam döngüsü boyunca soldan sağa hareket ettiğini görüyor. Buna karşılık, SRE, arıza oranlarını sınırlamaya ve hizmeti geri yüklemek için gereken süreyi azaltmaya odaklanarak, geliştirmede üretim seviyesi gereksinimlerini kullanarak sağdan sola hareket eder. “SRE, çok fazla değişiklik olmasına rağmen, bu değişikliklerin bir şeyleri bozmadığından emin olmakla ilgilidir.”
SLO’lar söz konusu olduğunda SRE ve DevOps’un örtüşür. SLO’lar tamamen iş hedeflerini desteklemekle ilgilidir. Şirketlerin %99 güvenilirliğe sahip sistemlere ihtiyacı olabilir. Kullanıcı tabanlarını artırmak veya son kullanıcı deneyimini geliştirmek isteyebilirler. Bu hedefleri tatmin etmek DevOps’un rolüdür. Ancak bu hedeflerin altında, hedeflerinize özgü teknik hedefler vardır. Doğru zamanda doğru özelliklerle iş başarısına katkıda bulunurlar ve değişimle başa çıkmanıza yardımcı olurlar. Bu hedefleri gerçekleştirmek SRE personelinin işidir. Sonuç olarak, “SLO’lar DevOps ve SRE’leri bir araya getirmenin harika bir yoludur.”
Site güvenilirliği “çözülmüş bir sorun” değildir ve asla olmayacaktır. Gelişen kurumsal taleplerle birlikte yeni hizmetler ve uygulamalar, SRE ekipleri için her zaman iş olduğu ve her zaman iyileştirme için yer olduğu anlamına gelir.
SRE etkisini iyileştirme söz konusu olduğunda, “En büyük şey, başkalarından öğrenmenin yanı sıra açık olmak ve kendi öğrenmelerinizi paylaşmaktır. Dışarıda birçok harika konferans var — başkalarının yaptıklarından ilham almaya ve yaptıklarınızla başkalarına ilham vermeye değer.” Ayrıca hatalarınızdan ders alma ihtiyacınız da yüksek olmalıdır. Bazı şirketler, ne olabileceğini ve bununla nasıl başa çıkılacağını anlamak için en kötü durum senaryolarıyla başa çıkmak için ‘kaos günleri’ düzenliyor.
SRE uygulamalarınızı yükseltmek için bir çözüm mü arıyorsunuz? Dynatrace yardımcı olabilir. En karmaşık dağıtılmış bulut ortamları için bile otomatik ve akıllı gözlemlenebilirlik sağlayan Dynatrace Yazılım Zeka Platformu, SRE ve DevOps ekiplerinin sorunları oluşmadan önce belirlemelerini sağlar. Özünde AI ile sürekli otomasyonla hareket eden Dynatrace, yazılım geliştirme yaşam döngüsünün her adımında site güvenilirliği sorunlarına hassas kök neden yanıtları sunar. Üretim öncesi ortamlarda erken geliştirmeden üretim ortamlarındaki teslimat ve operasyonlara kadar Dynatrace, SRE ekiplerinin güvenilirliği, kullanılabilirliği ve gecikmeyi iyileştirmesine ve hizmet kesintilerinin ve yavaşlamaların iş etkisini azaltmasına yardımcı olur.