Başlıca SRE ilkeleri ve uygulamaları: SRE'nin insan tarafı

Tamamlandı

Başarılı bir operasyon süreci, istenen güvenilirliği elde eden ve bunu sürdüren işlemdir. Böyle bir süreç, makinelere nasıl davrandığının yanı sıra, o ortamdan sorumlu insanlara nasıl davrandığını da gösterir. Site güvenilirliği mühendisliği, bu gerçeği, uygulaması için önemli olan birçok şekilde kabul eder.

Zahmet

İlki, "zahmet" kavramına odaklanmaktır. SRE bağlamında zahmet, belirli özelliklere sahip bir insan tarafından yapılan operasyon çalışmasına karşılık gelir. Zahmetin uzun vadede kazanılan bir değeri yoktur. Anlamlı herhangi bir yoldan hizmeti ileri taşımaz. Genellikle yinelenen ve büyük ölçüde el ile gerçekleştirilir (otomatikleştirilmiş olsa bile). Hizmet veya sistemler zamanla büyüdükçe, bununla orantılı olarak söz konusu sisteme yönelik isteklerin sayısı da büyük olasılıkla artar ve daha da fazla el emeği gerektirir.

Örneğin, bir hizmet için SRE ekibinin aşağıdakilere benzer, iş yükü olarak kabul edilen operasyonel yüklere tabi olması gerekebilir:

  • Her hafta bir şey sıfırlanıyor.
  • El ile yeni hesaplar ve disk alanı sağlama.
  • İşlemi el ile tekrar tekrar yeniden başlatma.

Bu eylemlerin tamamlanması hizmeti uzun vadeli ve kalıcı bir şekilde daha iyi hale getirmez. Ayrıca bu eylemlerin tekrar yapılması da olasıdır.

Dekont

Birçok yerde yapıldığı gibi buna benzer istekleri bir tür bilet sisteminde tutuyor olsanız bile, eylemi gerçekleştirmek ve bileti çözmek yine de zahmetlidir. Yalnızca iyi izlenen bir zahmetli iştir.

SRE'ler zahmetli işlerden nefret eder. Mümkün ve uygun olduğu her durumda bunu ortadan kaldırmaya çalışır. Bu amaç, otomasyonun SRE'de devreye girdiği yerlerden biridir. Bu istekler otomatik olarak işlenebilirse, ekip istek kuyruğunu temizlemekten daha doyurucu ve etkili işler üzerinde çalışmak yapmak için serbest kalabilir.

Emekle ilgili olarak "uygun" sözcüğünün kullanılması, güvenilirlikle ilgili kullanımına benzer. Zahmeti ortadan kaldırma çalışmasının diğer çalışmalardan daha düşük öncelikli kabul edildiği durumlar olabilir, ama genele bakıldığında hizmeti zahmetli işlerden arındırmak SRE için başlıca odak noktalarından biridir.

Proje çalışması - tepkisel "ops" çalışması karşılaştırması

Bir sistemin güvenilirliğini artırmak veya kaldırmak için gereken işleri yapmak için, bir SRE'nin zamanı uygun şekilde ayrılmalıdır. Tüm zamanlarını itfaiyecilik yaparak, sayfaları yanıtlayarak veya yalnızca bir bilet kuyruğu işlemekle geçirmediklerinden emin olmak isterler. Zaman ayırıp zahmetli işleri ortadan kaldıracak, biletlerin gerekli olmadığı bir self servis otomasyonu kuracak, hizmeti ve insanları daha verimli hale getiren projeler oluşturacak kodu yazabilmeliler. Genellikle atıfta bulunulan rakam (orijinal Google modelinden gelir), ekipte %50 operasyon yükünün aşılmamasıdır.

Dekont

%50 biraz rastgele bir sayıdır, ama uygulamada birçok kişi için makul bir hedef gibi görünmektedir.

SRE'nin yaşamında tüm zamanını yangın söndürmeye ayırdığı dönemler olabilir ama bu kalıcı bir durum haline gelemez. Ekibin tepki vermeye dayalı "ops" çalışması (çoğu zahmetli iştir) uzun süredir zamanının %50'den fazlasını alıyorsa, bu yakıtın tükenmesi ve kötü güvenilirliğin tarifidir. Bu durumda, daha önce tartıştığımız verimli döngüler çalışamaz veya oluşturulamaz. SRE de benzer şekilde kötü dengelenmiş arama yüküne dikkat eder çünkü bu da ekip üzerinde güçlü bir olumsuz etki yaratma potansiyeline sahiptir.

Artık SRE'nin temel uygulamaları ve ilkelerinden bazılarını görme şansı elde ettiğimize göre, biraz da nasıl başlangıç yapılacağına değinelim.

Bilgilerinizi kontrol edin

1.

Aşağıdakilerden hangisi zahmetli işin özelliği değildir (SRE bağlamında)?

2.

SRE'nin zahmetli işle ilişkisi nedir?

3.

Bir SRE için önerilen çalışma dökümü hangisidir?