Bulut izleme ve yanıt

Bu makale, bulut izleme kılavuzundaki bir serinin parçasıdır.

Yanıt, hizmet tüketicilerine izin veren izlemeden alınan veri temelli kararlar temelinde bir veya daha fazla eylem tanımlamanın sonucudur:

  • Eyleme dönüştürülebilir hale getirin: eyleme dönüştürülebilir sinyaller oluşturmak için iyi ayarlanmış izleme yapılandırmalarını kullanın.
  • Sürekli izleme: Sorunları tanılamaya daha fazla yardımcı olmak için olay boyunca izleme ve sorun giderme etkinlikleri uygulayın.
  • Otomatikleştirme: Tanımlanan sinyallere göre otomatik araştırma, tanılama, çözümleme, kurtarma ve düzeltmeyi yapılandırın.

Anlam ilkesi burada geçerlidir. Bu, uyarıları, bildirimleri ve rapor özetlerini ayarlamaya ve iyileştirmeye yönelik işlem akışına veya ilkeye yardımcı olur. Bulut izleme, insanlara bir sorun olduğunu bildirmekten çok daha fazlasıdır. Ayrıca, tepki vermek için sistemlere ve hizmetlere sinyal sağlamakla da ilgili.

İzleme, çok çeşitli senaryolarda kritik bir rol oynar:

  • Dinamik hizmet davranışını etkinleştirme: İzleme verilerine göre tepki vermek için sistemleri ve hizmetleri dinamik olarak kontrol edin ve olayları otomatik olarak ortadan kaldırın.
  • Sinyalleri sürekli değerlendirin: Dinamik işlemler, uyumluluk, otomatik ölçeklendirme ve görselleştirmeler için sürekli bilgi verin ve telemetri sağlayın.
  • Kuruluş eylemleri: BT kuruluşunun değişiklik üzerinde işlem yapmalarına ve bunları yönetmelerine yardımcı olun.

Uyarı

Otomasyon, modern bulut ortamındaki daha pahalı hizmet yönetimi işlemlerinin yerini alır ve daha fazla olayı ortadan kaldırır. Uyarılar farkındalıkta önemli bir rol oynar, ancak uyarı yorgunluğunu veya gürültüsünü önlemek için eyleme dönüştürülebilir olmalıdır.

Uyarıların tanımlanması, hizmetlerin ve sistemlerin sağlıklı, hızlı yanıt veren, güvenilir ve güvenli kalmasını proaktif olarak sağlamaya yardımcı olur. Performansı garanti etme, Hizmet Düzeyi Hedeflerini (SLO) destekleme, kullanılabilirlik ve gizlilik için uygun bir uyarı stratejisi gerekir. Uyarıların yükseltilmesi gözlemlenebilirlik açısından önemli değildir ve bugün ilk savunma hattı olarak kabul edilmemelidir. Bunun yerine, otomasyon burada kritik bir rol oynamalıdır.

Geleneksel olarak izleme, birinin eyleme geçebileceği bir uyarı oluşturarak tamamen reaktif bir süreç anlamına geliyordu. Bu yaklaşım, modern hizmet yönetimi veya bulut operasyonları uygulamalarından sonra düzeltilmelidir. Bu yaklaşım çeviklik, minimum maliyet ve iyileştirme yoluyla bulut verimliliğinin hedeflerine uymayan geleneksel ITIL Olay Yönetimi yolunu yakından izler.

Modern bir yaklaşım, algılanan koşulların çok daha bilgilendirici ve otomatik bir sıklığı olabilir, örneğin:

Algılanan koşul Temel eylem Modern eylem
  • Performans ölçümü - yüksek bellek kullanımı.
  • Güvenlik tehdidi - şüpheli ağ etkinliği algılandı.
  • Kullanılabilirlik hatası - Azure blob depolama istekleri başarısız oluyor.
  • Uyarı ve bildirim, web kancası, anında iletme bildirimi, playbook, otomatik ölçeklendirme Sorunlu bileşeni belirlemek için sorgu günlükleri ve sorunlu bileşenle ilgili sorunu düzeltmek için otomasyonu tetikleyin.

    Azure'da uyarı ve otomasyon özellikleri için ilgili kaynakların listesi aşağıdadır:

    Modern bulut izleme

    Geçmişte kullanılabilen izleme platformları ve ilgili araçlarla karşılaştırıldığında bulut bilişim şunları sunar:

    • Yanıt seçeneklerini ayarlamak için çok daha fazla esneklik.
    • Otomatik yanıtları geliştirmenin ve etkinleştirmenin daha kolay yolları.
    • Bulut protokolleri veya API yöntemleri DevOps dahil olmak üzere iş yönetimi sistemleriyle daha kolay tümleşir.

    İster araştırma, zenginleştirme, yönlendirme, atama, düzeltme, kurtarma, ister çözüm olsun, otomatik eylem aralığı için aşağıdaki modları göz önünde bulundurun:

    Orchestration yöntemi Açıklama
    Tam otomatik Eylemler otomatik olarak gerçekleştirilir. Tam otomasyon, kullanışlılığının kısa ömürlü olmadığı ve güvenli olduğu durumlarda güvenilir, verimli ve dayanıklı olmalıdır. Tam otomasyon, stratejik girişimlerinize daha fazla odaklanabilmeleri için kaynaklarınızı serbesttir.
    Yarı otomatik Herhangi bir düzeltme eylemi için onay gereklidir.
    El ile Operatör, bir otomasyon örneği veya playbook'u seçilmiş bir kitaplıktan seçer.

    Uyarı, güvenlik olaylarına, performans ölçümlerine, kullanılabilirlik bilgilerine ve günlüklere göre izleme verilerine bağlıdır. Veri temelli eylemler, etkiyi ve hangi duyarlı eylemin uygulandığını belirlemek için toplanan farklı veri türlerini toplayarak ve işleyerek izlenen her kaynağın bütünsel, uçtan uca perspektiflerinin analiz edilmesinden kaynaklanır.

    Ölçüm uyarılarına ve güvenlik olaylarına göre otomasyon hakkında daha fazla bilgi edinmek için okumanızı şu kaynaklarla genişletin:

    Maliyet verimliliği

    Diğer gözlemlenebilirlik disiplinlerinde olduğu gibi ekibin de maliyet etkilerini ve modern olay yönetimi desteğiyle tanımlanan yanıt türlerinin maliyetleri denetlemeye nasıl yardımcı olduğunu anlayıp hayata geçirmesi gerekir. Ayrıntılı hedef, bir sorunu hızlı bir şekilde yanıtlayarak ve çözerek Ortalama Kurtarma Süresi'ni (MTTR) azaltmak olsa da, BT veya iş geliri akışı üzerindeki olası maliyeti ve etkisini sürekli değerlendirmeniz gerekir.

    Bildirilen her olayın bir maliyeti vardır. Kuruluşun bir yanıtı otomatikleştirmek için düzenlemeye yatırım olduğunu varsayalım. Bu durumda, otomasyonu sağlayan bu hizmet veya özellikleri kullanmak için bulut hizmetinden gelen tüketimi artırarak maliyetin maliyet avantajını ve etkisini değerlendirmeniz gerekir.

    Otomasyon

    Bulut otomasyonu, güvenlik ve sistem durumu izleme için önemli avantajlar sunar. Hız, esneklik ve duyarlık, bulut otomasyonu tarafından duyarlı işlemlere kazandıran üç arketiptir. Buna genellikle düzenleme adı verilir ve Microsoft bulutu çeşitli hizmetler sunar.

    Örneğin:

    1. Bir veya daha fazla günlükten kimlik temelli bir tehdit algılanır ve uyarı oluşturulur.
    2. Otomasyon, daha fazla bilgi toplamak ve uyarıyı zenginleştirmek için daha fazla günlük ilişkilendirmek için hemen tetiklenir.
    3. Operatör, bir kitaplıktan doğru otomasyonu seçerek kullanıcı hesabını devre dışı bırakma gibi eylemlerde bulunur.

    Örnek veya kullanım örneği tamamen otomatikleştirilebilir.

    Otomasyon rolü daha sonra maliyetleri azaltan ve zaman kazandıran bir tür playbook sağlar:

    • Uzun bir araştırma, tanılama, çözüm ve kurtarma süreci boyunca takip etmek için hiçbir güvenlik olayına gerek duyulmadı.
    • Algılama-düzeltme döngüsü saniye veya dakika cinsinden veya saat cinsinden olabilir.

    Daha sonra ekibinizin, genel web sitelerindeki ham maddeden veya dahili olarak seçilmiş ve bir kaynak denetim deposunda depolanan esnek bir şekilde kullanılabilecek otomasyon örnekleri listesi veya kitaplığı oluşturması gerekir.

    Kimlik veya güvenlik olaylarını temel alan daha fazla otomasyon için önerilen okumanın listesi aşağıdadır:

    Başarılı uyarı stratejisi

    Bilmediğin şeyin bozuk olduğunu düzeltemezsiniz.

    Önemli konularda uyarıda bulunurken kritik öneme sahiptir. Doğru ölçümler ve günlükler toplanarak ve ölçülerek kullanılır. Ayrıca, koşullar karşılandığında otomatik bir yanıtı depolayabilen, toplayabilecek, görselleştirebilen, analiz edebilen ve başlatabilen bir izleme aracına da ihtiyacınız vardır. Hizmetlerinizin ve uygulamalarınızın gözlemlenebilirliğini ancak bunların bileşimini tam olarak anladığınızda geliştirebilirsiniz. Bu bileşimi, izleme platformu tarafından uygulanacak ayrıntılı bir izleme yapılandırmasıyla eşlersiniz. Bu yapılandırma, uyarıda bulunmak için mantıklı olan tahmin edilebilir hata durumlarını (hatanın nedeni değil belirtileri) içerir.

    Bilgilendirme uyarıları

    Bazı durumlarda, bazı uyarılar bilgilendirilebilir. Sistemlerimizin nasıl davrandığını öğrenmek için bunu kullanabiliriz. Örneğin, şu bilgilendirme uyarılarını almak isteyebilirsiniz:

    • Vm kapatıldı: Bir VM, atıkları en aza indirmek ve algılanan bir zamanlamaya veya düşük kullanıma göre maliyetleri kontrol etmek için otomatik olarak kapatıldı.

      Bu örnekte düzenleme, yerel zamanlama özelliğine ve izleme platformu tarafından kullanım koşulunu algılayan bir şekilde kullanılmıştır. Tek eylem olarak bildirimde bulunan veya yükselten uyarı yerine, gerçekleştirilen eylemi ve nedenini size bildirir.

    • Boşta kalan kaynaklar: IaaS veya PaaS kaynakları uzun bir süre boştadır veya Azure Danışmanı önerilerine göre sağlanmaz.

      Bu örnekte düzenleme, iş mantığına veya ITSM işlem iş akışına göre altyapıyla ilgili etkinlikleri yönetmek için kullanılabilir. Bugün çok daha hızlı yanıtlar ve eylemler gereklidir. Bulut ile uyarı, insanlar için otomatik yanıttan veya otomatik değer akışının bir parçası olarak sürekli düzenlemeden daha azdır.

    Uyarı stratejisiyle ilgili dikkat edilmesi gerekenler

    Öğrenmenin önemli olduğunu ve doğru tasarlandığında, bilgilendiren uyarıların bulut ekosisteminiz ve sistem durumunuz hakkında birçok içgörü sunabileceğini unutmayın.

    Bir belirtinin uyarı için uygun bir aday olup olmadığını belirlemek için aşağıdaki ilkeleri göz önünde bulundurun:

    • Eyleme dönüştürülebilir: Sorun önemli mi? Uygulamanızın durumuyla ilgili gerçek bir sorunu yansıtıyor mu? Örneğin, bir kaynak için sürekli bir süre boyunca CPU kullanımı çok yüksek olduğunda veya SQL sorgusu sürekli olarak performans sorunlarına neden olduğunda bir uyarı göndermek isteyebilirsiniz, ancak CPU kısa bir süre içinde ani artış gösterdiğinde uyarı göndermek istemeyebilirsiniz. Hatalı pozitif sonuçları azaltmak ve uyarı yorgunluğunu önlemek için işlemleri eyleme dönüştürülebilir hale getirin.

    • Aciliyet: Soruna acil dikkat gerekiyor mu? Böyle bir durumda sorumlu takıma hemen bildirim gönderilir.

    • Müşteri etkisi: Hizmet veya uygulama kullanıcıları sorundan etkileniyor mu?

    • Bağımlı sistemler üzerindeki etki: Aynı sorun üzerinde çalışan farklı ekipleri bilgilendirmekten kaçınmak için birbiriyle ilişkili bağımlılıklardan gelen uyarılar var mı?

    İlk dikkate alınacak bu noktalarla, izleme yapılandırmanızı geliştirmeye başlayabilirsiniz. Ortamlar arasında varsayımları test edebilir ve doğrulayabilirsiniz. Örneğin üretim dışı ortamlarda ve üretim ortamlarında bu konuları ve soruları sürekli değerlendirin. Sürekli iyileştirme, izleme sinyallerinde başarılı yanıt vermenin anahtarıdır.

    Neyin çalıştığını sürekli değerlendirirken, izleme yanıtınızın etkinliği konusunda farkındalığınızı sağlamaya yardımcı olmak için kendinize şu soruları sormayı göz önünde bulundurun:

    • Uyarı hacmi: Yüksek bir uyarı hacmine sahip misiniz? Önlenebilen çok sayıda eyleme dönüştürülemez uyarı var mı?
    • Fark edilmeyen sorunlar: İzleme yapılandırması tarafından yakalanmayan sorunlarla karşılaşan kullanıcılardan raporlar veya biletler mi alıyorsunuz?
    • Hatalı pozitifler: Yanlış bayrak eklenmiş uyarılar veya sinyaller mi alıyorsunuz?
    • Uyarı veya olay: Gerçekten bir uyarı göndermeniz mi gerekiyor yoksa tetiklenen uyarılardan bazıları yalnızca sistemde bayrak eklenmiş olaylar olabilir mi? Uyarı göndermek yerine, bunu sorguladığınızda sinyaller görünürse uyarı yorgunluğunu ve eyleme dönüştürülemez bildirimleri önlemek yeterli olur mu?

    Microsoft izleme çözümleri genelindeki özellikleri daha iyi anlamak için bu makale serisindeki izleme platformlarına genel bakış bölümüne bakın.

    Sonraki adımlar