Program Project Flash — rozwijanie monitorowania dostępności maszyny wirtualnej platformy Azure

Flash, ponieważ projekt jest wewnętrznie znany, pochodzi od naszego niezłomnego zobowiązania do tworzenia niezawodnego, niezawodnego i szybkiego mechanizmu monitorowania kondycji maszyn wirtualnych przez klientów. Naszym głównym celem jest zapewnienie klientom niezawodnego dostępu do praktycznych i precyzyjnych danych telemetrycznych, natychmiastowego odbierania alertów dotyczących zmian i okresowego monitorowania danych na dużą skalę. Kładziemy również duży nacisk na opracowanie scentralizowanego i spójnego środowiska, które klienci mogą wygodnie wykorzystać, aby spełnić swoje unikatowe wymagania dotyczące obserwacji. Naszą misją jest zapewnienie, że możesz wykonywać następujące czynności:

  • Korzystaj z dokładnych i przydatnych danych dotyczących zakłóceń dostępności maszyny wirtualnej (na przykład ponownego uruchomienia maszyny wirtualnej i ponownego uruchamiania, zawieszania aplikacji z powodu aktualizacji sterowników sieciowych i 30-sekundowych aktualizacji systemu operacyjnego hosta) oraz dokładnych szczegółów awarii (na przykład platformy i zainicjowanych przez użytkownika, ponownego uruchomienia i zamrożenia, planowanych i nieplanowanych).
  • Analizowanie i zgłaszanie alertów dotyczących trendów dotyczących dostępności maszyn wirtualnych w celu szybkiego debugowania i raportowania miesięcznego.
  • Okresowo monitoruj dane na dużą skalę i twórz niestandardowe pulpity nawigacyjne, aby zachować aktualność najnowszych stanów dostępności wszystkich zasobów.
  • Uzyskaj zautomatyzowane analizy głównej przyczyny (RCA) szczegółowo dotyczące maszyn wirtualnych, przyczyn przestojów i czasu trwania, poprawek i podobnych — wszystkie w celu umożliwienia ukierunkowanych badań i analiz pośmiertnych.
  • Otrzymywanie natychmiastowych powiadomień dotyczących krytycznych zmian dostępności maszyny wirtualnej w celu szybkiego wyzwalania akcji korygowania i zapobiegania wpływowi użytkowników końcowych.
  • Dynamiczne dostosowywanie i automatyzowanie zasad odzyskiwania platformy na podstawie stale zmieniających się potrzeb związanych z obciążeniem i trybu failover.

Rozwiązania flash

Inicjatywa Flash jest przeznaczona do opracowywania rozwiązań na przestrzeni lat, które zaspokajają zróżnicowane potrzeby monitorowania naszych klientów. Aby ułatwić określenie najbardziej odpowiednich rozwiązań do monitorowania flash dla określonych wymagań, zapoznaj się z poniższą tabelą:

Rozwiązanie Opis
Azure Resource Graph (ogólna dostępność) W przypadku badań na dużą skalę scentralizowanego repozytorium zasobów i wyszukiwania historii duże klienci chcą okresowo korzystać z telemetrii dostępności zasobów we wszystkich obciążeniach przy użyciu usługi Azure Resource Graph (ARG).
Temat systemu usługi Event Grid (publiczna wersja zapoznawcza) Aby wyzwolić krytyczne i wrażliwe na czas środki zaradcze (ponowne wdrażanie, ponowne uruchamianie akcji maszyny wirtualnej) w celu zapobiegania wpływowi użytkowników końcowych, klienci (na przykład Pearl Abyss, Krafton) chcą otrzymywać alerty w ciągu kilku sekund od krytycznych zmian dostępności zasobów za pośrednictwem programów obsługi zdarzeń w usłudze Event Grid.
Azure Monitor (publiczna wersja zapoznawcza) Aby śledzić trendy, agregować metryki platformy (procesor CPU, dysk itp.) i skonfigurować precyzyjne alerty oparte na progach, klienci chcą korzystać z gotowej metryki dostępności maszyny wirtualnej za pośrednictwem usługi Azure Monitor.
Resource Health (ogólna dostępność) Aby wykonać natychmiastowe i wygodne testy kondycji interfejsu użytkownika portalu dla poszczególnych zasobów, klienci mogą szybko wyświetlić blok RHC w portalu. Mogą również uzyskać dostęp do 30-dniowego widoku historycznego kontroli kondycji tego zasobu w celu szybkiego i łatwego rozwiązywania problemów.

Całościowe monitorowanie dostępności maszyn wirtualnych

Aby uzyskać całościowe podejście do monitorowania dostępności maszyn wirtualnych, w tym scenariuszy rutynowej konserwacji, migracji na żywo, naprawy usługi i degradacji maszyny wirtualnej, zalecamy korzystanie zarówno z zaplanowanych zdarzeń (SE) jak i zdarzeń kondycji flash.

Zaplanowane zdarzenia mają na celu zapewnienie wczesnego ostrzeżenia, co daje 15-minutowe powiadomienie z wyprzedzeniem przed działaniami konserwacyjnymi. Ten czas realizacji umożliwia podejmowanie świadomych decyzji dotyczących zbliżającego się przestoju, co pozwala uniknąć lub przygotować się do niego. Masz elastyczność potwierdzania tych zdarzeń lub akcji opóźnienia w tym 15-minutowym okresie, w zależności od gotowości do nadchodzącej konserwacji.

Z drugiej strony zdarzenia flash Health koncentrują się na śledzeniu w czasie rzeczywistym bieżących i zakończonych zakłóceń dostępności, w tym pogorszeniu wydajności maszyny wirtualnej. Ta funkcja umożliwia efektywne monitorowanie przestojów i zarządzanie nimi, wspieranie zautomatyzowanego ograniczania ryzyka, badań i analizy pośmiertnej.

Aby rozpocząć pracę z obserwacją, możesz zapoznać się z pakietem produktów platformy Azure, do których emitujemy dane o wysokiej jakości dostępności maszyn wirtualnych. Te produkty obejmują kondycję zasobów, dzienniki aktywności, graf zasobów platformy Azure, metryki usługi Azure Monitor i temat systemu usługi Azure Event Grid.

Następne kroki

Aby dowiedzieć się więcej o oferowanych rozwiązaniach, przejdź do odpowiedniego artykułu dotyczącego rozwiązania:

Aby zapoznać się z ogólnym omówieniem monitorowania maszyn wirtualnych platformy Azure, zobacz Monitorowanie maszyn wirtualnych platformy Azure i dokumentacja monitorowania maszyn wirtualnych platformy Azure.