Share via


Project Flash - Miglioramento del monitoraggio della disponibilità delle macchine virtuali di Azure

Flash, poiché il progetto è internamente noto, deriva il nome dal nostro impegno costante a creare un meccanismo affidabile, affidabile e rapido per i clienti per monitorare l'integrità delle macchine virtuali. L'obiettivo principale è garantire che i clienti possano accedere in modo affidabile ai dati di telemetria interattivi e precisi, ricevere tempestivamente avvisi sulle modifiche e monitorare periodicamente i dati su larga scala. Abbiamo anche posto un forte accento sullo sviluppo di un'esperienza centralizzata e coerente che i clienti possono usare comodamente per soddisfare i propri requisiti di osservabilità unici. La nostra missione è garantire che sia possibile:

  • Usare dati accurati e interattivi in caso di interruzioni della disponibilità delle macchine virtuali (ad esempio, riavvii e riavvii delle macchine virtuali, l'applicazione si blocca a causa di aggiornamenti del driver di rete e aggiornamenti del sistema operativo host di 30 secondi), insieme a dettagli precisi sugli errori (ad esempio, piattaforma e riavvio avviato dall'utente, riavvio e blocco, pianificato o non pianificato).
  • Analizzare e avvisare le tendenze nella disponibilità delle macchine virtuali per il debug rapido e la creazione di report mensili.
  • Monitorare periodicamente i dati su larga scala e creare dashboard personalizzati per rimanere aggiornati sugli stati di disponibilità più recenti di tutte le risorse.
  • Ricevere analisi automatizzate della causa radice (RCA) che illustrano in dettaglio le macchine virtuali interessate, la causa e la durata del tempo di inattività, le correzioni conseguenti e simili, per consentire indagini mirate e analisi post-mortem.
  • Ricevere notifiche istantanee sulle modifiche critiche nella disponibilità delle macchine virtuali per attivare rapidamente azioni correttive e prevenire l'impatto dell'utente finale.
  • Personalizzare e automatizzare in modo dinamico i criteri di ripristino della piattaforma, in base alle esigenze di failover e sensibilità del carico di lavoro in continua evoluzione.

Soluzioni Flash

L'iniziativa Flash è dedicata allo sviluppo di soluzioni nel corso degli anni che soddisfano le diverse esigenze di monitoraggio dei nostri clienti. Per determinare le soluzioni di monitoraggio Flash più adatte per i requisiti specifici, vedere la tabella seguente:

Soluzione Descrizione
Azure Resource Graph (disponibilità generale) Per le indagini su larga scala, il repository di risorse centralizzato e la ricerca della cronologia, i clienti di grandi dimensioni vogliono usare periodicamente i dati di telemetria della disponibilità delle risorse in tutti i carichi di lavoro, in una sola volta, usando Azure Resource Graph (ARG).
Argomento di sistema di Griglia di eventi (anteprima pubblica) Per attivare mitigazioni critiche e sensibili al tempo (ridistribuzione, riavvio delle azioni della macchina virtuale) per la prevenzione dell'impatto dell'utente finale, i clienti (ad esempio, Pearl Abyss, Privateon) vogliono ricevere avvisi entro pochi secondi da modifiche critiche nella disponibilità delle risorse tramite gestori eventi in Griglia di eventi.
Monitoraggio di Azure (anteprima pubblica) Per tenere traccia delle tendenze, aggregare le metriche della piattaforma (CPU, disco e così via) e configurare avvisi precisi basati su soglie, i clienti vogliono usare una metrica di disponibilità della macchina virtuale predefinita tramite Monitoraggio di Azure.
Integrità risorse (disponibilità generale) Per eseguire controlli di integrità istantanei e pratici dell'interfaccia utente del portale, i clienti possono visualizzare rapidamente il pannello RHC nel portale. Possono anche accedere a una visualizzazione cronologica di 30 giorni dei controlli di integrità per la risorsa per una risoluzione dei problemi rapida e semplice.

Monitoraggio olistico della disponibilità delle macchine virtuali

Per un approccio olistico al monitoraggio della disponibilità delle macchine virtuali, inclusi scenari di manutenzione di routine, migrazione in tempo reale, correzione del servizio e riduzione delle prestazioni delle macchine virtuali, è consigliabile usare sia gli eventi pianificati (edizione Standard) che gli eventi di integrità Flash.

Gli eventi pianificati sono progettati per offrire un avviso anticipato, restituendo fino a un preavviso di 15 minuti prima delle attività di manutenzione. Questo lead time consente di prendere decisioni informate relative al tempo di inattività imminente, consentendo di evitare o prepararsi. È possibile riconoscere questi eventi o ritardare le azioni durante questo periodo di 15 minuti, a seconda della preparazione per la manutenzione futura.

D'altra parte, gli eventi di Flash Health sono incentrati sul rilevamento in tempo reale delle interruzioni di disponibilità in corso e completate, tra cui la riduzione delle prestazioni delle macchine virtuali. Questa funzionalità consente di monitorare e gestire in modo efficace i tempi di inattività, supportando la mitigazione automatizzata, le indagini e l'analisi post-mortem.

Per iniziare il percorso di osservabilità, è possibile esplorare la suite di prodotti Azure a cui vengono generati dati di disponibilità delle macchine virtuali di alta qualità. Questi prodotti includono integrità delle risorse, log attività, grafico delle risorse di Azure, metriche di Monitoraggio di Azure e Griglia di eventi di Azure argomento di sistema.

Passaggi successivi

Per altre informazioni sulle soluzioni offerte, passare all'articolo della soluzione corrispondente:

Per una panoramica generale su come monitorare i Macchine virtuali di Azure, vedere Monitorare le macchine virtuali di Azure e le informazioni di riferimento sul monitoraggio delle macchine virtuali di Azure.