Project Flash - Usare Azure Resource Graph per monitorare la disponibilità delle macchine virtuali di Azure

Azure Resource Graph è una soluzione offerta da Flash. Flash è il nome interno di un progetto dedicato alla creazione di un meccanismo affidabile, affidabile e rapido per consentire ai clienti di monitorare l'integrità delle macchine virtuali.

Questo articolo illustra l'uso di Azure Resource Graph per monitorare la disponibilità delle macchine virtuali di Azure. Per una panoramica generale delle soluzioni Flash, vedere la panoramica di Flash.

Per la documentazione specifica per le altre soluzioni offerte da Flash, scegliere tra gli articoli seguenti:

Azure Resource Graph - HealthResources

Questa funzionalità è attualmente disponibile a livello generale. È utile per condurre indagini su larga scala. Offre un'esperienza estremamente intuitiva per il recupero di informazioni con l'uso del linguaggio di query kusto (KQL). Può anche fungere da hub centrale per le informazioni sulle risorse e consente un facile recupero di dati cronologici.

Oltre a scorrere già gli stati di disponibilità delle macchine virtuali, sono state pubblicate annotazioni di disponibilità delle macchine virtuali in Azure Resource Graph (ARG) per l'analisi dettagliata dell'attribuzione degli errori e dei tempi di inattività, oltre a consentire un meccanismo di rilevamento delle modifiche di 14 giorni per tracciare le modifiche cronologiche nella disponibilità delle macchine virtuali per eseguire rapidamente il debug. Con queste nuove aggiunte, siamo lieti di annunciare la disponibilità generale delle informazioni sulla disponibilità delle macchine virtuali nel set di dati HealthResources in ARG. Con questa offerta gli utenti possono:

  • Eseguire query in modo efficiente sullo snapshot più recente della disponibilità delle macchine virtuali in tutte le sottoscrizioni di Azure contemporaneamente e con latenze basse per il monitoraggio periodico e a livello di flotta.
  • Valutare accuratamente l'impatto dei contratti di servizio aziendali a livello di flotta e attivare rapidamente azioni di mitigazione decisive, in risposta a interruzioni e tipo di firma degli errori.
  • Configurare dashboard personalizzati per supervisionare l'integrità completa delle applicazioni aggiungendo informazioni sulla disponibilità delle macchine virtuali con i metadati delle risorse presenti in ARG.
  • Tenere traccia delle modifiche rilevanti nella disponibilità delle macchine virtuali in un intervallo di 14 giorni, usando il meccanismo di rilevamento delle modifiche per condurre indagini dettagliate.

Query di esempio

Attività iniziali

Gli utenti possono eseguire query su ARG tramite PowerShell, API REST, interfaccia della riga di comando di Azure o anche il portale di Azure. I passaggi seguenti illustrano in dettaglio come accedere ai dati da portale di Azure.

  1. Una volta nella portale di Azure, passare a Resource Graph Explorer.

    Screenshot of the Azure Resource Graph Explorer landing page on the Azure portal.

  2. Selezionare la scheda Tabella e (singolo) fare clic sulla tabella HealthResources per recuperare lo snapshot più recente delle informazioni sulla disponibilità della macchina virtuale (stato di disponibilità e annotazioni sull'integrità).

    Screenshot of an Azure Resource Graph Explorer Window depicting the latest VM availability states and VM availability annotations in the Health Resources table.

Nella tabella HealthResources sono presenti due tipi di eventi:

Snapshot of the type of events in the Health Resources table, as shown in Resource Graph Explorer on the Azure portal.

  • resourcehealth/availabilitystatuses

Questo evento indica lo stato di disponibilità più recente di una macchina virtuale, in base ai controlli di integrità eseguiti dalla piattaforma Azure sottostante. Gli stati di disponibilità attualmente generati per le macchine virtuali sono:

  • Disponibile: la macchina virtuale è operativa come previsto.
  • Non disponibile: sono stati rilevati interruzioni del normale funzionamento della macchina virtuale e pertanto le applicazioni non verranno eseguite come previsto.
  • Sconosciuto: la piattaforma non è in grado di rilevare accuratamente l'integrità della macchina virtuale. Gli utenti possono in genere eseguire il checkback in pochi minuti per ottenere uno stato aggiornato.

Per eseguire il polling dello stato di disponibilità della macchina virtuale più recente, fare riferimento al campo delle proprietà, che contiene i dettagli seguenti:

Esempio

{
 "targetResourceType": "Microsoft.Compute/virtualMachines",
 "previousAvailabilityState": "Available",
 "targetResourceId": "/subscriptions//resourceGroups//providers/Microsoft.Compute/virtualMachines/",
 "occurredTime": "2022-10-11T11:13:59.9570000Z",
 "availabilityState": "Unavailable"
 }

Descrizione della proprietà

Proprietà Descrizione Categoria di integrità delle risorse corrispondente (RHC)
targetResourceType Tipo di risorsa per cui vengono trasmessi i dati di integrità resourceType
targetResourceId ID risorsa resourceId
occurredTime Timestamp quando la piattaforma genera lo stato di disponibilità più recente eventTimestamp
previousAvailabilityState Stato di disponibilità precedente della macchina virtuale previousHealthStatus
availabilityState Stato di disponibilità corrente della macchina virtuale currentHealthStatus

Vedere la sezione HealthResources della documentazione delle query di esempio per un elenco di query di avvio per esplorare ulteriormente questi dati.

  • resourcehealth/resourceannotations (APPENA AGGIUNTO)

Questo evento contestualizza le modifiche alla disponibilità delle macchine virtuali, specificando in dettaglio gli attributi di errore necessari per consentire agli utenti di analizzare e ridurre le interruzioni in base alle esigenze. Vedere l'elenco completo delle annotazioni di disponibilità delle macchine virtuali generate dalla piattaforma. Queste annotazioni possono essere classificate su larga scala in tre bucket:

  • Annotazioni di tempo di inattività: queste annotazioni vengono generate quando la piattaforma rileva la transizione della disponibilità delle macchine virtuali a Non disponibile. Ad esempio, durante arresti anomali imprevisti dell'host, operazioni di ripristino riavviate.
  • Annotazioni informative: queste annotazioni vengono generate durante le attività del piano di controllo senza alcun impatto sulla disponibilità delle macchine virtuali. (ad esempio allocazione di macchine virtuali/arresto/eliminazione/avvio). In genere, non è necessaria un'ulteriore azione del cliente in risposta.
  • Annotazioni ridotte: queste annotazioni vengono generate quando viene rilevata la disponibilità delle macchine virtuali a rischio. Ad esempio, quando i modelli di stima degli errori stimano un componente hardware danneggiato che può causare il riavvio della macchina virtuale in un determinato momento. Invitiamo vivamente gli utenti a ridistribuire entro la scadenza specificata nel messaggio di annotazione, per evitare eventuali perdite impreviste di dati o tempi di inattività. È possibile ricevere un avviso nei set di scalabilità di macchine virtuali di Azure Integrità risorse o nel log attività in uno degli scenari seguenti:
    • Le macchine virtuali nei set di scalabilità di macchine virtuali di Azure sono in corso di arresto, deallocazione, eliminazione o avvio.
    • È stato eseguito il ridimensionamento delle operazioni nei set di scalabilità di macchine virtuali.
    • L'avviso indica che l'integrità aggregata della piattaforma dei set di scalabilità di macchine virtuali è in uno stato temporaneo "Danneggiato".

Per eseguire il polling delle annotazioni di disponibilità della macchina virtuale associate per una risorsa, se presente, fare riferimento al campo delle proprietà, che contiene i dettagli seguenti:

Esempio

{
 "targetResourceType": "Microsoft.Compute/virtualMachines", "targetResourceId": "/subscriptions//resourceGroups//providers/Microsoft.Compute/virtualMachines/",
 "annotationName": "VirtualMachineHostRebootedForRepair",
 "occurredTime": "2022-09-25T20:21:37.5280000Z",
 "category": "Unplanned",
 "summary": "We're sorry, your virtual machine isn't available because an unexpected failure on the host server. Azure has begun the auto-recovery process and is currently rebooting the host server. No further action is required from you at this time. The virtual machine will be back online after the reboot completes.",
 "context": "Platform Initiated",
 "reason": "Unexpected host failure"
 }

Descrizione della proprietà

Proprietà Descrizione RHC corrispondente
targetResourceType Tipo di risorsa per cui vengono trasmessi i dati di integrità resourceType
targetResourceId ID risorsa resourceId
occurredTime Timestamp quando lo stato di disponibilità più recente viene generato dalla piattaforma eventTimestamp
annotationName Nome dell'annotazione generata eventName
reason Breve panoramica dell'impatto sulla disponibilità osservato dal cliente title
category Indica se l'attività della piattaforma che ha attivato l'annotazione è stata la manutenzione pianificata o il ripristino non pianificato. Questo campo non è applicabile agli eventi avviati dal cliente/dalla macchina virtuale. Valori possibili: Pianificato, Non pianificato, Non applicabile, Null category
context Indica se l'attività che ha attivato l'annotazione è dovuta a un utente o a un processo autorizzato (avviato dal cliente), alla piattaforma Azure (avviata dalla piattaforma) o all'attività nel sistema operativo guest che ha generato un impatto sulla disponibilità (avviata dalla macchina virtuale). Valori possibili: avviato dalla piattaforma, avviato dall'utente, avviato dalla macchina virtuale, Non applicabile, Null context
riepilogo Dichiarazione che descrive in dettaglio la causa delle emissioni di annotazione, insieme ai passaggi di correzione che gli utenti possono eseguire riepilogo

Vedere la sezione HealthResources della documentazione delle query di esempio per un elenco di query di avvio per esplorare ulteriormente questi dati.

Sono stati pianificati più miglioramenti per i metadati di annotazione che vengono visualizzati nel set di dati HealthResources. Questi arricchimenti consentono agli utenti di accedere a attributi di errore più avanzati per preparare in modo decisivo una risposta a un'interruzione. In parallelo, si intende estendere la durata del lookback cronologico a un minimo di 30 giorni in modo che gli utenti possano tenere traccia completa delle modifiche precedenti nella disponibilità delle macchine virtuali.

Passaggi successivi

Per altre informazioni sulle soluzioni offerte, passare all'articolo della soluzione corrispondente:

Per una panoramica generale su come monitorare i Macchine virtuali di Azure, vedere Monitorare le macchine virtuali di Azure e le informazioni di riferimento sul monitoraggio delle macchine virtuali di Azure.