Diagnosticare un evento imprevisto usando Metrics Advisor

Che cos'è un evento imprevisto?

Quando sono presenti anomalie rilevate in più serie temporali all'interno di una determinata metrica in un determinato timestamp, Metrics Advisor raggruppa automaticamente anomalie che condividono la stessa causa radice in un evento imprevisto. Un evento imprevisto indica in genere un problema reale, Metrics Advisor esegue l'analisi su di esso e fornisce informazioni dettagliate sulle cause radice automatiche.

Ciò rimuove in modo significativo lo sforzo del cliente per visualizzare ogni singola anomalia e trova rapidamente il fattore di contributo più importante a un problema.

Un avviso generato da Metrics Advisor può contenere più eventi imprevisti e ogni evento imprevisto può contenere più anomalie acquisite in serie temporali diverse contemporaneamente.

Percorsi per diagnosticare un evento imprevisto

  • Diagnosticare da una notifica di avviso

    Se è stato configurato un hook del tipo di posta elettronica/Teams e applicato almeno una configurazione di avviso. Si riceveranno quindi notifiche di avviso continue che generano eventi imprevisti analizzati da Metrics Advisor. All'interno della notifica è presente un elenco eventi imprevisti e una breve descrizione. Per ogni evento imprevisto, è presente un pulsante "Diagnosi", selezionandolo verrà diretto alla pagina dei dettagli dell'evento imprevisto per visualizzare le informazioni di diagnostica.

    Diagnose from an alert notification

  • Diagnosticare da un evento imprevisto in "Hub eventi imprevisti"

    C'è un posto centrale in Metrics Advisor che raccoglie tutti gli eventi imprevisti acquisiti e semplifica la traccia di eventuali problemi in corso. Selezionando la scheda Hub eventi imprevisti nella barra di spostamento a sinistra verranno elencati tutti gli eventi imprevisti all'interno delle metriche selezionate. Nell'elenco eventi imprevisti selezionare uno di essi per visualizzare informazioni dettagliate sulla diagnostica.

    Diagnose from an incident in Incident hub

  • Diagnosticare da un evento imprevisto elencato nella pagina delle metriche

    Nella pagina dei dettagli delle metriche è presente una scheda denominata Eventi imprevisti che elenca gli eventi imprevisti più recenti acquisiti per questa metrica. L'elenco può essere filtrato dalla gravità degli eventi imprevisti o dal valore della dimensione delle metriche.

    Se si seleziona un evento imprevisto nell'elenco, verrà visualizzata la pagina dei dettagli dell'evento imprevisto per visualizzare informazioni dettagliate sulla diagnostica.

    Diagnose from an incident listed in metrics page

Flusso di diagnostica tipico

Dopo essere stato indirizzato alla pagina dei dettagli dell'evento imprevisto, è possibile sfruttare le informazioni dettagliate che vengono analizzate automaticamente da Metrics Advisor per individuare rapidamente la causa radice di un problema o usare lo strumento di analisi per valutare ulteriormente l'impatto del problema. Nella pagina dei dettagli dell'evento imprevisto sono presenti tre sezioni che corrispondono a tre passaggi principali per diagnosticare un evento imprevisto.

Passaggio 1. Controllare il riepilogo dell'evento imprevisto corrente

La prima sezione elenca un riepilogo dell'evento imprevisto corrente, incluse informazioni di base, tracce di azioni & e una causa radice analizzata.

  • Le informazioni di base includono la "serie con impatto superiore" con un diagramma, "tempo di inizio dell'impatto & ", "gravità degli eventi imprevisti" e "anomalie totali incluse". Leggendo questa operazione, è possibile ottenere una comprensione di base di un problema in corso e l'impatto di esso.

  • Le tracce delle azioni & vengono usate per facilitare la collaborazione del team su un evento imprevisto in corso. A volte un evento imprevisto può richiedere un impegno tra membri del team per analizzare e risolverlo. Tutti gli utenti che hanno l'autorizzazione per visualizzare l'evento imprevisto possono aggiungere un'azione o un evento di traccia.

    Ad esempio, dopo aver diagnosticato l'evento imprevisto e la causa radice, un tecnico può aggiungere un elemento di traccia con tipo "personalizzato" e immettere la causa radice nella sezione commento. Lasciare lo stato "Attivo". Altri compagni di squadra possono quindi condividere le stesse informazioni e sapere che c'è qualcuno che lavora sulla correzione. È anche possibile aggiungere un elemento "Azure DevOps" per tenere traccia dell'evento imprevisto con un'attività o un bug specifici.

  • La causa radice analizzata è un risultato analizzato automaticamente. Metrics Advisor analizza tutte le anomalie acquisite in serie temporali all'interno di una metrica con valori di dimensione diversi contemporaneamente timestamp. Esegue quindi la correlazione, il clustering per raggruppare le anomalie correlate e genera consigli sulla causa radice.

Incident summary Per le metriche con più dimensioni, è un caso comune in cui verranno rilevate più anomalie contemporaneamente. Tuttavia, queste anomalie possono condividere la stessa causa radice. Invece di analizzare tutte le anomalie uno per uno, sfruttando la causa radice analizzata dovrebbe essere il modo più efficiente per diagnosticare l'evento imprevisto corrente.

Passaggio 2. Visualizzare informazioni di diagnostica tra dimensioni

Dopo aver ottenuto informazioni di base e informazioni dettagliate sull'analisi automatica, è possibile ottenere informazioni più dettagliate sullo stato anomalo di altre dimensioni all'interno della stessa metrica in modo olistico usando l'albero di diagnostica.

Per le metriche con più dimensioni, Metrics Advisor classifica la serie temporale in una gerarchia, denominata albero di diagnostica. Ad esempio, una metrica "revenue" viene monitorata da due dimensioni: "region" e "category". Nonostante i valori di dimensione concreta, è necessario avere un valore di dimensione aggregato, ad esempio "SUM". La serie temporale di "region" = "SUM " e "category" = "SUM" verrà categorizzata come nodo radice all'interno dell'albero. Ogni volta che si verifica un'anomalia acquisita nella dimensione "SUM", è possibile eseguire il drill-down e analizzare per individuare il valore specifico della dimensione che ha contribuito maggiormente all'anomalia del nodo padre. Selezionare ogni nodo per espandere e visualizzare informazioni dettagliate.

Cross dimension diagnostic using diagnostic tree

  • Per abilitare un valore di dimensione "aggregato" nelle metriche

    Metrics Advisor supporta l'esecuzione di "Roll-up" sulle dimensioni per calcolare un valore di dimensione "aggregato". L'albero di diagnostica supporta la diagnosi sulle aggregazioni "SUM", "AVG", "MAX","MIN","COUNT". Per abilitare un valore di dimensione "aggregato", è possibile abilitare la funzione "Roll-up" durante l'onboarding dei dati. Assicurarsi che le metriche siano calcolabili matematicamente e che la dimensione aggregata abbia valore aziendale reale.

    Roll-up settings

  • Se non esiste alcun valore di dimensione "aggregato" nelle metriche

    Se non è presente alcun valore di dimensione "aggregato" nelle metriche e la funzione "Roll-up" non è abilitata durante l'onboarding dei dati. Non ci sarà alcun valore della metrica calcolato per la dimensione "aggregata", verrà visualizzato come nodo grigio nell'albero e potrebbe essere espanso per visualizzare i nodi figlio.

Legenda dell'albero di diagnostica

Nell'albero di diagnostica sono disponibili tre tipi di nodi:

  • Nodo blu, che corrisponde a una serie temporale con valore di metrica reale.
  • Nodo grigio, che corrisponde a una serie temporale virtuale senza valore di metrica, è un nodo logico.
  • Nodo rosso, che corrisponde alla serie temporale interessata superiore dell'evento imprevisto corrente.

Per ogni stato anomalo del nodo viene descritto dal colore del bordo del nodo

  • Il bordo rosso indica che è presente un'anomalia acquisita nella serie temporale corrispondente al timestamp dell'evento imprevisto.
  • Il bordo non rosso indica che non è presente alcuna anomalia acquisita nella serie temporale corrispondente al timestamp dell'evento imprevisto.

Modalità di visualizzazione

Esistono due modalità di visualizzazione per un albero di diagnostica: mostra solo una serie di anomalie o mostra proporzioni principali.

  • Mostra solo la modalità serie anomalie consente al cliente di concentrarsi sulle anomalie correnti acquisite su serie diverse e diagnosticare la causa radice della serie più interessata.
  • Mostra proporzioni principali consente al cliente di controllare lo stato anomalo delle proporzioni principali delle serie più interessate. In questa modalità l'albero mostra entrambe le serie con anomalie rilevate e serie senza anomalie. Ma più concentrarsi sulla serie importante.

Opzioni di analisi

  • Mostra rapporto delta

    "Rapporto delta" è la percentuale di delta del nodo corrente rispetto al delta del nodo padre. Ecco la formula:

    (valore reale del nodo corrente - valore previsto del nodo corrente) / (valore reale del nodo padre - valore previsto del nodo padre) * 100%

    Questa operazione viene usata per analizzare il principale contributo del delta del nodo padre.

  • Mostra percentuale valore

    "Percentuale valore" è la percentuale del valore del nodo corrente rispetto al valore del nodo padre. Ecco la formula:

    (valore reale del nodo corrente/valore reale del nodo padre) * 100%

    Questa operazione viene usata per valutare la proporzione del nodo corrente all'interno dell'intero.

Usando "Albero di diagnostica", i clienti possono individuare la causa radice dell'evento imprevisto corrente in una dimensione specifica. Ciò rimuove significativamente lo sforzo del cliente per visualizzare ogni singola anomalie o pivot attraverso dimensioni diverse per trovare il contributo principale dell'anomalia.

Passaggio 3. Visualizzare informazioni di diagnostica sulle metriche incrociate usando "Grafico metriche"

A volte, è difficile analizzare un problema controllando lo stato anomalo di una singola metrica, ma è necessario correlare più metriche insieme. I clienti possono configurare un grafico metriche, che indica la relazione tra le metriche. Per iniziare, vedere Come creare un grafico delle metriche .

Controllare lo stato anomalie nella dimensione della causa radice all'interno di "Grafico metriche"

Usando il risultato di diagnostica tra dimensioni precedente, la causa radice è limitata a un valore di dimensione specifico. Usare quindi "Grafico metriche" e filtrare la dimensione radice analizzata per controllare lo stato anomalie in altre metriche.

Ad esempio, se è stato acquisito un evento imprevisto sulle metriche "ricavi". La serie più interessata è all'area globale con "region" = "SUM". Usando la diagnostica tra dimensioni, la causa radice si trova in "region" = "Karachi". È disponibile un grafico delle metriche preconfigurato, incluse le metriche "revenue", "cost", "DAU", "PLT(page load time)" e "CHR(cache hit rate)".

Advisor metriche filtra automaticamente il grafico delle metriche per la dimensione della causa radice di "region" = "Karachi" e visualizza lo stato anomalie di ogni metrica. Analizzando la relazione tra metriche e stato anomalie, i clienti possono ottenere ulteriori informazioni dettagliate su ciò che è la causa radice finale.

Cross metrics analysis

Applicando il filtro della dimensione della causa radice nel grafico delle metriche, le anomalie in ogni metrica al timestamp dell'evento imprevisto corrente verranno applicate automaticamente. Tali anomalie devono essere correlate alla causa radice identificata dell'evento imprevisto corrente.

Auto related anomalies

Passaggi successivi