Diagnostika incidentu pomocí Metrics Advisor

Co je incident?

Pokud se v rámci jedné metriky v konkrétním časovém razítku detekují anomálie ve více časových řadách, služba Metrics Advisor automaticky seskupí anomálie, které sdílejí stejnou hlavní příčinu, do jednoho incidentu. Incident obvykle indikuje skutečný problém, Metrics Advisor provádí analýzu nad ní a poskytuje automatické přehledy analýzy hlavní příčiny.

Tím se výrazně sníží úsilí zákazníka o zobrazení jednotlivých anomálií a rychle se najde nejdůležitější faktor přispívající k problému.

Výstraha vygenerovaná Metrics Advisor může obsahovat více incidentů a každý incident může obsahovat více anomálií zachycených v různých časových řadách ve stejném časovém razítku.

Cesty pro diagnostiku incidentu

  • Diagnostika z oznámení o upozornění

    Pokud jste nakonfigurovali připojení typu e-mail/Teams a použili jste alespoň jednu konfiguraci výstrah. Pak budete dostávat průběžná oznámení o výstrahách eskalující incidenty, které jsou analyzovány Metrics Advisor. V oznámení je seznam incidentů a stručný popis. U každého incidentu je k dispozici tlačítko Diagnostikovat, které vás přesměruje na stránku s podrobnostmi o incidentu, na které se zobrazí diagnostické přehledy.

    Diagnostika z oznámení o upozornění

  • Diagnostika z incidentu v centru incidentů

    V této oblasti je centrální Metrics Advisor, které shromažďuje všechny zachycené incidenty a usnadňuje sledování všech probíhajících problémů. Výběrem karty Centrum incidentů v levém navigačním panelu zobrazíte seznam všech incidentů ve vybraných metrikách. V seznamu incidentů vyberte jeden z nich a zobrazte podrobné diagnostické přehledy.

    Diagnostika z incidentu v centru incidentů

  • Diagnostika z incidentu uvedeného na stránce metrik

    Na stránce s podrobnostmi metrik je karta Incidenty, která obsahuje nejnovější incidenty zachycené pro tuto metriku. Seznam lze filtrovat podle závažnosti incidentů nebo hodnoty dimenze metrik.

    Výběrem jednoho incidentu v seznamu budete nasměrovaní na stránku s podrobnostmi o incidentu a zobrazíte diagnostické přehledy.

    Diagnostika z incidentu uvedeného na stránce metrik

Typický diagnostický tok

Po nasměrování na stránku s podrobnostmi o incidentu můžete využít přehledy, které automaticky analyzuje Metrics Advisor, a rychle najít hlavní příčinu problému nebo pomocí analytického nástroje dále vyhodnotit dopad problému. Na stránce podrobností o incidentu jsou tři části, které odpovídají třem hlavním krokům diagnostiky incidentu.

Krok 1. Kontrola souhrnu aktuálního incidentu

V první části je uveden souhrn aktuálního incidentu, včetně základních informací, akcí & trasování a analyzované hlavní příčiny.

  • Mezi základní informace patří "řada s nejvyšším dopadem" s diagramem, "dopad na počáteční & čas ukončení", "závažnost incidentu" a "celkový počet zahrnutých anomálií". Když si to prohlédněte, získáte základní informace o probíhajícím problému a jeho dopadu.

  • Akce & trasování, slouží k usnadnění týmové spolupráce na probíhajícím incidentu. Někdy může být potřeba, aby jeden incident zahrnoval úsilí členů týmu o jeho analýzu a vyřešení. Každý, kdo má oprávnění k zobrazení incidentu, může přidat akci nebo událost trasování.

    Například po identifikování incidentu a hlavní příčiny může technik přidat položku trasování s typem přizpůsobené a zadat hlavní příčinu do oddílu komentáře. Ponechte stav Aktivní. Ostatní členové týmu pak mohou sdílet stejné informace a vědět, že někdo pracuje na opravě. Můžete také přidat položku "Azure DevOps", která bude sledovat incident s konkrétním úkolem nebo chybou.

  • Analyzovaná hlavní příčina je automaticky analyzovaný výsledek. Metrics Advisor analyzuje všechny anomálie zachycené v časových řadách v rámci jedné metriky s různými hodnotami dimenzí ve stejném časovém razítku. Pak provede korelaci, clustering seskupí související anomálie a vygeneruje rady k hlavní příčině.

Shrnutí incidentu
U metrik s více dimenzemi je běžným případem zjištění více anomálií současně. Tyto anomálie ale mohou sdílet stejnou hlavní příčinu. Místo analýzy všech anomálií jednu po jedné by použití analyzované hlavní příčiny mělo být nejúčinnějším způsobem diagnostiky aktuálního incidentu.

Krok 2. Zobrazení diagnostických přehledů napříč dimenzemi

Po získání základních informací a přehledů automatické analýzy můžete pomocí diagnostického stromu získat komplexnější informace o neobvyklém stavu jiných dimenzí v rámci stejné metriky.

U metrik s více dimenzemi Metrics Advisor časové řady do hierarchie, která má název diagnostický strom. Například metrika "revenue" (výnosy) se monitoruje pomocí dvou dimenzí: "region" (oblast) a "category" (kategorie). I přes konkrétní hodnoty dimenzí musí mít agregovanou hodnotu dimenze, například SUM. Potom se časová řada "region" = "SUM" a "category" = "SUM" zařazovat jako kořenový uzel ve stromu. Kdykoli dojde k anomálii zachycené v dimenzi "SOUČET", je možné ji přejít k podrobnostem a analyzovat, aby bylo možné zjistit, která konkrétní hodnota dimenze přispěla nejvíce k anomálii nadřazeného uzlu. Vyberte jednotlivé uzly, které chcete rozbalit, a podívejte se na podrobné informace.

Diagnostika napříč dimenzemi s využitím diagnostického stromu

  • Povolení agregované hodnoty dimenze v metrikách

    Metrics Advisor podporuje provádění souhrnu u dimenzí za cenu výpočtu agregované hodnoty dimenze. Diagnostický strom podporuje diagnostiku agregací SUM, AVG, MAX, MIN a COUNT. Pokud chcete povolit agregovanou hodnotu dimenze, můžete během onboardingu dat povolit funkci "Roll-up". Ujistěte se, že vaše metriky jsou matematicky computable a že agregovaná dimenze má skutečnou obchodní hodnotu.

    Nastavení pro náse3/4e

  • Pokud v metrikách není žádná agregovaná hodnota dimenze

    Pokud metriky nemají žádnou agregovanou hodnotu dimenze a funkce "Roll-up" není při onboardingu dat povolená. Pro "agregovanou" dimenzi se nebude počítat žádná hodnota metriky, zobrazí se ve stromu jako šedý uzel a lze ji rozbalit, aby se mohla zobrazit její podřízené uzly.

Legenda diagnostického stromu

Diagnostický strom obsahuje tři druhy uzlů:

  • Modrý uzel, který odpovídá časové řadě s skutečnou hodnotou metriky.
  • Šedý uzel, který odpovídá virtuální časové řadě bez hodnoty metriky, je logickým uzlem.
  • Červený uzel, který odpovídá časové řadě aktuálního incidentu s nejvyšším dopadem.

Pro každý uzel je neobvyklý stav popsán barvou ohraničení uzlu.

  • Červené ohraničení znamená, že v časové řadě odpovídající časovému razítku incidentu došlo k anomálii.
  • Jiné než červené ohraničení znamená, že v časové řadě odpovídající časovému razítku incidentu nejsou zachyceny žádné anomálie.

Režim zobrazení

Pro diagnostický strom existují dva režimy zobrazení: zobrazují se pouze řady anomálií nebo zobrazují větší podíly.

  • Režim zobrazit pouze řady anomálií umožňuje zákazníkovi zaměřit se na aktuální anomálie zachycené na různých řadách a diagnostikovat hlavní příčinu nejomeznamnější řady.
  • Show major proportions enable customer to check on abnormal status of major proportions of top impacted series. V tomto režimu by strom ukázal jak řady s zjištěnou anomálií, tak řady bez anomálií. Ale více se zaměřte na důležité série.

Možnosti analýzy

  • Zobrazení rozdílového poměru

    "Rozdílový poměr" je procento rozdílu aktuálního uzlu v porovnání s rozdílem nadřazeného uzlu. Tady je vzorec:

    (skutečná hodnota aktuálního uzlu – očekávaná hodnota aktuálního uzlu) / (skutečná hodnota nadřazeného uzlu – očekávaná hodnota nadřazeného uzlu) * 100 %

    Slouží k analýze velkého příspěvku rozdílu nadřazeného uzlu.

  • Show value proportion

    "Podíl hodnoty" je procento aktuální hodnoty uzlu v porovnání s hodnotou nadřazeného uzlu. Tady je vzorec:

    (skutečná hodnota aktuálního uzlu / skutečná hodnota nadřazeného uzlu) * 100 %

    Slouží k vyhodnocení poměru aktuálního uzlu v rámci celého uzlu.

Pomocí diagnostického stromu mohou zákazníci najít hlavní příčinu aktuálního incidentu do konkrétní dimenze. To významně eliminuje snahu zákazníka zobrazit jednotlivé anomálie nebo překlopovat různé dimenze a najít tak hlavní příspěvek anomálií.

Krok 3. Zobrazení diagnostických přehledů mezi metrikami pomocí grafu metrik

Někdy je obtížné analyzovat problém kontrolou neobvyklého stavu jedné metriky, ale je potřeba korelovat několik metrik najednou. Zákazníci mohou nakonfigurovat graf metrik, který označuje vztah mezi metrikami. Pokud chcete začít, přečtěte si, jak vytvořit graf metrik.

Kontrola stavu anomálií u dimenze hlavní příčiny v grafu metrik

Při použití výše uvedeného výsledku diagnostiky napříč dimenzemi je hlavní příčina omezena na konkrétní hodnotu dimenze. Pak použijte graf metriky a vyfiltrujte analyzovanou dimenzi hlavní příčiny, abyste zkontrolovali stav anomálií u ostatních metrik.

Například pokud je v metrikách "výnosy" zachycen incident. Horní ovlivněná řada je v globální oblasti s oblastí "region" = "SUM". Při použití diagnostiky mezi dimenzemi byla hlavní příčina umístěna v oblasti "region" = "Karáčí". Existuje předem konfigurovaný graf metrik, včetně metrik "výnosy", "cost", "DAU", "PLT (doba načítání stránky)" a "CHR (rychlost přístupů do mezipaměti)".

Poradce pro metriky bude automaticky filtrovat metriky podle dimenze hlavní příčiny "region" = "Karáčí" a zobrazit stav anomálií jednotlivých metrik. Díky analýze vztahů mezi metrikami a stavem anomálií můžou zákazníci získat další přehled o tom, co je poslední hlavní příčinou.

Analýza mezi metrikami

Když použijete filtr dimenze hlavní příčiny v grafu metriky, budou se u každé metriky v časovém razítku aktuálního incidentu vztahovat automatické odchylky. Tyto anomálie by se měly vztahovat k identifikované hlavní příčině aktuálního incidentu.

Automatické související anomálie

Další kroky