Postupy: připojení dat metrik do poradce metrik
V tomto článku se dozvíte, jak získat data do poradce metrik.
Požadavky a konfigurace schématu dat
Azure Metrics Advisor je služba pro detekci, diagnostiku a analýzu anomálií časových řad. Jako služba využívající AI využívá vaše data k trénování použitého modelu. Služba přijímá tabulky agregovaných dat s následujícími sloupci:
- Míra (povinné): Míra je základní termín nebo termín specifický pro jednotku a kvantifikovatelná hodnota metriky. To znamená jeden nebo více sloupců obsahujících číselné hodnoty.
- Časové razítko (volitelné): Nula nebo jeden sloupec s typem
DateTimeneboString. Pokud tento sloupec není nastavený, časové razítko se nastaví jako počáteční čas každého období příjmu dat. Časové razítko naformátuje takto:yyyy-MM-ddTHH:mm:ssZ. - Dimenze (volitelné): Dimenze je jedna nebo více hodnot kategorií. Kombinace těchto hodnot identifikuje konkrétní jednorozměrnou časovou řadu (například zemi, jazyk a tenanta). Sloupce dimenzí mohou být libovolného datového typu. Při práci s velkými objemy sloupců a hodnot buďte opatrní, abyste zabránili zpracování nadměrného počtu dimenzí.
Pokud používáte zdroje dat, jako je Azure Data Lake Storage nebo Azure Blob Storage, můžete data agregovat tak, aby byla v souladu s očekávaným schématem metrik. Je to proto, že tyto zdroje dat používají soubor jako vstup metrik.
Pokud používáte zdroje dat, jako je Azure SQL nebo Azure Data Explorer, můžete agregační funkce použít k agregaci dat do očekávaného schématu. Je to proto, že tyto zdroje dat podporují spuštění dotazu na získání dat metrik ze zdrojů.
Pokud si nejste jisti o některých termínech, přečtěte si Glosář.
Vyhnout se načítání částečných dat
Částečná data způsobují nekonzistence mezi daty uloženými v poradci metrik a zdroji dat. K tomu může dojít, když se zdroj dat aktualizuje poté, co poradce pro metriky dokončí přijímání dat. Poradce metriky získává data pouze jednou z daného zdroje dat.
Například pokud byla metrika připojená k nástroji Advisor metriky pro monitorování. Poradce metriky úspěšně přibližuje data metriky v časovém razítku a a v ní provádí detekci anomálií. Pokud se ale data metriky tohoto konkrétního časového razítka A aktualizovala po ingestování dat. Nová hodnota dat nebude načtena.
Můžete zkusit zpětně vyplnit historická data (popsaná dále), abyste zmírnili nekonzistence, ale neaktivovali jsme nové výstrahy anomálií, pokud už výstrahy pro tyto časové body již byly aktivovány. Tento proces může do systému přidat další úlohy a není automatický.
Aby nedošlo k načítání částečných dat, doporučujeme dva způsoby:
Generovat data v jedné transakci:
Zajistěte, aby hodnoty metrik pro všechny kombinace dimenzí ve stejném časovém razítku byly uloženy do zdroje dat v jedné transakci. Ve výše uvedeném příkladu počkejte, dokud nebudou data ze všech zdrojů dat připravena, a pak je načtěte do poradce metrik v jedné transakci. Poradce pro metriky může datový kanál pravidelně dotazovat, dokud nejsou data úspěšně (nebo částečně) načtena.
Odložit příjem dat nastavením správné hodnoty pro parametr posunu doby přijímání :
Nastavte parametr posunu času příjmu pro datový kanál, aby se zpozdil příjem dat, dokud nejsou data plně připravená. To může být užitečné pro některé zdroje dat, které nepodporují transakce jako Azure Table Storage. Podrobnosti najdete v tématu Rozšířená nastavení .
Začněte přidáním datového kanálu.
Po přihlášení k portálu Poradce pro metriky a výběru pracovního prostoru klikněte na Začínáme. Pak na hlavní stránce pracovního prostoru klikněte v levé nabídce na přidat datový kanál .
Přidat nastavení připojení
1. základní nastavení
Dále zadáte sadu parametrů pro připojení zdroje dat časové řady.
- Typ zdroje: typ zdroje dat, ve kterém jsou uložená data časových řad.
- Členitost: interval mezi po sobě jdoucími datovými body v datech časové řady. Aktuální metrika podporuje: roční, měsíční, týdenní, denní, hodinová a vlastní. Nejnižší interval, který podporuje možnost přizpůsobení, je 300 sekund.
- Sekund: počet sekund, po které je GranularityName nastaveno na přizpůsobení.
- Ingestovat data od (UTC): začátek základního času pro příjem dat.
startOffsetInSecondsse často používá k přidání posunu, který vám umožní zajistit konzistenci dat.
2. Zadejte připojovací řetězec.
V dalším kroku budete muset zadat informace o připojení pro zdroj dat. podrobnosti o ostatních polích a připojení různých typů zdrojů dat naleznete v tématu How to: Připojení různých datových zdrojů.
3. Zadejte dotaz pro jedno časové razítko.
podrobnosti různých typů zdrojů dat naleznete v tématu How to: Připojení různých datových zdrojů.
Načtení dat
Po výstupu připojovacího řetězce a řetězce dotazu vyberte načíst data. V rámci této operace bude Poradce pro metriky kontrolovat připojení a oprávnění k načtení dat, kontrolovat potřebné parametry ( @IntervalStart a @IntervalEnd ), které je třeba použít v dotazu, a kontrolovat název sloupce ze zdroje dat.
Pokud v tomto kroku dojde k chybě:
- Nejprve ověřte, zda je připojovací řetězec platný.
- Potom zkontrolujte, zda jsou k dispozici dostatečná oprávnění a zda má IP adresa pracovního procesu příjmu udělen přístup.
- Potom zkontrolujte, zda @IntervalStart @IntervalEnd jsou v dotazu použity požadované parametry (a).
Konfigurace schématu
Po načtení schématu dat vyberte příslušná pole.
Pokud je časové razítko datového bodu vynecháno, poradce metriky použije časové razítko při ingestování datového bodu. U každého datového kanálu můžete zadat maximálně jeden sloupec jako časové razítko. Pokud se zobrazí zpráva, že sloupec nelze zadat jako časové razítko, ověřte dotaz nebo zdroj dat a určete, zda je ve výsledku dotazu více časových razítek – nejenom v datech verze Preview. Při zpracování příjmu dat může poradce pro metriky spotřebovat jenom jeden blok (například jeden den, jednu hodinu podle členitosti) dat časových řad z daného zdroje pokaždé, když se pokaždé použije.
| Výběr | Popis | Poznámky |
|---|---|---|
| Zobrazované jméno | Název, který se má zobrazit v pracovním prostoru místo původního názvu sloupce | Nepovinný parametr. |
| Timestamp | Časové razítko datového bodu. Pokud tento parametr vynecháte, poradce metriky použije časové razítko, když se místo toho bude přijímat datový bod. U každého datového kanálu můžete zadat maximálně jeden sloupec jako časové razítko. | Nepovinný parametr. By měl být zadaný s maximálně jedním sloupcem. Pokud získáte sloupec, který nelze zadat jako chybu časového razítka , ověřte, zda dotaz nebo zdroj dat má duplicitní časová razítka. |
| Measure | Číselné hodnoty v datovém kanálu. U každého datového kanálu můžete zadat více měr, ale jako míru by měl být vybrán alespoň jeden sloupec. | By měla být zadána alespoň v jednom sloupci. |
| Rozměr | Kategorií hodnoty. Kombinace různých hodnot identifikuje konkrétní časovou řadu s jednou dimenzí, například: Country (země), Language (tenant). Jako rozměry můžete vybrat nula nebo více sloupců. Poznámka: při výběru sloupce bez řetězce jako dimenze buďte opatrní. | Nepovinný parametr. |
| Ohled | Ignoruje vybraný sloupec. | Nepovinný parametr. Aby zdroje dat podporovaly použití dotazu k získání dat, neexistuje možnost ignore. |
Pokud chcete sloupce ignorovat, doporučujeme, abyste aktualizovali dotaz nebo zdroj dat, aby tyto sloupce vyloučily. Můžete také ignorovat sloupce pomocí Ignorovat sloupce a pak je Ignorovat na konkrétní sloupce. Pokud by měl být sloupec dimenze a je omylem nastaven jako ignorovaný, Poradce pro metriky může ukončit ingestování částečných dat. Například Předpokládejme, že data z dotazu jsou uvedená níže:
| ID řádku | Timestamp | Země | Jazyk | Income |
|---|---|---|---|---|
| 1 | 2019/11/10 | Čína | ZH-CN | 10000 |
| 2 | 2019/11/10 | Čína | EN-US | 1000 |
| 3 | 2019/11/10 | USA | ZH-CN | 12000 |
| 4 | 2019/11/11 | USA | EN-US | 23000 |
| ... | ... | ... | ... | ... |
Pokud je dimenze a jazyk nastaven jako ignorovaný, budou mít první a druhý řádek stejné rozměry pro časové razítko. Poradce pro metriky bude libovolně používat jednu hodnotu ze dvou řádků. Poradce pro metriky nebude v tomto případě agregovat řádky.
Po nakonfigurování schématu vyberte ověřit schéma. V rámci této operace bude Poradce pro metriky provádět následující kontroly:
- Zda časové razítko dat dotazů spadá do jednoho jednoho intervalu.
- Zda jsou vráceny duplicitní hodnoty pro stejnou kombinaci dimenzí v rámci jednoho intervalu metriky.
Nastavení automatického shrnutí
Důležité
Pokud chcete povolit analýzu hlavní příčiny a další diagnostické funkce, je nutné nakonfigurovat Nastavení automatického shrnutí . Po povolení se nastavení automatického zahrnutí nedá změnit.
Poradce metriky může automaticky provádět agregaci (například SUM, MAX, MIN) v každé dimenzi během příjmu a pak vytvoří hierarchii, která bude použita při analýze kořenového případu a dalších diagnostických funkcí.
Zvažte následující scénáře:
"Není nutné vkládat souhrnnou analýzu pro moje data."
Nemusíte používat kumulativní aktualizaci pro metriky.
"Moje data již byla zahrnuta a hodnota dimenze je reprezentována hodnotou NULL nebo prázdné (výchozí), pouze NULL, jiné."
Tato možnost znamená, že nástroj pro vyhodnocení metrik nemusí data shrnout, protože řádky už jsou shrnuté. Pokud například vyberete pouze hodnotu null, bude druhý řádek dat v následujícím příkladu zobrazen jako agregace všech zemí a jazyk en-US; Čtvrtý řádek dat, který má prázdnou hodnotu pro zemi , se ale bude zobrazovat jako běžný řádek, který může označovat neúplná data.
Země Jazyk Income Čína ZH-CN 10000 PLATNOST EN-US 999999 USA EN-US 12000 EN-US 5000 "Potřebuji poradce metriky k zahrnutí dat výpočtem Sum/Max/min/AVG/Count a reprezentující je {nějaký řetězec}."
některé zdroje dat, například Cosmos DB nebo Azure Blob Storage, nepodporují určité výpočty, jako je například group by nebo cube. Poradce metrik nabízí možnost Shrnutí k automatickému generování datové krychle během přijímání. Tato možnost znamená, že k výpočtu souhrnu pomocí algoritmu, který jste vybrali, potřebujete nástroj Advisor metriky a pomocí zadaného řetězce zastupujete zahrnutí do poradce metrik. Tato změna nemění žádná data ve zdroji dat. Předpokládejme například, že máte sadu časových řad, která představuje prodejní metriky s dimenzí (země, oblast). U daného časového razítka může vypadat takto:
Country (Země) Region (Oblast) Sales Kanada Alberta 100 Kanada British Columbia 500 USA Montana 100 Po povolení automatického shrnutí se souhrnem metriky Advisor vypočítá kombinace dimenzí a sečte metriky během příjmu dat. Výsledek může být následující:
Country (Země) Region (Oblast) Sales Kanada Alberta 100 NULL Alberta 100 Kanada British Columbia 500 NULL British Columbia 500 USA Montana 100 NULL Montana 100 NULL NULL 700 Kanada NULL 600 USA NULL 100 (Country=Canada, Region=NULL, Sales=600)znamená, že součet prodejů v Kanadě (všechny oblasti) je 600.následuje transformace v jazyce SQL.
SELECT dimension_1, dimension_2, ... dimension_n, sum (metrics_1) AS metrics_1, sum (metrics_2) AS metrics_2, ... sum (metrics_n) AS metrics_n FROM each_timestamp_data GROUP BY CUBE (dimension_1, dimension_2, ..., dimension_n);Než použijete funkci automatického zahrnutí, zvažte následující:
- Pokud chcete použít součet k agregaci dat, ujistěte se, že vaše metriky jsou v každé dimenzi doplňkové. Tady je několik příkladů neaditivních metrik:
- Metriky založené na zlomcích. To zahrnuje poměr, procento atd. Neměli byste například přidávat míru nezaměstnanosti jednotlivých států, abyste vypočítal míru nezaměstnanosti celé země.
- Překrývají se v dimenzi. Například byste neměli přidávat do každého sportu počet lidí, kteří mají rádi sport, protože se mezi nimi překrývá jeden člověk, který může mít rádi více sportů.
- Aby se zajistil stav celého systému, je velikost datové krychle omezená. V současné době je limit 1 000 000. Pokud vaše data tento limit překročí, příjem dat v tomto časovém razítku selže.
- Pokud chcete použít součet k agregaci dat, ujistěte se, že vaše metriky jsou v každé dimenzi doplňkové. Tady je několik příkladů neaditivních metrik:
Rozšířená nastavení
Existuje několik pokročilých nastavení, která umožňují příjem dat přizpůsobeně, například určení posunu příjmu dat nebo souběžnosti. Další informace najdete v části Rozšířená nastavení v článku o správě datového kanálu.
Zadejte název datového kanálu a zkontrolujte průběh příjmu dat.
Zadejte vlastní název datového kanálu, který se zobrazí ve vašem pracovním prostoru. Pak klikněte na Submit (Odeslat). Na stránce s podrobnostmi datového kanálu můžete pomocí indikátoru průběhu příjmu dat zobrazit informace o stavu.
Kontrola podrobností o selhání příjmu dat:
- Klikněte na Zobrazit podrobnosti.
- Klikněte na Stav a pak zvolte Neúspěšné nebo Chyba.
- Najeďte myší na neúspěšný příjem dat a zobrazte zprávu s podrobnostmi, která se zobrazí.
Stav selhání znamená, že příjem dat pro tento zdroj dat se bude zopakovat později. Stav Chyba Metrics Advisor, že se pro zdroj dat nebude opakovat. Pokud chcete znovu načíst data, musíte aktivovat obnovení nebo opětovné načtení ručně.
Průběh příjmu dat můžete také znovu načíst kliknutím na Průběh aktualizace. Po dokončení příjmu dat můžete kliknout na metriky a zkontrolovat výsledky detekce anomálií.