Použití prohlížeče úloh a zobrazení úloh pro Azure Data Lake Analytics

Článek
12/20/2023

Důležité

Azure Data Lake Analytics vyřazena 29. února 2024. Další informace najdete v tomto oznámení.

Pro analýzu dat může vaše organizace používat Azure Synapse Analytics nebo Microsoft Fabric.

Služba Azure Data Lake Analytics archivuje odeslané úlohy v úložišti dotazů. V tomto článku se dozvíte, jak pomocí prohlížeče úloh a zobrazení úloh v Nástroje Azure Data Lake pro Visual Studio najít historické informace o úloze.

Ve výchozím nastavení služba Data Lake Analytics archivuje úlohy po dobu 30 dnů. Dobu vypršení platnosti je možné nakonfigurovat z Azure Portal konfigurací přizpůsobených zásad vypršení platnosti. Po vypršení platnosti nebudete mít přístup k informacím o úloze.

Požadavky

Viz Požadavky na nástroje Data Lake pro Visual Studio.

Otevřete Prohlížeč úloh.

Přístup k Prohlížeči úloh přes Průzkumník>serveru Azure> Data Lake Analytics> Jobs v sadě Visual Studio. Pomocí Prohlížeče úloh můžete přistupovat k úložišti dotazů Data Lake Analytics účtu. Prohlížeč úloh zobrazí na levé straně úložiště dotazů a zobrazí základní informace o úloze a zobrazení úloh na pravé straně s podrobnými informacemi o úloze.

Zobrazení úlohy

Zobrazení úlohy zobrazuje podrobné informace o úloze. Pokud chcete otevřít úlohu, můžete na úlohu poklikáním v Prohlížeči úloh nebo ji otevřít v nabídce Data Lake kliknutím na Zobrazení úlohy. Mělo by se zobrazit dialogové okno vyplněné adresou URL úlohy.

Prohlížeč úloh sady Visual Studio pro Data Lake Tools

Zobrazení úlohy obsahuje:

Souhrn úlohy

Aktualizujte zobrazení úloh, abyste viděli nejnovější informace o spuštěných úlohách.
- Stav úlohy (graf):
  
  Stav úlohy popisuje fáze úlohy:
  - Příprava: Nahrajte skript do cloudu, kompilujte ho a optimalizujte ho pomocí služby kompilace.
  - Ve frontě: Úlohy se zasouvají do fronty, když čekají na dostatek prostředků, nebo pokud tyto úlohy překračují maximální limit počtu souběžných úloh na účet. Nastavení priority určuje posloupnost úloh zařazených do fronty – čím nižší je počet, tím vyšší priorita.
  - Spuštěno: Úloha je ve skutečnosti spuštěná ve vašem Data Lake Analytics účtu.
  - Dokončování: Úloha se dokončuje (například dokončuje soubor).
    
    Úloha může selhat v každé fázi. Například chyby kompilace ve fázi Příprava, chyby časového limitu ve fázi fronty a chyby spuštění ve fázi Spuštění atd.
- Základní informace
  
  Základní informace o úloze se zobrazí v dolní části panelu Souhrn úlohy.
  - Výsledek úlohy: Úspěšné nebo neúspěšné. Úloha může selhat v každé fázi.
  - Total Duration (Celková doba trvání): Hodinový čas (doba trvání) mezi časem odeslání a časem ukončení.
  - Celkový výpočetní čas: Součet času spuštění každého vrcholu, můžete ho považovat za čas, kdy je úloha spuštěna pouze v jednom vrcholu. Další informace o vrcholech najdete v tématu Celkový počet vrcholů.
  - Čas odeslání/zahájení/ukončení: Čas, kdy služba Data Lake Analytics přijme odeslání úlohy nebo začne úlohu spouštět nebo ji úspěšně ukončí.
  - Kompilace/ Ve frontě/Spuštěno: Čas strávený na zdi během fáze Příprava/ Ve frontě / Spuštěno.
  - Účet: Účet Data Lake Analytics použitý ke spuštění úlohy.
  - Autor: Uživatel, který úlohu odeslal, může to být účet skutečné osoby nebo systémový účet.
  - Priorita: Priorita úlohy. Čím nižší číslo, tím vyšší je priorita. Ovlivňuje pouze pořadí úloh ve frontě. Nastavení vyšší priority nepředstavuje spuštěné úlohy.
  - Paralelismus: Požadovaný maximální počet souběžných jednotek Azure Data Lake Analytics (ADLAU), označovaný také jako vrcholy. V současné době se jeden vrchol rovná jednomu virtuálnímu počítači se dvěma virtuálními jádry a šesti GB paměti RAM, i když by se tento vrchol mohl upgradovat v budoucích Data Lake Analytics aktualizacích.
  - Zbývající bajty: Bajty, které je potřeba zpracovat, dokud se úloha neskončí.
  - Přečtené/zapsané bajty: Bajty, které byly přečteny nebo zapsány od spuštění úlohy.
  - Celkový počet vrcholů: Úloha je rozdělená na mnoho částí práce, každá práce se nazývá vrchol. Tato hodnota popisuje, z kolika částí práce se úloha skládá. Vrchol můžete považovat za základní jednotku procesu, označovanou také jako jednotka azure Data Lake Analytics (ADLAU), a vrcholy lze spouštět v paralelismu.
  - Dokončeno/Spuštěno/Selhání: Počet dokončených, spuštěných nebo neúspěšných vrcholů. Vrcholy můžou selhat kvůli chybám uživatelského kódu i systému, ale systém několikrát opakuje neúspěšné vrcholy automaticky. Pokud je vrchol i po opakování stále neúspěšný, celá úloha selže.
Graf úloh

Skript U-SQL představuje logiku transformace vstupních dat na výstupní data. Skript se zkompiluje a optimalizuje pro plán fyzického spuštění ve fázi Přípravy. Graf úloh má zobrazit plán fyzického spuštění. Následující diagram znázorňuje tento proces:

Úloha je rozdělená na mnoho částí práce. Každá práce se nazývá vrchol. Vrcholy jsou seskupené jako Super Vertex (označované také jako fáze) a vizualizované jako Graf úloh. Zelené ceduly fází v grafu úloh zobrazují fáze.

Každý vrchol ve fázi provádí stejný druh práce s různými částmi stejných dat. Pokud máte například soubor s daty 1 TB a čtou z něj stovky vrcholů, každý z nich čte blok dat. Tyto vrcholy jsou seskupeny ve stejné fázi a provádějí stejnou práci na různých částech stejného vstupního souboru.
- Informace o fázi
  
  V konkrétní fázi jsou na štítku zobrazena některá čísla.
  - SV1 Extract: Název fáze pojmenované číslem a metodou operace.
  - 84 vrcholů: Celkový počet vrcholů v této fázi. Obrázek ukazuje, kolik prací je v této fázi rozděleno.
  - 12,90 s/vrchol: Průměrná doba provádění vrcholů pro tuto fázi. Tento obrázek se vypočítá pomocí funkce SUMA (každý čas provádění vrcholů) / (celkový počet vrcholů). To znamená, že pokud byste mohli přiřadit všechny vrcholy spuštěné v paralelismu, celá fáze se dokončí za 12,90 s. To také znamená, že pokud se veškerá práce v této fázi provádí sériově, náklady budou #vertices * AVG čas.
  - 850 895 řádků napsaných: Celkový počet řádků zapsaných v této fázi.
  - R/W: Množství načtených nebo zapsaných dat v této fázi v bajtech.
  - Barvy: Barvy se ve fázi používají k označení jiného stavu vrcholů.
    - Zelená označuje, že vrchol byl úspěšný.
    - Oranžová označuje opakování vrcholu. Opakovaný vrchol se nezdařil, ale systém ho automaticky a úspěšně opakuje a celková fáze se úspěšně dokončí. Pokud se vrchol zopakoval, ale přesto selhal, barva se změní na červenou a celá úloha selhala.
    - Červená indikuje selhání, což znamená, že systém několikrát provedl pokus o opakování určitého vrcholu, ale stále selhal. Tento scénář způsobí selhání celé úlohy.
    - Modrá znamená, že určitý vrchol běží.
    - Bílá označuje, že vrchol čeká. Vrchol může čekat na naplánování, jakmile bude ADLAU k dispozici, nebo může čekat na vstup, protože jeho vstupní data nemusí být připravená.
    Další podrobnosti o fázi najdete tak, že najedete myší na jeden stav:
- Vrcholy: Popisuje podrobnosti vrcholů, například kolik vrcholů celkem, kolik vrcholů bylo dokončeno, jestli selhaly nebo stále běží/čekají atd.
- Čtení dat mezi pody a uvnitř podů: Soubory a data jsou uloženy v několika podech v distribuovaném systému souborů. Hodnota zde popisuje, kolik dat bylo přečteno ve stejném podu nebo křížovém podu.
- Celkový výpočetní čas: Součet času spuštění každého vrcholu ve fázi můžete považovat za čas, který by trvalo, kdyby se veškerá práce ve fázi spustila pouze v jednom vrcholu.
- Zapsaná nebo přečtená data a řádky: Označuje, kolik dat nebo řádků bylo přečteno/zapsáno nebo které je potřeba přečíst.
- Selhání čtení vrcholů: Popisuje, kolik vrcholů selhalo při čtení dat.
- Duplicitní zahození vrcholů: Pokud je vrchol příliš pomalý, může systém naplánovat více vrcholů tak, aby spustily stejnou práci. Redundantní vrcholy budou po úspěšném dokončení jednoho z vrcholů zahozeny. Duplicitní vrchol zahodí záznamy o počtu vrcholů, které se zahodí jako duplicity ve fázi.
- Odvolání vrcholů: Vrchol byl úspěšný, ale z některých důvodů se znovu spustí později. Pokud například podřízený vrchol ztratí zprostředkující vstupní data, požádá nadřazený vrchol o opětovné spuštění.
- Spuštění plánu vrcholů: Celkový čas naplánování vrcholů.
- Min/average/max vertex data read: Minimum/průměr/maximum každého čteného vrcholu.
- Doba trvání: Doba, po kterou fáze trvá, je potřeba načíst profil, abyste tuto hodnotu viděli.
- Přehrávání úloh
  
  Data Lake Analytics spouští úlohy a archivuje informace o spuštěných vrcholech úloh, například kdy jsou vrcholy spuštěné, zastavené, neúspěšné a jak se opakují atd. Všechny informace se automaticky protokolují v úložišti dotazů a ukládají se do jeho profilu úlohy. Profil úlohy si můžete stáhnout prostřednictvím možnosti Načíst profil v zobrazení úlohy a po stažení profilu úlohy můžete zobrazit přehrávání úlohy.
  
  Přehrávání úlohy představuje vizualizaci toho, co se v clusteru stalo. Pomůže vám watch průběh provádění úloh a vizuálně detekovat anomálie a kritické body výkonu ve velmi krátkém čase (obvykle méně než 30 sekund).
- Zobrazení heat mapy úlohy
  
  Heat mapu úlohy je možné vybrat v rozevíracím seznamu Zobrazení v grafu úlohy.
  
  Zobrazuje mapu vstupně-výstupních operací, času a propustnosti úlohy, pomocí které můžete zjistit, kde úloha tráví většinu času nebo jestli je vaše úloha hraniční úlohou vstupně-výstupních operací atd.
  - Průběh: Průběh provádění úlohy, viz Informace v informacích o fázi.
  - Čtení/zápis dat: Heat mapa celkového počtu přečtených/zapsaných dat v každé fázi.
  - Výpočetní čas: Heat mapa sumy (každý čas spuštění vrcholu) můžete zvážit, jak dlouho by trvalo, kdyby se veškerá práce ve fázi spustila pouze s jedním vrcholem.
  - Průměrná doba provádění na uzel: Heat mapa funkce SUM (čas spuštění každého vrcholu) / (číslo vrcholu). To znamená, že pokud byste mohli přiřadit všechny vrcholy spuštěné v paralelismu, celá fáze se provede v tomto časovém rámci.
  - Propustnost vstupu/výstupu: Heat mapa propustnosti vstupu/výstupu každé fáze. Tímto způsobem můžete ověřit, jestli je vaše úloha vstupně-výstupní úlohou.
Operace s metadaty

Ve skriptu U-SQL můžete provádět některé operace s metadaty, například vytvořit databázi, odstranit tabulku atd. Tyto operace se zobrazují v části Operace metadat po kompilaci. Sem můžete najít kontrolní výrazy, vytvářet entity nebo vyřaďte entity.
Historie stavu

Historie stavů je také vizualizována v souhrnu úlohy, ale další podrobnosti najdete tady. Můžete najít podrobné informace, například kdy je úloha připravená, zařazená do fronty, kdy byla spuštěna nebo kdy skončila. Můžete také zjistit, kolikrát byla úloha zkompilována (CcsAttempts: 1), kdy je úloha skutečně odeslána do clusteru (Podrobnosti: Odesílání úlohy do clusteru) atd.
Diagnostika

Nástroj automaticky diagnostikuje provádění úloh. V případě, že se v úlohách objeví nějaké chyby nebo problémy s výkonem, se zobrazí upozornění. Upozorňujeme, že pokud chcete získat úplné informace, musíte si stáhnout profil.
- Upozornění: Tady se zobrazí upozornění s upozorněním kompilátoru. Jakmile se výstraha zobrazí, můžete vybrat odkaz x problémů a zobrazit další podrobnosti.
- Vrchol běží příliš dlouho: Pokud některý z vrcholů vyprší čas (třeba 5 hodin), problémy najdete tady.
- Využití prostředků: Pokud jste přidělily více nebo málo paralelismu, než je potřeba, najdete problémy tady. Můžete také vybrat Využití prostředků, abyste zobrazili další podrobnosti a provedli scénáře citlivostní analýzy, abyste našli lepší přidělení prostředků (další podrobnosti najdete v tomto průvodci).
- Kontrola paměti: Pokud některý vrchol využívá více než 5 GB paměti, najdete tady problémy. Pokud systém využívá více paměti, než je systémové omezení, může dojít k tomu, že spuštění úlohy ukončí.

Podrobnosti úlohy

Podrobnosti úlohy zobrazují podrobné informace o úloze, včetně skriptu, prostředků a zobrazení spouštění vrcholů.

Podrobnosti o úloze Azure Data Lake Analytics

Skript

Skript U-SQL úlohy je uložený v úložišti dotazů. Můžete zobrazit původní skript U-SQL a v případě potřeby ho znovu odeslat.
Zdroje informací

Výstupy kompilace úlohy uložené v úložišti dotazů najdete v části Prostředky. Můžete například najít "algebra.xml", který se používá k zobrazení grafu úloh, sestavení, která jste zaregistrovali, atd.
Zobrazení spouštění vrcholů

Zobrazuje podrobnosti o spuštění vrcholů. Profil úlohy archivuje každý protokol spuštění vrcholů, jako je celkový počet přečtených/zapsaných dat, modul runtime, stav atd. V tomto zobrazení můžete získat další podrobnosti o tom, jak úloha proběhla. Další informace najdete v tématu Použití zobrazení spouštění vrcholů v nástrojích Data Lake pro Visual Studio.

Další kroky

Pokud chcete protokolovat diagnostické informace, přečtěte si téma Zobrazení protokolů diagnostiky pro Azure Data Lake Analytics.
Pokud chcete zobrazit komplexnější dotaz, přejděte k tématu Analýza webových protokolů pomocí Azure Data Lake Analytics.
Pokud chcete použít zobrazení spouštění vrcholů, přečtěte si téma Použití zobrazení spouštění vrcholů v nástrojích Data Lake pro Visual Studio.