Použití prohlížeče úloh a zobrazení úloh pro Azure Data Lake Analytics

Služba Azure Data Lake Analytics archivuje odeslané úlohy v úložišti dotazů. V tomto článku se dozvíte, jak pomocí prohlížeče úloh a zobrazení úloh v Nástroje Azure Data Lake pro Visual Studio najít historické informace o úloze.

Ve výchozím nastavení služba Data Lake Analytics archivuje úlohy po dobu 30 dnů. Období vypršení platnosti je možné nakonfigurovat z Azure Portal konfigurací přizpůsobených zásad vypršení platnosti. Po vypršení platnosti nebudete mít přístup k informacím o úloze.

Požadavky

Viz Nástroje Data Lake pro Visual Studio požadavky.

Otevření prohlížeče úloh

Přístup k prohlížeči úloh prostřednictvím Průzkumníka>> serveru Data Lake Analytics> Jobs v Visual Studio Pomocí prohlížeče úloh můžete získat přístup k úložišti dotazů Data Lake Analytics účtu. Prohlížeč úloh zobrazuje úložiště dotazů vlevo, zobrazuje základní informace o úloze a zobrazení úlohy vpravo zobrazující podrobné informace o úloze.

Zobrazení úlohy

Zobrazení úlohy zobrazuje podrobné informace o úloze. Chcete-li otevřít úlohu, můžete dvakrát kliknout na úlohu v prohlížeči úloh nebo ji otevřít v nabídce Data Lake kliknutím na zobrazení úlohy. Mělo by se zobrazit dialogové okno naplněné adresou URL úlohy.

Data Lake Tools Visual Studio Job Browser

Zobrazení úloh obsahuje:

  • Souhrn úlohy

    Aktualizujte zobrazení úlohy, abyste viděli nejnovější informace o spuštěných úlohách.

    • Stav úlohy (graf):

      Stav úlohy popisuje fáze úlohy:

      Screenshot that shows the Azure Data Lake Analytics job phases.

      • Příprava: Upload skript do cloudu, kompilaci a optimalizaci skriptu pomocí kompilační služby.

      • Zařazené do fronty: Úlohy se zařadí do fronty, když čekají na dostatek prostředků, nebo úlohy překročí maximální počet souběžných úloh na jeden účet. Nastavení priority určuje posloupnost úloh ve frontě – nižší číslo, vyšší prioritu.

      • Spuštění: Úloha ve skutečnosti běží ve vašem Data Lake Analytics účtu.

      • Dokončení: Úloha se dokončila (například dokončení souboru).

        Úloha může selhat v každé fázi. Například chyby kompilace ve fázi Příprava, chyby časového limitu ve fázi fronty a chyby provádění ve fázi Spuštění atd.

    • Základní informace

      Základní informace o úloze se zobrazují v dolní části panelu Souhrn úloh.

      Screenshot that shows the Job Summary with descriptions in text boxes.

      • Výsledek úlohy: Úspěšné nebo neúspěšné. Úloha může selhat v každé fázi.
      • Celková doba trvání: Doba trvání zdi (doba trvání) mezi odesláním času a koncovým časem.
      • Celkový výpočetní čas: Součet všech časů provádění vrcholů můžete považovat za čas, kdy se úloha spouští pouze v jednom vrcholu. Další informace o vrcholech najdete v tématu Celkový vrchol.
      • Odeslat, spustit nebo ukončit čas: Čas, kdy služba Data Lake Analytics obdrží odeslání úlohy nebo začne spouštět úlohu nebo ukončí úlohu úspěšně nebo ne.
      • Kompilace, fronta/ spuštění: Doba strávená hodinami strávená během fáze Příprava, fronta/ Spuštění
      • Účet: Účet Data Lake Analytics použitý ke spuštění úlohy.
      • Autor: Uživatel, který odeslal úlohu, může to být účet skutečné osoby nebo systémový účet.
      • Priorita: Priorita úlohy. Čím nižší je číslo, tím vyšší je priorita. Ovlivňuje jenom posloupnost úloh ve frontě. Nastavení vyšší priority nevyvolá spuštěné úlohy.
      • Paralelismus: Požadovaný maximální počet souběžných jednotek Azure Data Lake Analytics (ADLAUs), označovaných také jako vrcholy. V současné době se jeden vrchol rovná jednomu virtuálnímu počítači se dvěma virtuálními jádry a šesti GB paměti RAM, i když by se to mohlo upgradovat v budoucnu Data Lake Analytics aktualizací.
      • Bajty vlevo: Bajty, které je potřeba zpracovat, dokud úloha nebude dokončena.
      • Bajty přečtené/zapsané: Bajty, které byly od spuštění úlohy spuštěné, přečtené a napsané.
      • Celkový počet vrcholů: Úloha se rozdělí na mnoho částí práce, každá práce se nazývá vrchol. Tato hodnota popisuje, kolik částí práce se úloha skládá. Vrchol můžete považovat za základní jednotku procesu, označovanou také jako Azure Data Lake Analytics Jednotku (ADLAU) a vrcholy se dají spouštět paralelismu.
      • Dokončeno/Spuštěno/Neúspěšné: Počet dokončených nebo spuštěných nebo neúspěšných vrcholů. Vrcholy můžou selhat kvůli chybám uživatelského kódu i systému, ale systém několikrát opakuje neúspěšné vrcholy. Pokud se vrchol stále nedaří po opakování, celá úloha selže.
  • Graph úlohy

    Skript U-SQL představuje logiku transformace vstupních dat na výstupní data. Skript se zkompiluje a optimalizuje na plán fyzického spuštění ve fázi Příprava. Úloha Graph ukazuje plán fyzického spuštění. Tento proces znázorňuje následující diagram:

    Azure Data Lake Analytics job phases status

    Práce je rozdělena na mnoho částí práce. Každá práce se nazývá vrchol. Vrcholy jsou seskupené jako super vrcholy (označované také jako fáze) a vizualizované jako úloha Graph. Zelené pohlednice fáze v grafu úloh zobrazují fáze.

    Každý vrchol ve fázi provádí stejný druh práce s různými částmi stejných dat. Pokud máte například soubor s jedním datem TB a jsou z nich stovky vrcholů, každý z nich čte blok dat. Tyto vrcholy jsou seskupené ve stejné fázi a provádějí stejnou práci na různých částech stejného vstupního souboru.

    • Informace o fázi

      V určité fázi se některá čísla zobrazují na kartě.

      Azure Data Lake Analytics job graph stage

      • SV1 Extract: Název fáze pojmenované číslem a metodou operace.

      • 84 vrcholů: Celkový počet vrcholů v této fázi. Obrázek označuje, kolik částí práce je v této fázi rozděleno.

      • 12,90 s/vrchol: Průměrná doba provádění vrcholů pro tuto fázi. Tento obrázek se vypočítá pomocí funkce SUMA (každý čas provádění vrcholů) / (celkový počet vrcholů). To znamená, že pokud byste mohli přiřadit všechny vrcholy spuštěné paralelismu, celá fáze se dokončí ve verzi 12,90 s. Také to znamená, že pokud se veškerá práce v této fázi provádí sériově, náklady by byly #vertices * PRŮMĚRNÁ doba.

      • 850 895 řádků napsaných: Celkový počet řádků napsaný v této fázi

      • R/W: Množství dat přečtených a napsaných v této fázi v bajtech.

      • Barvy: Barvy se používají ve fázi k označení jiného stavu vrcholu.

        • Zelená označuje, že vrchol je úspěšný.
        • Oranžová označuje, že vrchol se znovu zkouší. Retriovaný vrchol se nezdařil, ale systém se automaticky a úspěšně provede a úspěšně dokončí celkovou fázi. Pokud se vrchol opakovat, ale stále selhal, barva se změní na červenou a celá úloha se nezdaří.
        • Červená značí, že selhalo, což znamená, že systém několikrát provedl opakování určitého vrcholu, ale stále selhal. Tento scénář způsobí selhání celé úlohy.
        • Modrá znamená, že je spuštěný určitý vrchol.
        • Bílá označuje, že vrchol čeká. Vrchol může čekat, až bude k dispozici ADLAU, nebo může čekat na vstup, protože jeho vstupní data nemusí být připravená.

        Další podrobnosti o fázi najdete tak, že najedete myší myší na jeden stav:

        Azure Data Lake Analytics job graph stage details

    • Vrcholy: Popisuje podrobnosti vrcholů, například kolik vrcholů bylo celkem dokončeno, kolik vrcholů bylo dokončeno, že selhaly nebo stále běží nebo čekají atd.

    • Čtení dat mezi pody/pody: Soubory a data jsou uloženy v několika podech v distribuovaném systému souborů. Tato hodnota popisuje, kolik dat se načítá ve stejném podu nebo křížovém podu.

    • Celkový výpočetní čas: Součet všech časů provádění vrcholů ve fázi můžete považovat za čas, který by trvalo, pokud se všechna práce ve fázi spustí pouze v jednom vrcholu.

    • Data a řádky zapsané/čtené: Označuje, kolik dat nebo řádků bylo přečteno/zapisováno, nebo je třeba je číst.

    • Selhání čtení vrcholů: Popisuje, kolik vrcholů se při čtení dat nezdařilo.

    • Duplicitní vrcholy se zahodí: Pokud vrchol běží příliš pomalu, může systém naplánovat více vrcholů, aby spustil stejnou práci. Redukční vrcholy se po úspěšném dokončení jednoho z vrcholů zahodí. Duplicitní vrchol zahodí záznamy o počtu vrcholů, které se zahodí jako duplikace ve fázi.

    • Odvolání vrcholů: Vrchol byl úspěšný, ale z některých důvodů ho spusťte znovu. Pokud například podřízený vrchol ztratí zprostředkující vstupní data, požádá o opětovné spuštění nadřazeného vrcholu.

    • Spuštění plánu vrcholů: Celkový čas naplánování vrcholů.

    • Min/Average/Max Vertex data read: Minimum/average/maximum každého vrcholu čtení dat.

    • Doba trvání: Doba trvání nástěnné hodiny, kterou fáze trvá, musíte načíst profil, aby se tato hodnota zobrazila.

    • Přehrávání úloh

      Data Lake Analytics spouští úlohy a archivuje vrcholy spuštěné informace o úlohách, například při spuštění vrcholů, zastavení, selhání a způsobu jejich opakování atd. Všechny informace se automaticky zaprotokolují do úložiště dotazů a ukládají se do svého profilu úlohy. Profil úlohy si můžete stáhnout prostřednictvím možnosti Načíst profil v zobrazení úlohy a po stažení profilu úlohy můžete zobrazit přehrávání úloh.

      Přehrávání úloh je epitome vizualizace toho, co se stalo v clusteru. Pomáhá sledovat průběh provádění úloh a vizuálně zjišťovat anomálie výkonu a kritické body za velmi krátkou dobu (méně než 30s obvykle).

    • Zobrazení heat mapy úlohy

      Heat mapu úlohy je možné vybrat v rozevíracím seznamu Zobrazení v Graph úlohy.

      Azure Data Lake Analytics job graph heap map display

      Zobrazuje mapu vstupně-výstupních operací, času a propustnosti úlohy, prostřednictvím které zjistíte, kde úloha tráví většinu času, nebo jestli je vaše úloha vstupně-výstupní úlohou atd.

      Azure Data Lake Analytics job graph heap map example

      • Průběh: Průběh provádění úlohy, viz informace o fázi.
      • Čtení/zápis dat: Heat mapa celkového čtení a zápisu dat v každé fázi.
      • Výpočetní čas: Heat mapa sumy (každá doba provádění vrcholů) můžete zvážit, jak dlouho by to trvalo, pokud by se všechna práce ve fázi spustila pouze s 1 vrcholem.
      • Průměrná doba provádění na uzel: Heat mapa sumy (každá doba provádění vrcholů) / (číslo vrcholu). To znamená, že pokud byste mohli přiřadit všechny vrcholy spuštěné paralelismu, bude celá fáze provedena v tomto časovém rámci.
      • Propustnost vstupu/výstupu: Heat mapa vstupní/výstupní propustnosti každé fáze, můžete ověřit, jestli je úloha vázaná na vstupně-výstupní úlohu.
  • Operace s metadaty

    V U-SQL skriptu můžete provádět některé operace s metadaty, jako je například vytvoření databáze, vyřazení tabulky atd. Tyto operace se po kompilaci zobrazují v operaci metadat. Můžete najít kontrolní výrazy, vytvořit entity, sem vypustit entity.

    Azure Data Lake Analytics Job View metadata operations

  • Historie stavu

    Historie stavů je vizualizována také v souhrnu úloh, ale tady můžete získat další podrobnosti. Podrobné informace, jako je například příprava úlohy, zařadí se do fronty, spuštění, ukončení. Můžete také zjistit, kolikrát byla úloha zkompilována (CcsAttempts: 1), kdy je úloha odeslána do clusteru ve skutečnosti (podrobnosti: úloha odeslání do clusteru) atd.

    Azure Data Lake Analytics Job View state history

  • Diagnostika

    Nástroj automaticky diagnostikuje spouštění úloh. Při některých chybách nebo problémech s výkonem ve vašich úlohách se zobrazí upozornění. Upozorňujeme, že pokud chcete získat úplné informace, musíte si stáhnout profil.

    Azure Data Lake Analytics Job View diagnostics

    • Upozornění: Tady se zobrazí upozornění s upozorněním kompilátoru. Po zobrazení výstrahy můžete kliknout na odkaz "x problémů".
    • Vrchol běží příliš dlouho: Pokud nějaký vrchol vyprší (například 5 hodin), zobrazí se tady problémy.
    • Využití prostředků: Pokud jste přidělili více nebo dostatek paralelismu, než potřebujete, najdete tady problémy. Můžete také kliknout na Využití prostředků a zobrazit další podrobnosti a provést scénáře citlivosti a najít lepší přidělení prostředků (další podrobnosti najdete v této příručce).
    • Kontrola paměti: Pokud některý vrchol používá více než 5 GB paměti, najdete tady problémy. Spuštění úlohy může systém zabít, pokud používá více paměti než omezení systému.

Podrobnosti úlohy

Podrobnosti úlohy zobrazují podrobné informace o úloze, včetně zobrazení skriptů, prostředků a vrcholů provádění.

Azure Data Lake Analytics job detail

  • Skript

    Skript U-SQL úlohy je uložen v úložišti dotazů. Můžete zobrazit původní U-SQL skript a v případě potřeby ho znovu odeslat.

  • Zdroje informací

    Výstupy kompilace úlohy uložené v úložišti dotazů najdete prostřednictvím prostředků. Můžete například najít "algebra.xml", který se používá k zobrazení Graph úlohy, sestavení, která jste zaregistrovali atd.

  • Zobrazení spuštění vrcholu

    Zobrazuje podrobnosti o spuštění vrcholů. Profil úlohy archivuje každý protokol spouštění vrcholů, například celkový počet načtených a zapsaných dat, modul runtime, stav atd. V tomto zobrazení můžete získat další podrobnosti o tom, jak úloha běžela. Další informace najdete v tématu Použití zobrazení spuštění vrcholu v nástrojích Data Lake pro Visual Studio.

Další kroky