Monitorování toků dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Po dokončení sestavování a ladění toku dat chcete tok dat naplánovat tak, aby se spouštěl podle plánu v kontextu kanálu. Kanál můžete naplánovat pomocí aktivačních událostí. Pro účely testování a ladění toku dat z kanálu můžete použít tlačítko ladit na pásu karet panelu nástrojů nebo aktivovat možnost aktivovat v Tvůrci kanálů a spustit spuštění jedním spuštěním za účelem testování toku dat v kontextu kanálu.

po spuštění kanálu můžete monitorovat kanál a všechny aktivity obsažené v kanálu, včetně aktivity Flow dat. Klikněte na ikonu monitorování v levém panelu uživatelského rozhraní. Zobrazí se obrazovka podobná této. zvýrazněné ikony vám umožní přejít na aktivity v kanálu, včetně aktivity Flow dat.

Snímek obrazovky s ikonami pro výběr kanálů zobrazí další informace.

Na této úrovni vidíte statistiku, včetně časů běhu a stavu. ID běhu na úrovni aktivity se liší od ID běhu na úrovni kanálu. ID spuštění na předchozí úrovni je pro kanál. Výběrem brýlí získáte podrobné informace o spuštění toku dat.

Snímek obrazovky s ikonou brýlí zobrazí podrobnosti o spuštění toku dat.

Když jste v zobrazení monitorování grafického uzlu, můžete zobrazit zjednodušenou verzi grafu toku dat, která je jen pro zobrazení. Chcete-li zobrazit podrobné zobrazení s větším počtem uzlů grafu, které zahrnují popisky fáze transformace, použijte posuvník přiblížení na pravé straně plátna. Můžete také použít tlačítko Hledat na pravé straně k nalezení částí logiky toku dat v grafu.

Snímek obrazovky zobrazuje verzi grafu pouze pro zobrazení.

zobrazit plány spuštění Flow dat

když se vaše data Flow spustí ve sparku, služba určí optimální cesty kódu na základě celého toku dat. V různých uzlech a datových oddílech se škálováním na více instancí můžou být taky cesty spouštění. Proto graf monitorování představuje návrh toku, přičemž vezme v úvahu cestu spuštění vašich transformací. Když vyberete jednotlivé uzly, uvidíte "fáze", které reprezentují kód, který byl proveden společně v clusteru. Časování a počty, které vidíte, reprezentují tyto skupiny nebo fáze na rozdíl od jednotlivých kroků v návrhu.

Snímek obrazovky se zobrazí na stránce toku dat.

  • Když v okně sledování vyberete volné místo, v dolním podokně se zobrazí počty časování a řádků pro každou jímku a transformace, které vedly k datům jímky pro transformaci.

  • Když vyberete jednotlivé transformace, dostanete další zpětnou vazbu na panel na pravé straně, který zobrazuje statistiky oddílu, počty sloupců, zkosení (jak rovnoměrně jsou data distribuovaná napříč oddíly), a špičatost (jak nárazové data).

  • Řazení podle doby zpracování vám pomůže zjistit, které fáze toku dat zabrala nejvíce času.

  • Chcete-li zjistit, které transformace v jednotlivých fázích trvaly nejvíce času, seřaďte data podle nejvyšší doby zpracování.

  • Zapsané řádky jsou také určeny jako způsob, jak určit, které streamy v toku dat zapisují většinu dat.

  • Když vyberete jímku v zobrazení uzlu, uvidíte, že se zobrazí čára. Existují tři různé metody, které jsou v průběhu toku dat shrnuty do jímky. Jsou to tyto:

    • Vypočítáno: použijete sloupec pro podmíněné zpracování nebo v rámci výrazu v toku dat, ale nebudete ho nakládat do jímky.
    • Derived: sloupec je nový sloupec, který jste vygenerovali ve vašem toku, to znamená, že se ve zdroji nenachází.
    • Namapováno: sloupec pochází ze zdroje a vaše mapování je na pole jímky.
    • Stav toku dat: aktuální stav provádění
    • Čas spuštění clusteru: doba, po kterou se získá výpočetní prostředí JIT ve službě JIT pro spuštění toku dat
    • Počet transformací: kolik kroků transformace se provádí v toku

Snímek obrazovky ukazuje možnost aktualizace.

Celková doba zpracování jímky vs. doba zpracování transformace

Každá fáze transformace obsahuje celkovou dobu, po kterou je tato fáze dokončena, společně s každou dobou spuštění oddílu celkem. Po kliknutí na jímku se zobrazí "doba zpracování jímky". Tentokrát zahrnuje celkový čas transformace a i/O čas, který trvalo zápis dat do cílového úložiště. Rozdíl mezi časem zpracování jímky a celkem transformace je vstupně-výstupní čas pro zápis dat.

Pokud v zobrazení monitorování kanálu otevřete výstup JSON z aktivity toku dat, můžete také zobrazit podrobné časování každého kroku transformace oddílu. JSON obsahuje časování milisekund pro každý oddíl, zatímco zobrazení monitorování uživatelského rozhraní je agregovaným načasováním oddílů přidaných dohromady:

 {
     "stage": 4,
     "partitionTimes": [
          14353,
          14914,
          14246,
          14912,
          ...
         ]
}

Doba zpracování jímky

Když na mapě vyberete ikonu transformace jímky, v pravém dolním rohu se v panelu pro odesílání na pravé straně zobrazí další datový bod s názvem "doba zpracování". Toto je množství času stráveného prováděním úlohy v clusteru Spark po načtení dat, transformaci a zápis. Tento čas může zahrnovat uzavírání fondů připojení, vypnutí ovladače, odstraňování souborů, slučování souborů atd. Při provádění akcí ve vašem toku, jako je "přesunout soubory" a "výstup do jednoho souboru", se pravděpodobně zobrazí zvýšení hodnoty doba zpracování po zpracování.

  • Doba trvání fáze zápisu: čas pro zápis dat do pracovního umístění pro synapse SQL
  • operace s tabulkou SQL dobu trvání: čas strávený přesunutím dat z dočasných tabulek do cílové tabulky.
  • doba trvání SQL & po dobu SQL: čas strávený spouštěním příkazů pro použití před/po SQL
  • Doba trvání příkazů & po dobu trvání příkazů pro odeslání: čas strávený spouštěním všech operací před/po pro zdroj nebo jímka založené na souboru. Můžete například přesunout nebo odstranit soubory po zpracování.
  • Doba trvání sloučení: čas strávený sloučením souboru, sloučení souborů se při zápisu do jediného souboru používá pro jímky založené na souborech, nebo když se použije název souboru jako data sloupce. Pokud se v této metrikě stráví značný čas, měli byste se vyhnout používání těchto možností.
  • Čas fáze: celková doba strávená uvnitř Sparku k dokončení operace jako fáze.
  • Dočasná přípravná stabilní: název dočasné tabulky používané datovými toky pro přípravu dat v databázi.

Řádky chyb

Ve výstupu monitorování se projeví povolení zpracování řádků chyb v jímky toku dat. Při nastavování jímky na hodnotu "zpráva o úspěchu při chybě" bude výstup monitorování zobrazovat počet úspěšných a neúspěšných řádků po kliknutí na uzel monitorování jímky.

Snímek obrazovky zobrazuje řádky chyb.

Když vyberete možnost "ohlásit selhání při chybě", bude se stejný výstup zobrazovat pouze v textu monitorování aktivity výstup. Důvodem je skutečnost, že aktivita toku dat vrátí selhání pro provedení a podrobné zobrazení monitorování nebude k dispozici.

Snímek obrazovky zobrazuje chybové řádky v aktivitě.

Monitorovat ikony

Tato ikona znamená, že data transformace již byla v clusteru uložena do mezipaměti, takže časování a cesta provádění poberou v úvahu:

Snímek obrazovky se zobrazí ikona disku.

V transformaci se také zobrazují ikony zelených kroužků. Představují Počet umyvadel, do kterých data přecházejí.