Mapování režimu ladění toku dat

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Přehled

Režim ladění toku dat Azure Data Factory a synapse Analytics umožňuje interaktivně sledovat transformaci datových tvarů při sestavování a ladění toků dat. ladicí relaci lze použít jak v rámci relace pro data Flow, tak i během ladění kanálu při provádění ladění toků dat. pokud chcete zapnout režim ladění, použijte tlačítko ladit data Flow v horním panelu plátna toku dat nebo plátna kanálu, když máte aktivity toku dat.

Snímek obrazovky, který ukazuje, kde je jezdec ladění 1

Snímek obrazovky, který ukazuje, kde je jezdec ladění 2

Jakmile posuvník zapnete, zobrazí se výzva, abyste vybrali konfiguraci prostředí Integration runtime, kterou chcete použít. Pokud je zvolená možnost AutoResolveIntegrationRuntime, provedou se cluster s osmi jádry obecného COMPUTE s výchozí 60-minutovou dobou provozu. Pokud chcete pro více nečinných týmů, než vyprší časový limit relace, použít více než jednu nečinný tým, můžete zvolit vyšší nastavení TTL. Další informace o modulu runtime integrace toku dat naleznete v tématu Integration runtime Performance.

Ladění INFRAČERVENého výběru

Když je režim ladění zapnutý, budete interaktivně vytvářet tok dat s aktivním clusterem Spark. Po vypnutí ladění se relace zavře. Měli byste si uvědomit, že hodinové poplatky vzniklé Data Factory v době, kdy máte zapnutou relaci ladění.

Ve většině případů je vhodné sestavovat toky dat v režimu ladění, abyste před publikováním práce mohli ověřit svoji obchodní logiku a zobrazit transformace dat. K otestování toku dat v kanálu použijte tlačítko ladit na panelu kanálů.

Poznámka

Každá relace ladění, kterou uživatel spustí z uživatelského rozhraní prohlížeče, je nová relace se svým vlastním clusterem Spark. Můžete použít zobrazení monitorování pro relace ladění výše k zobrazení a správě relací ladění. Účtuje se vám každá hodina, po kterou se spouští každá relace ladění, včetně času TTL.

Stav clusteru

Indikátor stavu clusteru v horní části návrhové plochy se po přípravě clusteru na ladění změní na zelený. Pokud je váš cluster již zateplný, bude zelený indikátor zobrazen téměř okamžitě. Pokud váš cluster ještě nebyl spuštěný, když jste zadali režim ladění, pak cluster Spark provede studenou spouštěcí službu. Indikátor se dokončí, dokud prostředí není připravené na interaktivní ladění.

Až budete s laděním hotovi, vypněte přepínač ladění, aby cluster Spark mohl skončit a nadále se vám nebude účtovat aktivita ladění.

Nastavení ladění

Jakmile zapnete režim ladění, můžete upravit způsob, jakým datový tok data zobrazí. nastavení ladění můžete upravit kliknutím na "ladit Nastavení" na panelu nástrojů Flow na plátně pro Data. Tady můžete vybrat omezení počtu řádků nebo zdroj souborů, které se mají použít pro každou transformaci vašich zdrojů. Omezení řádků v tomto nastavení platí pouze pro aktuální relaci ladění. Můžete také vybrat pracovní propojenou službu, která se má použít pro zdroj Azure synapse Analytics.

Nastavení ladění

pokud máte parametry ve vašich datech Flow nebo kterékoli z jejích odkazovaných datových sad, můžete určit, které hodnoty se mají použít během ladění, a to tak, že vyberete kartu parametry .

Tady použijte nastavení vzorkování, abyste nastavili ukázkové soubory nebo ukázkové tabulky dat, takže nemusíte měnit zdrojové datové sady. Pomocí ukázkového souboru nebo tabulky můžete zachovat stejné nastavení logiky a vlastností v toku dat při testování s podmnožinou dat.

Parametry nastavení ladění

Výchozím nastavením IR použitým pro režim ladění v datových tocích je malý jeden pracovní uzel s jedním jádrem, který má jeden uzel ovladače se čtyřmi jádry. Při testování logiky toku dat to funguje dobře s menšími ukázkami dat. Pokud rozbalíte omezení v nastavení ladění během období Preview nebo během ladění kanálu nastavíte větší počet vzorků řádků ve zdroji, budete možná chtít zvážit nastavení většího výpočetního prostředí v novém Azure Integration Runtime. Pak můžete relaci ladění restartovat pomocí rozsáhlejšího výpočetního prostředí.

Náhled dat

S laděním na se na spodním panelu na kartě náhled dat zobrazí světlo. bez režimu ladění se v datovém Flow na kartě kontrola zobrazí pouze aktuální metadata a z každé z transformací. Náhled dat bude dotazovat jenom na počet řádků, které jste v nastavení ladění nastavili jako limit. Kliknutím na aktualizovat načtete náhled dat.

Náhled dat

Poznámka

Zdroje souborů omezují pouze řádky, které vidíte, nikoli řádky, které jsou čteny. U velmi rozsáhlých datových sad se doporučuje, abyste vybrali malou část tohoto souboru a použili ho pro vaše testování. můžete vybrat dočasný soubor v Nastavení ladění pro každý zdroj, který je typem datové sady souboru.

při spuštění v režimu ladění v datové Flow nebudou Data zapsána do transformace jímky. Ladicí relace má sloužit jako testovací kabel pro vaše transformace. Během ladění nejsou požadovány jímky a jsou ignorovány v toku dat. pokud chcete testovat zápisy dat v jímky, spusťte data Flow z kanálu a použijte spuštění ladění z kanálu.

Data ve verzi Preview jsou snímky transformovaných dat s využitím omezení řádků a vzorkování dat z datových snímků v paměti Spark. Proto nejsou ovladače jímky v tomto scénáři použity ani testovány.

Testování podmínek připojení

Pokud se test jednotky připojí, existují nebo transformace vyhledávání, ujistěte se, že používáte pro svůj test malou sadu známých dat. pomocí možnosti Nastavení ladění výše můžete nastavit dočasný soubor, který se má použít pro vaše testování. To je potřeba proto, že při omezování nebo vzorkování řádků z velké datové sady nemůžete předpovědět, které řádky a které klíče se budou do toku číst pro účely testování. Výsledek je Nedeterministický, což znamená, že podmínky připojení můžou selhat.

Rychlé akce

Jakmile se zobrazí náhled dat, můžete vygenerovat rychlou transformaci pro přetypovat, odebrání nebo provedení úprav sloupce. Klikněte na záhlaví sloupce a pak na panelu nástrojů Náhled dat vyberte jednu z možností.

Snímek obrazovky se zobrazí na panelu nástrojů Náhled dat s možnostmi: přetypovat, upravit, Statistika a odebrat.

Jakmile vyberete úpravu, náhled dat se okamžitě aktualizuje. Kliknutím na Potvrdit v pravém horním rohu Vygenerujte novou transformaci.

Snímek obrazovky zobrazující tlačítko Potvrdit

Přetypovat a Modify vygenerují odvozenou transformaci sloupce a Odebrání vytvoří transformaci SELECT.

snímek obrazovky ukazuje Nastavení odvozeného sloupce.

Poznámka

pokud upravíte Flow dat, budete muset před přidáním rychlé transformace znovu načíst náhled dat.

Profilace dat

Výběr sloupce na kartě náhledu dat a kliknutí na Statistika na panelu nástrojů Náhled dat zobrazí graf na pravém okraji datové mřížky s podrobnými údaji o jednotlivých polích. Služba se určí na základě vzorkování dat, který typ grafu se má zobrazit. Pole s vysokou mohutnou hodnotou budou mít jako výchozí hodnotu NULL nebo ne grafy, zatímco kategorií a číselná data s nízkou mohutnost budou zobrazovat pruhové grafy zobrazující frekvenci hodnot dat. Zobrazí se také hodnota Max/len pro pole řetězců, minimální/maximální hodnoty v číselném poli, standardní dev, percentily, počty a průměr.

Statistiky sloupců

Další kroky