Iterativní vývoj a ladění s využitím kanálů Azure Data Factory a Synapse Analytics

Článek
12/09/2023

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Azure Data Factory a Synapse Analytics podporují iterativní vývoj a ladění kanálů. Tyto funkce umožňují otestovat změny před vytvořením žádosti o přijetí změn nebo jejich publikováním do služby.

V osmiminutovém úvodu a ukázce této funkce se podívejte na následující video:

Ladění kanálu

Při vytváření pomocí plátna kanálu můžete své aktivity otestovat pomocí funkce Ladění . Při testovacích spuštěních nemusíte před výběrem možnosti Ladit publikovat změny do služby. Tato funkce je užitečná ve scénářích, ve kterých chcete před aktualizací pracovního postupu zajistit, aby změny fungovaly podle očekávání.

Debug capability on the pipeline canvas

Při spuštění kanálu můžete výsledky jednotlivých aktivit zobrazit na kartě Výstup na plátně kanálu.

Výsledky testovacích běhů si můžete prohlédnout v okně Výstup na plátně kanálu.

Output window of the pipeline canvas

Po úspěšném testovacím spuštění přidejte do kanálu další aktivity a pokračujte v iterativním ladění. Během probíhajícího testovacího spuštění můžete také zrušit .

Důležité

Výběrem možnosti Ladění se kanál skutečně spustí. Pokud například kanál obsahuje aktivitu kopírování, testovací spuštění kopíruje data ze zdroje do cíle. V důsledku toho doporučujeme při ladění používat testovací složky ve svých aktivitách kopírování a dalších aktivitách. Po ladění kanálu přepněte na skutečné složky, které chcete použít v normálních operacích.

Nastavení zarážek

Služba umožňuje ladit kanál, dokud se nedostanete na konkrétní aktivitu na plátně kanálu. Umístěte zarážku na aktivitu, dokud ji nechcete testovat, a vyberte Ladit. Služba zajišťuje, že se test spustí jenom do doby, než se aktivita zarážky na plátně kanálu spustí. Tato funkce Debug Until je užitečná, když nechcete testovat celý kanál, ale jenom podmnožinu aktivit uvnitř kanálu.

Breakpoints on the pipeline canvas

Pokud chcete nastavit zarážku, vyberte prvek na plátně kanálu. Možnost Ladit do se zobrazí jako prázdný červený kruh v pravém horním rohu prvku.

Before setting a breakpoint on the selected element

Jakmile vyberete možnost Ladit do konce , změní se na vyplněný červený kruh, který označuje, že je zarážka povolená.

After setting a breakpoint on the selected element

Monitorování spuštění ladění

Když spustíte spuštění ladění kanálu, výsledky se zobrazí v okně Výstup na plátně kanálu. Karta Výstup bude obsahovat pouze poslední spuštění, ke kterému došlo během aktuální relace prohlížeče.

Output window of the pipeline canvas

Pokud chcete zobrazit historické zobrazení spuštění ladění nebo zobrazit seznam všech aktivních spuštění ladění, můžete přejít do prostředí monitorování .

Azure Data Factory
Synapse Analytics

Select the View active debug runs icon

Poznámka:

Služba trvá jenom 15 dnů v historii spuštění ladění.

Ladění mapování toků dat

Mapování toků dat umožňuje vytvářet logiku transformace dat bez kódu, která běží ve velkém měřítku. Při vytváření logiky můžete zapnout ladicí relaci a interaktivně pracovat s daty pomocí živého clusteru Spark. Další informace najdete v tématu o režimu ladění toku dat mapování.

V prostředí monitorování můžete monitorovat aktivní ladicí relace toku dat.

View data flow debug sessions

Náhled dat v návrháři toku dat a ladění kanálů toků dat je určený k tomu, aby nejlépe fungoval s malými vzorky dat. Pokud ale potřebujete otestovat logiku v kanálu nebo toku dat s velkými objemy dat, zvyšte velikost prostředí Azure Integration Runtime, které se používá v ladicí relaci, s více jádry a minimálním výpočetním prostředím pro obecné účely.

Ladění kanálu aktivitou toku dat

Při spuštění kanálu ladění s tokem dat máte dvě možnosti, které se mají použít. Můžete použít existující ladicí cluster nebo aktivovat nový cluster za běhu pro toky dat.

Použití existující relace ladění výrazně sníží dobu spuštění toku dat, protože cluster je již spuštěný, ale nedoporučuje se pro složité nebo paralelní úlohy, protože může selhat při spuštění více úloh najednou.

Pomocí modulu runtime aktivity se vytvoří nový cluster pomocí nastavení zadaných v prostředí Integration Runtime každé aktivity toku dat. To umožňuje izolovat každou úlohu a měla by se používat pro složité úlohy nebo testování výkonu. Hodnotu TTL můžete také řídit v prostředí Azure IR, aby prostředky clusteru používané k ladění byly po dané časové období stále k dispozici, aby mohly obsluhovat další žádosti o úlohy.

Poznámka:

Pokud máte kanál s toky dat spuštěnými paralelně nebo toky dat, které je potřeba testovat s velkými datovými sadami, zvolte Možnost Použít modul runtime aktivity, aby služba mohl použít prostředí Integration Runtime, které jste vybrali ve své aktivitě toku dat. To umožní, aby se toky dat spouštěly na několika clusterech a mohly by se přizpůsobit provádění paralelních toků dat.

Running a pipeline with a dataflow

Po otestování změn je zvyšte na vyšší prostředí pomocí kontinuální integrace a nasazování.