Průvodce výkonem a škálovatelností aktivity kopírování

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Někdy chcete provést rozsáhlou migraci dat z data lake nebo podnikového datového skladu (EDW) do Azure. Jindy chcete ingestovat velké objemy dat z různých zdrojů do Azure pro analýzu velkých objemů dat. V každém případě je důležité dosáhnout optimálního výkonu a škálovatelnosti.

Kanály Azure Data Factory a Azure Synapse Analytics poskytují mechanismus příjmu dat s následujícími výhodami:

  • Zpracovává velké objemy dat.
  • Je vysoce výkonný
  • Je nákladově efektivní

Tyto výhody jsou vynikající pro datové inženýry, kteří chtějí vytvářet škálovatelné kanály pro příjem dat, které jsou vysoce výkonné.

Po přečtení tohoto článku budete moct odpovědět na následující otázky:

  • Jakou úroveň výkonu a škálovatelnosti můžu dosáhnout pomocí aktivity kopírování pro scénáře migrace dat a příjmu dat?
  • Jaké kroky mám provést při ladění výkonu aktivity kopírování?
  • Jaké optimalizace výkonu můžu využít pro spuštění jedné aktivity kopírování?
  • Jaké další externí faktory je potřeba vzít v úvahu při optimalizaci výkonu kopírování?

Poznámka:

Pokud obecně neznáte aktivitu kopírování, podívejte se na přehled aktivity kopírování, než si přečtete tento článek.

Kopírování výkonu a škálovatelnosti s využitím kanálů Azure Data Factory a Synapse

Kanály Azure Data Factory a Synapse nabízejí bezserverovou architekturu, která umožňuje paralelismus na různých úrovních.

Tato architektura umožňuje vyvíjet kanály, které maximalizují propustnost přesunu dat pro vaše prostředí. Tyto kanály plně využívají následující prostředky:

  • Šířka pásma sítě mezi zdrojovým a cílovým úložištěm dat
  • Vstupně-výstupní operace zdrojového nebo cílového úložiště dat za sekundu (IOPS) a šířku pásma

Toto úplné využití znamená, že můžete odhadnout celkovou propustnost měřením minimální dostupné propustnosti s následujícími prostředky:

  • Zdrojové úložiště dat
  • Cílové úložiště dat
  • Šířka pásma sítě mezi zdrojovým a cílovým úložištěm dat

Následující tabulka ukazuje výpočet doby trvání přesunu dat. Doba trvání v každé buňce se vypočítá na základě dané sítě a šířky pásma úložiště dat a dané velikosti datové části.

Poznámka:

Níže uvedená doba trvání představuje dosažitelný výkon v komplexním řešení integrace dat pomocí jedné nebo více technik optimalizace výkonu popsaných v funkcích optimalizace výkonu kopírování, včetně použití forEach k rozdělení a vytvoření více souběžných aktivit kopírování. Doporučujeme postupovat podle kroků ladění výkonu, abyste optimalizovali výkon kopírování pro konkrétní datovou sadu a konfiguraci systému. Měli byste použít čísla získaná v testech ladění výkonu pro plánování produkčního nasazení, plánování kapacity a odhad fakturace.

 

Velikost dat /
bandwidth
50 Mb/s 100 Mb/s 500 Mb/s 1 Gb/s 5 Gb/s 10 Gb/s 50 Gb/s
1 GB 2,7 min 1,4 min 0,3 min 0,1 min 0,03 min 0,01 min 0,0 min
10 GB 27,3 min 13,7 min 2,7 min 1,3 min 0,3 min 0,1 min 0,03 min
100 GB 4,6 hod. 2,3 hod. 0,5 hod. 0,2 hod. 0,05 hod. 0,02 hod. 0,0 hod.
1 TB 46,6 hod. 23,3 hod. 4,7 hod. 2,3 hod. 0,5 hod. 0,2 hod. 0,05 hod.
10 TB 19,4 dní 9,7 dní 1,9 dne 0,9 dní 0,2 dny 0,1 dne 0,02 dní
100 TB 194,2 dní 97,1 dní 19,4 dní 9,7 dní 1,9 dne 1 den 0,2 dny
1 PB 64,7 mo 32,4 mo 6,5 mo 3,2 mo 0,6 mo 0,3 mo 0,06 mo
10 PB 647,3 mo 323,6 mo 64,7 mo 31,6 mo 6,5 mo 3,2 mo 0,6 mo

Kopírování je škálovatelné na různých úrovních:

How copy scales

  • Tok řízení může paralelně spouštět více aktivit kopírování, například pomocí smyčky For Each.

  • Jedna aktivita kopírování může využívat škálovatelné výpočetní prostředky.

    • Při použití prostředí Azure Integration Runtime (IR) můžete pro každou aktivitu kopírování zadat až 256 jednotek integrace dat (DIU) bez serveru.
    • Při použití místního prostředí IR můžete použít některý z následujících přístupů:
      • Vertikálně navyšte kapacitu počítače ručně.
      • Horizontální navýšení kapacity na více počítačů (až 4 uzly) a jedna aktivita kopírování rozdělí soubor do všech uzlů.
  • Jedna aktivita kopírování načítá a zapisuje do úložiště dat paralelně více vláken.

Kroky ladění výkonu

Provedením následujících kroků vylaďte výkon vaší služby aktivitou kopírování:

  1. Vyberte testovací datovou sadu a vytvořte směrný plán.

    Během vývoje otestujte kanál pomocí aktivity kopírování na reprezentativní ukázce dat. Zvolená datová sada by měla představovat typické vzory dat s následujícími atributy:

    • Struktura složek
    • Vzor souboru
    • Datové schéma

    A vaše datová sada by měla být dostatečně velká k vyhodnocení výkonu kopírování. Dokončení aktivity kopírování trvá aspoň 10 minut. Shromážděte podrobnosti o spuštění a charakteristiky výkonu po monitorování aktivity kopírování.

  2. Jak maximalizovat výkon jedné aktivity kopírování:

    Doporučujeme nejprve maximalizovat výkon pomocí jedné aktivity kopírování.

    • Pokud se aktivita kopírování spouští v prostředí Azure Integration Runtime:

      Začněte výchozími hodnotami pro Integrace Dat Jednotky (DIU) a nastavení paralelního kopírování.

    • Pokud se aktivita kopírování spouští v místním prostředí Integration Runtime:

      K hostování prostředí IR doporučujeme použít vyhrazený počítač. Počítač by měl být oddělený od serveru, který je hostitelem úložiště dat. Začněte s výchozími hodnotami pro nastavení paralelního kopírování a použitím jednoho uzlu pro místní prostředí IR.

    Proveďte spuštění testu výkonnosti. Poznamenejte si dosažené výsledky. Uveďte skutečné použité hodnoty, jako jsou jednotky DIU a paralelní kopie. Informace o tom, jak shromažďovat výsledky spuštění a použitá nastavení výkonu, najdete v monitorování aktivit kopírování. Zjistěte, jak řešit potíže s výkonem aktivity kopírování, abyste zjistili a vyřešili kritické body.

    Iterujte, abyste provedli další spuštění testů výkonnosti podle pokynů k řešení potíží a ladění. Jakmile spuštění jedné aktivity kopírování nedokáže dosáhnout lepší propustnosti, zvažte, jestli chcete maximalizovat agregovanou propustnost spuštěním více kopií současně. Tato možnost je popsána v další číslovaný odrážky.

  3. Jak maximalizovat agregovanou propustnost spuštěním více kopií současně:

    Nyní jste maximalizovali výkon jedné aktivity kopírování. Pokud jste ještě nedosáhli horních limitů propustnosti vašeho prostředí, můžete paralelně spustit více aktivit kopírování. Paralelně můžete spustit pomocí konstruktorů toku řízení. Jedním z takových konstruktorů je smyčka For Each. Další informace najdete v následujících článcích o šablonách řešení:

  4. Rozbalte konfiguraci na celou datovou sadu.

    Až budete spokojeni s výsledky provádění a výkonem, můžete rozšířit definici a kanál tak, aby pokrývala celou datovou sadu.

Řešení potíží s výkonem aktivity kopírování

Podle kroků ladění výkonu naplánujte a proveďte test výkonnosti pro váš scénář. Informace o řešení potíží s výkonem jednotlivých spuštění aktivit kopírování najdete v tématu Řešení potíží s výkonem aktivity kopírování.

Kopírování funkcí optimalizace výkonu

Služba poskytuje následující funkce optimalizace výkonu:

Jednotky integrace dat

Jednotka Integrace Dat (DIU) je míra, která představuje výkon jedné jednotky v kanálech Azure Data Factory a Synapse. Výkon je kombinace přidělení prostředků procesoru, paměti a síťového prostředku. DIU se vztahuje pouze na prostředí Azure Integration Runtime. DIU se nevztahuje na místní prostředí Integration Runtime. Další informace najdete tady.

Škálovatelnost místního prostředí Integration Runtime

Možná budete chtít hostovat rostoucí souběžnou úlohu. Nebo můžete chtít dosáhnout vyššího výkonu na úrovni současné úlohy. Škálování zpracování můžete vylepšit následujícími přístupy:

  • Můžete vertikálně navýšit kapacitu místního prostředí IR zvýšením počtu souběžných úloh, které se můžou spouštět na uzlu.
    Vertikální navýšení kapacity funguje jenom v případě, že procesor a paměť uzlu nejsou plně využité.
  • Místní prostředí IR můžete škálovat přidáním dalších uzlů (počítačů).

Další informace naleznete v tématu:

Paralelní kopírování

Vlastnost můžete nastavit parallelCopies tak, aby označí paralelismus, který má aktivita kopírování používat. Tuto vlastnost si můžete představit jako maximální počet vláken v aktivitě kopírování. Vlákna fungují paralelně. Vlákna buď čtou ze zdroje, nebo zapisují do úložišť dat jímky. Další informace.

Fázovaná kopie

Operace kopírování dat může odesílat data přímo do úložiště dat jímky. Alternativně můžete použít úložiště objektů blob jako dočasné přípravné úložiště. Další informace.

Podívejte se na další články o aktivitě kopírování: