Průvodce výkonem a škálovatelností aktivity kopírování

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Někdy chcete provést rozsáhlou migraci dat z úložiště Data Lake nebo podnikového datového skladu (EDW) do Azure. V jiných časech chcete ingestovat velké objemy dat z různých zdrojů do Azure pro analýzy velkých objemů dat. V každém případě je důležité dosáhnout optimálního výkonu a škálovatelnosti.

Azure Data Factory a Azure Synapse Analytics poskytují mechanismus pro ingestování dat s následujícími výhodami:

  • Zpracovává velké objemy dat.
  • Je vysoce výkonný
  • Je nákladově efektivní

Tyto výhody jsou vynikající volbou pro datové inženýry, kteří chtějí vytvářet vysoce výkonné kanály pro příjem škálovatelných dat.

Po přečtení tohoto článku budete schopni zodpovědět následující otázky:

  • Jakou úroveň výkonu a škálovatelnosti můžu dosáhnout použitím aktivity kopírování ve scénářích migrace dat a příjmu dat?
  • Jaké kroky mám provést k vyladění výkonu aktivity kopírování?
  • Jaké optimalizace výkonu můžu využít pro jedno spuštění aktivity kopírování?
  • Jaké další externí faktory je třeba zvážit při optimalizaci výkonu kopírování?

Poznámka

Pokud aktivitu kopírování obecně znáte, přečtěte si před přečtením tohoto článku přehled aktivit kopírování.

Výkon a škálovatelnost kopírování dosažitelná s využitím Azure Data Factory a kanálů Synapse

Azure Data Factory a Synapse nabízejí bez serveru architekturu, která umožňuje paralelismus na různých úrovních.

Tato architektura umožňuje vyvíjet kanály, které maximalizují propustnost přesunu dat pro vaše prostředí. Tyto kanály plně využívají následující prostředky:

  • Šířka pásma sítě mezi zdrojovým a cílovým úložištěm dat
  • Vstupní/výstupní operace zdrojového nebo cílového úložiště dat za sekundu (IOPS) a šířka pásma

Toto úplné využití znamená, že můžete odhadnout celkovou propustnost tím, že změříte minimální dostupnou propustnost s následujícími prostředky:

  • Zdrojové úložiště dat
  • Cílové úložiště dat
  • Šířka pásma sítě mezi zdrojovým a cílovým úložištěm dat

Následující tabulka ukazuje výpočet doby trvání přesunu dat. Doba trvání v každé buňce se počítá na základě dané šířky pásma sítě a úložiště dat a dané velikosti datové části.

Poznámka

Níže uvedená doba trvání představuje dosažitelný výkon v řešení pro integraci dat od konce pomocí jedné nebo více technik optimalizace výkonu popsaných v článku o funkcích optimalizace výkonu kopírování,včetně použití příkazu ForEach k rozdělení a vytvoření několika souběžných aktivit kopírování. Pokud chcete optimalizovat výkon kopírování pro konkrétní datovou sadu a konfiguraci systému, doporučujeme postupovat podle kroků uvedených v části Ladění výkonu. Čísla získaná v testech optimalizace výkonu byste měli použít pro plánování nasazení v produkčním prostředí, plánování kapacity a projekci fakturace.

 

Velikost dat /
Šířky pásma
50 Mb/s 100 Mb/s 500 Mb/s 1 Gb/s 5 Gb/s 10 Gb/s 50 Gb/s
1 GB 2.7 min 1,4 min 0,3 min 0,1 min 0,03 min 0,01 min 0,0 min
10 GB 27,3 min 13,7 min 2.7 min 1,3 min 0,3 min 0,1 min 0,03 min
100 GB 4,6 hodiny 2,3 hodiny 0,5 hodiny 0,2 hodiny 0,05 hodiny 0,02 hodiny 0,0 hodiny
1 TB 46,6 hodiny 23,3 hodiny 4,7 hodiny 2,3 hodiny 0,5 hodiny 0,2 hodiny 0,05 hodiny
10 TB 19,4 dny 9,7 dnů 1,9 dny 0,9 dne 0,2 dny 0,1 dny 0,02 dny
100 TB 194,2 dny 97,1 dny 19,4 dny 9,7 dnů 1,9 dny 1 den 0,2 dny
1 PB 64.7 mo 32.4 mo 6.5 mo 3.2 mo 0.6 mo 0.3 mo 0.06 mo
10 PB 647.3 mo 323.6 mo 64.7 mo 31.6 mo 6.5 mo 3.2 mo 0.6 mo

Kopírování je škálovatelné na různých úrovních:

Jak se kopírování škáluje

  • Tok řízení může spustit více aktivit kopírování paralelně, například pomocí smyčky For Each.

  • Jedna aktivita kopírování může využívat škálovatelné výpočetní prostředky.

    • Při použití prostředí Azure Integration Runtime (IR) můžete bez serveru zadat až 256 jednotek integrace dat (DIU) pro každou aktivitu kopírování.
    • Při použití prostředí IR v samostatném prostředí můžete použít některý z následujících přístupů:
      • Ručně nastavte horizontální navýšení velikosti počítače.
      • Škálování na více počítačů (až 4uzly ) a jedna aktivita kopírování rozdělí sadu souborů na všechny uzly.
  • Jedna aktivita kopírování čte z úložiště dat a zapisuje do úložiště dat pomocí více vláken paralelně.

Kroky ladění výkonu

Provedením následujících kroků vylaďte výkon služby pomocí aktivity kopírování:

  1. Vyberte testovací datovou sadu a vytvořte základní sadu.

    Během vývoje svůj kanál otestujte pomocí aktivity kopírování s ukázkou reprezentativních dat. Datová sada, kterou zvolíte, by měla představovat typické vzory dat s následujícími atributy:

    • Struktura složek
    • Vzor souboru
    • Schéma dat

    Vaše datová sada by měla být dostatečně velká, aby vyhodnotila výkon kopírování. Dobrá velikost trvá nejméně 10 minut, než se aktivita kopírování dokončí. Po monitorování aktivity kopírování shromáždíte podrobnosti o spuštění a charakteristiky výkonu.

  2. Jak maximalizovat výkon jedné aktivity kopírování:

    Doporučujeme nejprve maximalizovat výkon pomocí jedné aktivity kopírování.

    • Pokud se aktivita kopírování provádí v prostředí Azure Integration Runtime:

      Začněte výchozími hodnotami pro nastavení jednotek integrace dat (DIU) a paralelního kopírování.

    • Pokud se aktivita kopírování provádí v prostředí Integration Runtime v vlastním prostředí:

      K hostování prostředí IR doporučujeme použít vyhrazený počítač. Počítač by měl být oddělený od serveru, který je hostitelem úložiště dat. Začněte s výchozími hodnotami pro nastavení paralelního kopírování a pro místní prostředí IR se používá jeden uzel.

    Proveďte testovací běh výkonnosti. Poznamenejte si dosažené výsledky. Zahrnují skutečné použité hodnoty, jako jsou například diu a paralelní kopie. Informace o tom, jak shromažďovat výsledky spuštění a použitá nastavení výkonu, najdete v tématu monitorování aktivity kopírování. Zjistěte, jak řešit potíže s výkonem aktivity kopírování a identifikovat a vyřešit kritický bod.

    Podle pokynů k řešení potíží a ladění proveďte další spuštění testů výkonnosti. Po spuštění jedné aktivity kopírování nemůže dosáhnout lepší propustnosti, zvažte, jestli chcete maximalizovat agregovanou propustnost souběžným spuštěním více kopií. Tato možnost je popsána v další očíslované odrážkě.

  3. Jak maximalizovat agregovanou propustnost souběžným spuštěním více kopií:

    Teď jste maximalizovali výkon jedné aktivity kopírování. Pokud jste ještě dosáhli horních limitů propustnosti vašeho prostředí, můžete spustit několik aktivit kopírování paralelně. Můžete spustit paralelně pomocí konstruktorů toku řízení. Jedním z takových konstruktorů je smyčka For Each. Další informace najdete v následujících článcích o šablonách řešení:

  4. Rozbalte konfiguraci na celou datovou sadu.

    Až budete s výsledky spuštění a výkonem spokojeni, můžete definici a kanál rozšířit tak, aby pokryje celou datovou sadu.

Řešení potíží s výkonem aktivity kopírování

Postupujte podle kroků pro ladění výkonu a naplánujte a proveďte test výkonnosti pro váš scénář. Informace o řešení potíží s výkonem jednotlivých aktivit kopírování najdete v tématu Řešení potíží s výkonem aktivity kopírování.

Kopírování funkcí optimalizace výkonu

Služba poskytuje následující funkce pro optimalizaci výkonu:

Jednotky integrace dat

Jednotka pro integraci dat (DIU) je míra, která představuje výkon jedné jednotky v Azure Data Factory a Synapse. Výkon je kombinací přidělení prostředků procesoru, paměti a síťového prostředku. Funkce DIU se vztahuje pouze na prostředí Azure Integration Runtime. Diu se nevztahuje na prostředí Integration Runtime v vlastním prostředí. Další informace najdete tady.

Škálovatelnost prostředí Integration Runtime v samostatném prostředí

Možná budete chtít hostovat rostoucí souběžné úlohy. Nebo můžete chtít dosáhnout vyššího výkonu na současné úrovni úloh. Škálování zpracování můžete vylepšit následujícími přístupy:

  • Škálování prostředí IR v vlastním prostředí můžete zvýšit zvýšením počtu souběžných úloh, které lze spustit na uzlu.
    Navýšení velikosti funguje jenom v případě, že procesor a paměť uzlu jsou méně než plně využité.
  • Horizontální navýšení velikosti prostředí IR v vlastním prostředí můžete přidat přidáním dalších uzlů (počítačů).

Další informace naleznete v tématu:

Paralelní kopírování

Vlastnost můžete nastavit parallelCopies tak, aby označovat paralelismus, který má aktivita kopírování používat. Tuto vlastnost si můžete představovat jako maximální počet vláken v rámci aktivity kopírování. Vlákna pracují paralelně. Vlákna buď čtou ze zdroje, nebo zapisovaná do úložišť dat jímky. Přečtěte si další informace.

Staged copy

Operace kopírování dat může odesílat data přímo do úložiště dat jímky. Alternativně se můžete rozhodnout, že jako dočasné pracovní úložiště použijete Úložiště objektů blob. Přečtěte si další informace.

Další kroky

Projděte si další články o aktivitě kopírování: