Průvodce výkonem a škálovatelností aktivity kopírování
PLATÍ PRO:
Azure Data Factory
Azure Synapse Analytics
Někdy chcete provést rozsáhlou migraci dat z úložiště Data Lake nebo podnikového datového skladu (EDW) do Azure. V jiných časech chcete ingestovat velké objemy dat z různých zdrojů do Azure pro analýzy velkých objemů dat. V každém případě je důležité dosáhnout optimálního výkonu a škálovatelnosti.
Azure Data Factory a Azure Synapse Analytics poskytují mechanismus pro ingestování dat s následujícími výhodami:
- Zpracovává velké objemy dat.
- Je vysoce výkonný
- Je nákladově efektivní
Tyto výhody jsou vynikající volbou pro datové inženýry, kteří chtějí vytvářet vysoce výkonné kanály pro příjem škálovatelných dat.
Po přečtení tohoto článku budete schopni zodpovědět následující otázky:
- Jakou úroveň výkonu a škálovatelnosti můžu dosáhnout použitím aktivity kopírování ve scénářích migrace dat a příjmu dat?
- Jaké kroky mám provést k vyladění výkonu aktivity kopírování?
- Jaké optimalizace výkonu můžu využít pro jedno spuštění aktivity kopírování?
- Jaké další externí faktory je třeba zvážit při optimalizaci výkonu kopírování?
Poznámka
Pokud aktivitu kopírování obecně znáte, přečtěte si před přečtením tohoto článku přehled aktivit kopírování.
Výkon a škálovatelnost kopírování dosažitelná s využitím Azure Data Factory a kanálů Synapse
Azure Data Factory a Synapse nabízejí bez serveru architekturu, která umožňuje paralelismus na různých úrovních.
Tato architektura umožňuje vyvíjet kanály, které maximalizují propustnost přesunu dat pro vaše prostředí. Tyto kanály plně využívají následující prostředky:
- Šířka pásma sítě mezi zdrojovým a cílovým úložištěm dat
- Vstupní/výstupní operace zdrojového nebo cílového úložiště dat za sekundu (IOPS) a šířka pásma
Toto úplné využití znamená, že můžete odhadnout celkovou propustnost tím, že změříte minimální dostupnou propustnost s následujícími prostředky:
- Zdrojové úložiště dat
- Cílové úložiště dat
- Šířka pásma sítě mezi zdrojovým a cílovým úložištěm dat
Následující tabulka ukazuje výpočet doby trvání přesunu dat. Doba trvání v každé buňce se počítá na základě dané šířky pásma sítě a úložiště dat a dané velikosti datové části.
Poznámka
Níže uvedená doba trvání představuje dosažitelný výkon v řešení pro integraci dat od konce pomocí jedné nebo více technik optimalizace výkonu popsaných v článku o funkcích optimalizace výkonu kopírování,včetně použití příkazu ForEach k rozdělení a vytvoření několika souběžných aktivit kopírování. Pokud chcete optimalizovat výkon kopírování pro konkrétní datovou sadu a konfiguraci systému, doporučujeme postupovat podle kroků uvedených v části Ladění výkonu. Čísla získaná v testech optimalizace výkonu byste měli použít pro plánování nasazení v produkčním prostředí, plánování kapacity a projekci fakturace.
| Velikost dat / Šířky pásma |
50 Mb/s | 100 Mb/s | 500 Mb/s | 1 Gb/s | 5 Gb/s | 10 Gb/s | 50 Gb/s |
|---|---|---|---|---|---|---|---|
| 1 GB | 2.7 min | 1,4 min | 0,3 min | 0,1 min | 0,03 min | 0,01 min | 0,0 min |
| 10 GB | 27,3 min | 13,7 min | 2.7 min | 1,3 min | 0,3 min | 0,1 min | 0,03 min |
| 100 GB | 4,6 hodiny | 2,3 hodiny | 0,5 hodiny | 0,2 hodiny | 0,05 hodiny | 0,02 hodiny | 0,0 hodiny |
| 1 TB | 46,6 hodiny | 23,3 hodiny | 4,7 hodiny | 2,3 hodiny | 0,5 hodiny | 0,2 hodiny | 0,05 hodiny |
| 10 TB | 19,4 dny | 9,7 dnů | 1,9 dny | 0,9 dne | 0,2 dny | 0,1 dny | 0,02 dny |
| 100 TB | 194,2 dny | 97,1 dny | 19,4 dny | 9,7 dnů | 1,9 dny | 1 den | 0,2 dny |
| 1 PB | 64.7 mo | 32.4 mo | 6.5 mo | 3.2 mo | 0.6 mo | 0.3 mo | 0.06 mo |
| 10 PB | 647.3 mo | 323.6 mo | 64.7 mo | 31.6 mo | 6.5 mo | 3.2 mo | 0.6 mo |
Kopírování je škálovatelné na různých úrovních:
Tok řízení může spustit více aktivit kopírování paralelně, například pomocí smyčky For Each.
Jedna aktivita kopírování může využívat škálovatelné výpočetní prostředky.
- Při použití prostředí Azure Integration Runtime (IR) můžete bez serveru zadat až 256 jednotek integrace dat (DIU) pro každou aktivitu kopírování.
- Při použití prostředí IR v samostatném prostředí můžete použít některý z následujících přístupů:
- Ručně nastavte horizontální navýšení velikosti počítače.
- Škálování na více počítačů (až 4uzly ) a jedna aktivita kopírování rozdělí sadu souborů na všechny uzly.
Jedna aktivita kopírování čte z úložiště dat a zapisuje do úložiště dat pomocí více vláken paralelně.
Kroky ladění výkonu
Provedením následujících kroků vylaďte výkon služby pomocí aktivity kopírování:
Vyberte testovací datovou sadu a vytvořte základní sadu.
Během vývoje svůj kanál otestujte pomocí aktivity kopírování s ukázkou reprezentativních dat. Datová sada, kterou zvolíte, by měla představovat typické vzory dat s následujícími atributy:
- Struktura složek
- Vzor souboru
- Schéma dat
Vaše datová sada by měla být dostatečně velká, aby vyhodnotila výkon kopírování. Dobrá velikost trvá nejméně 10 minut, než se aktivita kopírování dokončí. Po monitorování aktivity kopírování shromáždíte podrobnosti o spuštění a charakteristiky výkonu.
Jak maximalizovat výkon jedné aktivity kopírování:
Doporučujeme nejprve maximalizovat výkon pomocí jedné aktivity kopírování.
Pokud se aktivita kopírování provádí v prostředí Azure Integration Runtime:
Začněte výchozími hodnotami pro nastavení jednotek integrace dat (DIU) a paralelního kopírování.
Pokud se aktivita kopírování provádí v prostředí Integration Runtime v vlastním prostředí:
K hostování prostředí IR doporučujeme použít vyhrazený počítač. Počítač by měl být oddělený od serveru, který je hostitelem úložiště dat. Začněte s výchozími hodnotami pro nastavení paralelního kopírování a pro místní prostředí IR se používá jeden uzel.
Proveďte testovací běh výkonnosti. Poznamenejte si dosažené výsledky. Zahrnují skutečné použité hodnoty, jako jsou například diu a paralelní kopie. Informace o tom, jak shromažďovat výsledky spuštění a použitá nastavení výkonu, najdete v tématu monitorování aktivity kopírování. Zjistěte, jak řešit potíže s výkonem aktivity kopírování a identifikovat a vyřešit kritický bod.
Podle pokynů k řešení potíží a ladění proveďte další spuštění testů výkonnosti. Po spuštění jedné aktivity kopírování nemůže dosáhnout lepší propustnosti, zvažte, jestli chcete maximalizovat agregovanou propustnost souběžným spuštěním více kopií. Tato možnost je popsána v další očíslované odrážkě.
Jak maximalizovat agregovanou propustnost souběžným spuštěním více kopií:
Teď jste maximalizovali výkon jedné aktivity kopírování. Pokud jste ještě dosáhli horních limitů propustnosti vašeho prostředí, můžete spustit několik aktivit kopírování paralelně. Můžete spustit paralelně pomocí konstruktorů toku řízení. Jedním z takových konstruktorů je smyčka For Each. Další informace najdete v následujících článcích o šablonách řešení:
Rozbalte konfiguraci na celou datovou sadu.
Až budete s výsledky spuštění a výkonem spokojeni, můžete definici a kanál rozšířit tak, aby pokryje celou datovou sadu.
Řešení potíží s výkonem aktivity kopírování
Postupujte podle kroků pro ladění výkonu a naplánujte a proveďte test výkonnosti pro váš scénář. Informace o řešení potíží s výkonem jednotlivých aktivit kopírování najdete v tématu Řešení potíží s výkonem aktivity kopírování.
Kopírování funkcí optimalizace výkonu
Služba poskytuje následující funkce pro optimalizaci výkonu:
- Jednotky integrace dat
- Škálovatelnost prostředí Integration Runtime v samostatném prostředí
- Paralelní kopírování
- Staged copy
Jednotky integrace dat
Jednotka pro integraci dat (DIU) je míra, která představuje výkon jedné jednotky v Azure Data Factory a Synapse. Výkon je kombinací přidělení prostředků procesoru, paměti a síťového prostředku. Funkce DIU se vztahuje pouze na prostředí Azure Integration Runtime. Diu se nevztahuje na prostředí Integration Runtime v vlastním prostředí. Další informace najdete tady.
Škálovatelnost prostředí Integration Runtime v samostatném prostředí
Možná budete chtít hostovat rostoucí souběžné úlohy. Nebo můžete chtít dosáhnout vyššího výkonu na současné úrovni úloh. Škálování zpracování můžete vylepšit následujícími přístupy:
- Škálování prostředí IR v vlastním prostředí můžete zvýšit zvýšením počtu souběžných úloh, které lze spustit na uzlu.
Navýšení velikosti funguje jenom v případě, že procesor a paměť uzlu jsou méně než plně využité. - Horizontální navýšení velikosti prostředí IR v vlastním prostředí můžete přidat přidáním dalších uzlů (počítačů).
Další informace naleznete v tématu:
- aktivita Copy optimalizace výkonu: Škálovatelnost prostředí Integration Runtime v vlastním hostování
- Vytvoření a konfigurace prostředí Integration Runtime v samostatném prostředí: Důležité informace o škálování
Paralelní kopírování
Vlastnost můžete nastavit parallelCopies tak, aby označovat paralelismus, který má aktivita kopírování používat. Tuto vlastnost si můžete představovat jako maximální počet vláken v rámci aktivity kopírování. Vlákna pracují paralelně. Vlákna buď čtou ze zdroje, nebo zapisovaná do úložišť dat jímky. Přečtěte si další informace.
Staged copy
Operace kopírování dat může odesílat data přímo do úložiště dat jímky. Alternativně se můžete rozhodnout, že jako dočasné pracovní úložiště použijete Úložiště objektů blob. Přečtěte si další informace.
Další kroky
Projděte si další články o aktivitě kopírování: