Hybridní ETL s využitím služby Azure Data Factory

Blob Storage
Data Factory
Synapse Analytics

Organizace, které migrují své SQL Server databáze do cloudu, mohou dosáhnout obrovských úspor nákladů, zvýšení výkonu, větší flexibility a větší škálovatelnosti. Přepracování stávajících procesů extrakce, transformace a načítání (ETL) sestavených pomocí služby SSIS (SQL Server Integration Services) ale může být překážkou pro migraci. V jiných případech proces načítání dat vyžaduje složitou logiku nebo konkrétní komponenty datového nástroje, které zatím nepodporuje Azure Data Factory v2. Mezi běžně používané funkce služby SSIS patří transformace přibližného vyhledávání a přibližného seskupování, funkce Change Data Capture (CDC), pomalu se měnící dimenze (SCD) a služba DQS (Data Quality Services).

Pro usnadnění migrace stávající databáze SQL migrace "lift and shift" může být nejvhodnější volbou hybridní přístup ETL. Hybridní přístup používá Data Factory jako primární orchestrační modul, ale nadále využívá existující balíčky SSIS k vyčištění dat a práci s místními prostředky. Tento přístup používá Data Factory SQL Server Integrated Runtime (IR) k umožnění migrace stávajících databází do cloudu "lift and shift" při použití stávajícího kódu a balíčků SSIS.

Tento příklad scénáře je relevantní pro organizace, které přesouvají databáze do cloudu a zvažují použití služby Data Factory jako primárního cloudového modulu ETL při současném začlenění stávajících balíčků SSIS do nového pracovního postupu cloudových dat. Řada organizací výrazně investovala do vývoje balíčků SSIS ETL pro konkrétní úlohy s daty. Přepsání těchto balíčků může být neúmyslné. Mnoho existujících balíčků kódu má také závislosti na místních zdrojích, což brání migraci do cloudu.

Data Factory umožňuje zákazníkům využívat stávající balíčky ETL a zároveň omezit další investice do místního vývoje ETL. Tento příklad popisuje možné případy použití pro využití stávajících balíčků SSIS v rámci nového pracovního postupu cloudových dat s využitím Azure Data Factory v2.

Potenciální případy použití

SSIS je tradičně nástrojem ETL, který si můžete vybrat pro mnoho odborníků na SQL Server dat pro transformaci a načítání dat. V některých případech se ke zrychlení vývoje používají konkrétní funkce SSIS nebo zapojené komponenty třetích stran. Nahrazení nebo převoj těchto balíčků nemusí být možností, která zákazníkům brání v migraci jejich databází do cloudu. Zákazníci hledají přístupy s nízkým dopadem na migraci stávajících databází do cloudu a využití stávajících balíčků SSIS.

Níže je uvedeno několik potenciálních místních případů použití:

  • Načítání protokolů síťového směrovače do databáze pro analýzu
  • Příprava dat o lidských zdrojích pro analytické sestavy
  • Načtení dat o produktech a prodeji do datového skladu pro prognózování prodeje
  • Automatizace načítání provozních úložišť dat nebo datových skladů pro finanční a účetní oddělení

Architektura

Přehled architektury hybridního procesu ETL s využitím Azure Data Factory

  1. Data jsou zdrojem z úložiště objektů blob do Data Factory.
  2. Kanál Data Factory vyvolá uloženou proceduru ke spuštění úlohy služby SSIS hostované místně prostřednictvím integrovaného modulu runtime.
  3. Spustí se úlohy čištění dat, které připraví data pro příjem dat.
  4. Po úspěšném dokončení úlohy čištění dat se spustí úloha kopírování, která načte čistá data do Azure.
  5. Čistá data se pak načtou do tabulek v Azure Synapse Analytics.

Komponenty

  • Úložiště objektů blob slouží k ukládání souborů a jako zdroj pro Data Factory načítání dat.
  • SQL Server Integration Services obsahuje místní balíčky ETL používané ke spouštění úloh specifických pro úlohy.
  • Azure Data Factory je cloudový modul pro orchestraci, který přebírá data z více zdrojů a kombinuje, orchestruje a načítá data do datového skladu.
  • Azure Synapse centralizuje data v cloudu pro snadný přístup pomocí standardních ansi SQL dotazů.

Alternativy

Data Factory procedury čištění dat implementované pomocí jiných technologií, jako je poznámkový blok Databricks, skript Pythonu nebo instance služby SSIS spuštěná na virtuálním počítači. Instalace placených nebo licencovaných vlastních komponent pro prostředí Azure-SSIS Integration Runtime může být vhodnou alternativou k hybridnímu přístupu.

Požadavky

Integrované prostředí Runtime (IR) podporuje dva modely: prostředí IR v vlastním prostředí nebo prostředí IR hostované v Azure. Nejprve se musíte rozhodnout mezi těmito dvěma možnostmi. Samoobslužné hostování je cenově výhodnější, ale má větší režii na údržbu a správu. Další informace najdete v tématu Prostředí IR v vlastním prostředí. Pokud potřebujete pomoc s určením, které ir. rozhraní se má použít, podívejte se na informace o tom, které ir.

V případě přístupu hostovaného v Azure byste se měli rozhodnout, kolik energie je potřeba ke zpracování vašich dat. Konfigurace hostovaná v Azure umožňuje v rámci kroků konfigurace vybrat velikost virtuálního počítače. Další informace o výběru velikostí virtuálních počítačů najdete v tématu Důležité informace o výkonu virtuálních počítačů.

Toto rozhodnutí je mnohem jednodušší, pokud už máte existující balíčky SSIS, které mají místní závislosti, jako jsou zdroje dat nebo soubory, které nejsou přístupné z Azure. V tomto scénáři je vaší jedinou možností prostředí IR v samostatném prostředí. Tento přístup poskytuje největší flexibilitu při využití cloudu jako modulu orchestrace, aniž byste museli přepisovat existující balíčky.

Záměrem je nakonec přesunout zpracovaná data do cloudu za účelem dalšího upřesnění nebo kombinování s jinými daty uloženými v cloudu. V rámci procesu návrhu sledujte počet aktivit používaných v Data Factory kanálu. Další informace najdete v tématu Pipelines a aktivity v Azure Data Factory.

Ceny

Data Factory je nákladově efektivní způsob orchestrace přesunu dat v cloudu. Náklady jsou založené na několika faktorech.

  • Počet spuštění kanálu
  • Počet entit nebo aktivit použitých v rámci kanálu
  • Počet operací monitorování
  • Počet spuštění integrace (prostředí IR hostované v Azure nebo prostředí IR v vlastním prostředí)

Data Factory používá fakturaci na základě spotřeby. Proto se náklady načítá pouze během spouštění a monitorování kanálu. Spuštění základního kanálu by bylo o něco málo 50 centů a monitorování by bylo až 25 centů. K vytvoření přesnějšího odhadu na základě konkrétní úlohy můžete použít kalkulačku nákladů Azure.

Při spouštění hybridní úlohy ETL musíte přihlížet k nákladům na virtuální počítač, který se používá k hostování balíčků SSIS. Tyto náklady vycházejí z velikosti virtuálního počítače v rozsahu od D1v2 (1 jádro, 3,5 GB paměti RAM, 50 GB disku) až po E64V3 (64 jader, 432 GB paměti RAM, 1 600 GB disku). Pokud potřebujete další pokyny k výběru vhodné velikosti virtuálního počítače, podívejte se na důležité informace o výkonu virtuálního počítače.

Další kroky