Volba technologie orchestrace datového kanálu v Azure

Většina řešení pro velké datové služby se skládá z operací opakovaného zpracování dat zapouzdřených v pracovních postupech. Orchestrátor kanálu je nástroj, který pomáhá tyto pracovní postupy automatizovat. Orchestrátor může plánovat úlohy, spouštět pracovní postupy a koordinovat závislosti mezi úkoly.

Jaké máte možnosti orchestrace datového kanálu?

Následující služby a nástroje v Azure splní základní požadavky na orchestraci kanálů, tok řízení a přesun dat:

Tyto služby a nástroje je možné používat nezávisle na sobě nebo společně k vytvoření hybridního řešení. Například prostředí Integration Runtime (IR) v Azure Data Factory V2 může nativně spouštět balíčky SSIS ve spravovaném výpočetním prostředí Azure. I když se funkce mezi těmito službami překrývají, existuje několik klíčových rozdílů.

Klíčová kritéria výběru

Pokud chcete tyto volby zúžit, začněte zodpovězením těchto otázek:

  • Potřebujete k přesouvání a transformaci dat funkce pro velké datové přenosy? Obvykle to znamená více gigabajtů až terabajtů dat. Pokud ano, zužte své možnosti na ty, které jsou pro velké datové přenosy vhodné.

  • Vyžadujete spravovanou službu, která může fungovat ve velkém měřítku? Pokud ano, vyberte jednu z cloudových služeb, které nejsou omezené místním výpočetním výkonem.

  • Nacházejí se některé z vašich zdrojů dat místně? Pokud ano, vyhledejte možnosti, které mohou fungovat s cloudovými i místními zdroji dat nebo cíli.

  • Jsou vaše zdrojová data uložená v úložišti objektů blob v systému souborů HDFS? Pokud ano, zvolte možnost, která podporuje dotazy Hive.

Matice schopností

Následující tabulky shrnují hlavní rozdíly v možnostech.

Obecné možnosti

Schopnost Azure Data Factory SQL Server Integration Services (SSIS) Oozie ve službě HDInsight
Spravované Yes No Yes
Cloudové Yes Ne (místní) Yes
Požadavek Předplatné Azure SQL Server Předplatné Azure, cluster HDInsight
Nástroje pro správu Azure Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Prostředí Bash, Oozie REST API, webové uživatelské rozhraní Oozie
Ceny Platba za využití Licencování / placení za funkce Za spuštění clusteru HDInsight se neúčtjí žádné další poplatky.

Možnosti kanálu

Schopnost Azure Data Factory SQL Server Integration Services (SSIS) Oozie ve službě HDInsight
Kopírování dat Yes Yes Yes
Vlastní transformace Yes Yes Ano (MapReduce úlohy, úlohy Pig a Hive)
Azure Machine Learning skóre Yes Ano (se skriptováním) No
HDInsight na vyžádání Yes No No
Azure Batch Yes No No
Pig, Hive, MapReduce Yes No Yes
Spark Ano No No
Spuštění balíčku SSIS Yes Yes No
Tok řízení Yes Yes Yes
Přístup k místním datům Yes Yes No

Možnosti škálovatelnosti

Schopnost Azure Data Factory SQL Server Integration Services (SSIS) Oozie ve službě HDInsight
Vertikální navýšení kapacity Yes No No
Horizontální navýšení kapacity Yes No Ano (přidáním pracovních uzlů do clusteru)
Optimalizováno pro velké objemy dat Yes No Yes