Volba technologie orchestrace datového kanálu v Azure
Většina řešení pro velké datové služby se skládá z operací opakovaného zpracování dat zapouzdřených v pracovních postupech. Orchestrátor kanálu je nástroj, který pomáhá tyto pracovní postupy automatizovat. Orchestrátor může plánovat úlohy, spouštět pracovní postupy a koordinovat závislosti mezi úkoly.
Jaké máte možnosti orchestrace datového kanálu?
Následující služby a nástroje v Azure splní základní požadavky na orchestraci kanálů, tok řízení a přesun dat:
Tyto služby a nástroje je možné používat nezávisle na sobě nebo společně k vytvoření hybridního řešení. Například prostředí Integration Runtime (IR) v Azure Data Factory V2 může nativně spouštět balíčky SSIS ve spravovaném výpočetním prostředí Azure. I když se funkce mezi těmito službami překrývají, existuje několik klíčových rozdílů.
Klíčová kritéria výběru
Pokud chcete tyto volby zúžit, začněte zodpovězením těchto otázek:
Potřebujete k přesouvání a transformaci dat funkce pro velké datové přenosy? Obvykle to znamená více gigabajtů až terabajtů dat. Pokud ano, zužte své možnosti na ty, které jsou pro velké datové přenosy vhodné.
Vyžadujete spravovanou službu, která může fungovat ve velkém měřítku? Pokud ano, vyberte jednu z cloudových služeb, které nejsou omezené místním výpočetním výkonem.
Nacházejí se některé z vašich zdrojů dat místně? Pokud ano, vyhledejte možnosti, které mohou fungovat s cloudovými i místními zdroji dat nebo cíli.
Jsou vaše zdrojová data uložená v úložišti objektů blob v systému souborů HDFS? Pokud ano, zvolte možnost, která podporuje dotazy Hive.
Matice schopností
Následující tabulky shrnují hlavní rozdíly v možnostech.
Obecné možnosti
| Schopnost | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie ve službě HDInsight |
|---|---|---|---|
| Spravované | Yes | No | Yes |
| Cloudové | Yes | Ne (místní) | Yes |
| Požadavek | Předplatné Azure | SQL Server | Předplatné Azure, cluster HDInsight |
| Nástroje pro správu | Azure Portal, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Prostředí Bash, Oozie REST API, webové uživatelské rozhraní Oozie |
| Ceny | Platba za využití | Licencování / placení za funkce | Za spuštění clusteru HDInsight se neúčtjí žádné další poplatky. |
Možnosti kanálu
| Schopnost | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie ve službě HDInsight |
|---|---|---|---|
| Kopírování dat | Yes | Yes | Yes |
| Vlastní transformace | Yes | Yes | Ano (MapReduce úlohy, úlohy Pig a Hive) |
| Azure Machine Learning skóre | Yes | Ano (se skriptováním) | No |
| HDInsight na vyžádání | Yes | No | No |
| Azure Batch | Yes | No | No |
| Pig, Hive, MapReduce | Yes | No | Yes |
| Spark | Ano | No | No |
| Spuštění balíčku SSIS | Yes | Yes | No |
| Tok řízení | Yes | Yes | Yes |
| Přístup k místním datům | Yes | Yes | No |
Možnosti škálovatelnosti
| Schopnost | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie ve službě HDInsight |
|---|---|---|---|
| Vertikální navýšení kapacity | Yes | No | No |
| Horizontální navýšení kapacity | Yes | No | Ano (přidáním pracovních uzlů do clusteru) |
| Optimalizováno pro velké objemy dat | Yes | No | Yes |