Een gegevenspijplijn-orchestration-technologie kiezen in Azure
De big data bestaan uit herhaalde gegevensverwerkingsbewerkingen, ingekapseld in werkstromen. Een pijplijn-orchestrator is een hulpprogramma waarmee u deze werkstromen kunt automatiseren. Een orchestrator kan taken plannen, werkstromen uitvoeren en afhankelijkheden tussen taken coƶrdineren.
Wat zijn uw opties voor gegevenspijplijn-orchestration?
In Azure voldoen de volgende services en hulpprogramma's aan de belangrijkste vereisten voor pijplijn-orchestration, controlestroom en gegevensver movement:
Deze services en hulpprogramma's kunnen onafhankelijk van elkaar worden gebruikt of samen worden gebruikt om een hybride oplossing te maken. Zo kan de Integration Runtime (IR) in Azure Data Factory V2 SSIS-pakketten uitvoeren in een beheerde Azure-rekenomgeving. Hoewel er enige overlap is in de functionaliteit tussen deze services, zijn er enkele belangrijke verschillen.
Selectiecriteria voor sleutels
Als u de keuzes wilt beperken, begint u met het beantwoorden van deze vragen:
Hebt u de big data nodig voor het verplaatsen en transformeren van uw gegevens? Dit betekent meestal meerdere gigabytes aan terabytes aan gegevens. Zo ja, dan beperkt u uw opties tot de opties die het meest geschikt zijn voor big data.
Hebt u een beheerde service nodig die op schaal kan werken? Zo ja, selecteert u een van de cloudservices die niet worden beperkt door uw lokale verwerkingskracht.
Bevinden sommige van uw gegevensbronnen zich on-premises? Zo ja, zoek dan naar opties die kunnen werken met zowel cloudgegevensbronnen als on-premises gegevensbronnen of bestemmingen.
Worden uw brongegevens opgeslagen in Blob Storage op een HDFS-bestandssysteem? Als dat het zo is, kiest u een optie die Ondersteuning biedt voor Hive-query's.
Mogelijkheidsmatrix
De volgende tabellen geven een overzicht van de belangrijkste verschillen in mogelijkheden.
Algemene mogelijkheden
| Mogelijkheid | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie in HDInsight |
|---|---|---|---|
| Beheerd | Ja | Nee | Ja |
| Cloudgebaseerd | Yes | Nee (lokaal) | Yes |
| Vereiste | Azure-abonnement | SQL Server | Azure-abonnement, HDInsight-cluster |
| Beheerhulpprogramma's | Azure Portal, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Bash-shell, Oozie REST API, Oozie-webinterface |
| Prijzen | Betalen per gebruik | Licentieverlening /betalen voor functies | Geen extra kosten voor het uitvoeren van het HDInsight-cluster |
Pijplijnmogelijkheden
| Mogelijkheid | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie in HDInsight |
|---|---|---|---|
| Gegevens kopiƫren | Ja | Ja | Ja |
| Aangepaste transformaties | Ja | Ja | Ja (MapReduce-, Pig- en Hive-taken) |
| Azure Machine Learning scoren | Yes | Ja (met scripting) | No |
| HDInsight On-Demand | Ja | Nee | Nee |
| Azure Batch | Ja | Nee | Nee |
| Pig, Hive, MapReduce | Ja | Nee | Ja |
| Spark | Ja | Nee | Nee |
| SSIS-pakket uitvoeren | Ja | Ja | Nee |
| Controlestroom | Ja | Ja | Ja |
| Toegang tot on-premises gegevens | Ja | Ja | Nee |
Schaalbaarheidsmogelijkheden
| Mogelijkheid | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie in HDInsight |
|---|---|---|---|
| Omhoog schalen | Ja | Nee | Nee |
| Uitschalen | Ja | Nee | Ja (door werkknooppunten toe te voegen aan het cluster) |
| Geoptimaliseerd voor big data | Ja | Nee | Ja |