Een gegevenspijplijn-orchestration-technologie kiezen in Azure

De big data bestaan uit herhaalde gegevensverwerkingsbewerkingen, ingekapseld in werkstromen. Een pijplijn-orchestrator is een hulpprogramma waarmee u deze werkstromen kunt automatiseren. Een orchestrator kan taken plannen, werkstromen uitvoeren en afhankelijkheden tussen taken coƶrdineren.

Wat zijn uw opties voor gegevenspijplijn-orchestration?

In Azure voldoen de volgende services en hulpprogramma's aan de belangrijkste vereisten voor pijplijn-orchestration, controlestroom en gegevensver movement:

Deze services en hulpprogramma's kunnen onafhankelijk van elkaar worden gebruikt of samen worden gebruikt om een hybride oplossing te maken. Zo kan de Integration Runtime (IR) in Azure Data Factory V2 SSIS-pakketten uitvoeren in een beheerde Azure-rekenomgeving. Hoewel er enige overlap is in de functionaliteit tussen deze services, zijn er enkele belangrijke verschillen.

Selectiecriteria voor sleutels

Als u de keuzes wilt beperken, begint u met het beantwoorden van deze vragen:

  • Hebt u de big data nodig voor het verplaatsen en transformeren van uw gegevens? Dit betekent meestal meerdere gigabytes aan terabytes aan gegevens. Zo ja, dan beperkt u uw opties tot de opties die het meest geschikt zijn voor big data.

  • Hebt u een beheerde service nodig die op schaal kan werken? Zo ja, selecteert u een van de cloudservices die niet worden beperkt door uw lokale verwerkingskracht.

  • Bevinden sommige van uw gegevensbronnen zich on-premises? Zo ja, zoek dan naar opties die kunnen werken met zowel cloudgegevensbronnen als on-premises gegevensbronnen of bestemmingen.

  • Worden uw brongegevens opgeslagen in Blob Storage op een HDFS-bestandssysteem? Als dat het zo is, kiest u een optie die Ondersteuning biedt voor Hive-query's.

Mogelijkheidsmatrix

De volgende tabellen geven een overzicht van de belangrijkste verschillen in mogelijkheden.

Algemene mogelijkheden

Mogelijkheid Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Beheerd Ja Nee Ja
Cloudgebaseerd Yes Nee (lokaal) Yes
Vereiste Azure-abonnement SQL Server Azure-abonnement, HDInsight-cluster
Beheerhulpprogramma's Azure Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Bash-shell, Oozie REST API, Oozie-webinterface
Prijzen Betalen per gebruik Licentieverlening /betalen voor functies Geen extra kosten voor het uitvoeren van het HDInsight-cluster

Pijplijnmogelijkheden

Mogelijkheid Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Gegevens kopiƫren Ja Ja Ja
Aangepaste transformaties Ja Ja Ja (MapReduce-, Pig- en Hive-taken)
Azure Machine Learning scoren Yes Ja (met scripting) No
HDInsight On-Demand Ja Nee Nee
Azure Batch Ja Nee Nee
Pig, Hive, MapReduce Ja Nee Ja
Spark Ja Nee Nee
SSIS-pakket uitvoeren Ja Ja Nee
Controlestroom Ja Ja Ja
Toegang tot on-premises gegevens Ja Ja Nee

Schaalbaarheidsmogelijkheden

Mogelijkheid Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Omhoog schalen Ja Nee Nee
Uitschalen Ja Nee Ja (door werkknooppunten toe te voegen aan het cluster)
Geoptimaliseerd voor big data Ja Nee Ja