Een indelingstechnologie voor gegevenspijplijnen kiezen in Azure

De meeste big data-oplossingen bestaan uit herhaalde gegevensverwerkingsbewerkingen, ingekapseld in werkstromen. Een pijplijnorchestrator is een hulpprogramma waarmee u deze werkstromen kunt automatiseren. Een orchestrator kan taken plannen, werkstromen uitvoeren en afhankelijkheden tussen taken coƶrdineren.

Wat zijn uw opties voor het organiseren van gegevenspijplijnen?

In Azure voldoen de volgende services en hulpprogramma's aan de kernvereisten voor pijplijnindeling, controlestroom en gegevensverplaatsing:

Deze services en hulpprogramma's kunnen onafhankelijk van elkaar worden gebruikt of samen worden gebruikt om een hybride oplossing te maken. De Integration Runtime (IR) in Azure Data Factory V2 kan bijvoorbeeld systeemeigen SSIS-pakketten uitvoeren in een beheerde Azure-rekenomgeving. Hoewel er sprake is van enige overlapping in functionaliteit tussen deze services, zijn er enkele belangrijke verschillen.

Criteria voor sleutelselectie

Om de keuzes te beperken, beantwoordt u eerst deze vragen:

  • Hebt u big data-mogelijkheden nodig voor het verplaatsen en transformeren van uw gegevens? Dit betekent meestal meerdere gigabytes tot terabytes aan gegevens. Zo ja, dan beperkt u uw opties tot de opties die het meest geschikt zijn voor big data.

  • Hebt u een beheerde service nodig die op schaal kan worden uitgevoerd? Zo ja, selecteert u een van de cloudservices die niet worden beperkt door uw lokale verwerkingskracht.

  • Bevinden sommige van uw gegevensbronnen zich on-premises? Zo ja, zoek dan naar opties die kunnen werken met zowel cloud- als on-premises gegevensbronnen of bestemmingen.

  • Worden uw brongegevens opgeslagen in Blob Storage in een HDFS-bestandssysteem? Als dat het zo is, kiest u een optie die Hive-query's ondersteunt.

Mogelijkheidsmatrix

De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden.

Algemene mogelijkheden

Mogelijkheid Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Beheerd Ja No Ja
Cloudgebaseerde Ja Nee (lokaal) Ja
Vereiste Azure-abonnement SQL Server Azure-abonnement, HDInsight-cluster
Beheerhulpprogramma's Azure Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Bash-shell, Oozie REST API, Oozie-webinterface
Prijzen Betalen per gebruik Licenties/betalen voor functies Er worden geen extra kosten in rekening gebracht voor het uitvoeren van het HDInsight-cluster

Pijplijnmogelijkheden

Mogelijkheid Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Gegevens kopiƫren Ja Ja Ja
Aangepaste transformaties Ja Ja Ja (MapReduce-, Pig- en Hive-taken)
Scoren van Azure Machine Learning Ja Ja (met scripting) Nee
HDInsight On-Demand Ja No Nr.
Azure Batch Ja No Nr.
Pig, Hive, MapReduce Ja No Ja
Spark Ja No Nr.
SSIS-pakket uitvoeren Ja Ja Nr.
Controlestroom Ja Ja Ja
Toegang tot on-premises gegevens Ja Ja Nr.

Schaalbaarheidsmogelijkheden

Mogelijkheid Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Omhoog schalen Ja No Nr.
Uitschalen Ja Nr. Ja (door werkknooppunten toe te voegen aan het cluster)
Geoptimaliseerd voor big data Ja No Ja

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Volgende stappen