Auswählen einer Technologie für die Datenpipelineorchestrierung in Azure

Artikel
03/05/2024

Die meisten Big Data-Lösungen setzen sich aus wiederholten Datenverarbeitungsvorgängen zusammen, die in Workflows gekapselt sind. Ein Pipelineorchestrator ist ein Tool, mit dem diese Workflows automatisiert werden können. Ein Orchestrator kann Aufträge planen, Workflows ausführen und Abhängigkeiten zwischen Tasks koordinieren.

Welche Datenpipelineorchestrierungs-Optionen stehen zur Verfügung?

In Azure erfüllen die folgenden Dienste und Tools die grundlegenden Anforderungen für Pipelineorchestrierung, Ablaufsteuerung und Datenverschiebung:

Diese Dienste und Tools können unabhängig voneinander oder zusammen zum Erstellen einer Hybridlösung verwendet werden. Beispielsweise kann die Integration Runtime (IR) in Azure Data Factory V2 SSIS-Pakete nativ in einer verwalteten Azure-Computeumgebung ausführen. Einige Funktionen dieser Dienste überschneiden sich zwar, es gibt jedoch auch wesentliche Unterschiede.

Wichtige Auswahlkriterien

Beantworten Sie die folgenden Fragen, um die Auswahl einzuschränken:

Benötigen Sie Big Data-Funktionen zum Verschieben und Transformieren von Daten? In der Regel geht es dabei um Datenvolumen von mehreren Gigabytes oder Terabytes. Falls Sie solche Funktionen benötigen, können Sie sich auf die Optionen beschränken, die sich am besten für Big Data eignen.
Benötigen Sie einen verwalteten Dienst, der bedarfsorientiert ausgeführt werden kann? Falls ja, wählen Sie einen der cloudbasierten Dienste aus, die nicht durch die lokale Verarbeitungsleistung beschränkt sind.
Befinden sich einige Ihrer Datenquellen lokal? Falls ja, suchen Sie Optionen, die mit cloudbasierten und lokalen Datenquellen oder -zielen verwendet werden können.
Werden Ihre Quelldaten im Blobspeicher oder in einem HDFS-Dateisystem gespeichert? Wenn dies der Fall ist, wählen Sie eine Option, die Hive-Abfragen unterstützt.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:

Allgemeine Funktionen

Funktion	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie in HDInsight
Verwaltet	Ja	Keine	Ja
Cloudbasiert	Ja	Nein (lokal)	Ja
Voraussetzung	Azure-Abonnement	SQL Server	Azure-Abonnement, HDInsight-Cluster
Verwaltungstools	Azure-Portal, PowerShell, CLI, .NET SDK	SSMS, PowerShell	Bash-Shell, Oozie-REST-API, Oozie-Webbenutzeroberfläche
Preise	Nutzungsbasierte Bezahlung	Lizenzierung/Bezahlung für Funktionen	Keine Zusatzgebühren (nur Gebühren für die Ausführung des HDInsight-Clusters)

Pipelinefunktionen

Funktion	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie in HDInsight
Kopieren von Daten	Ja	Ja	Ja
Benutzerdefinierte Transformationen	Ja	Ja	Ja (MapReduce-, Pig- und Hive-Aufträge)
Azure Machine Learning-Bewertung	Ja	Ja (mit Skripts)	Nein
HDInsight (bedarfsgesteuert)	Ja	Nr.	Nein
Azure Batch	Ja	Nr.	Nein
Pig, Hive, MapReduce	Ja	Keine	Ja
Spark	Ja	Nr.	Nein
Ausführen des SSIS-Pakets	Ja	Ja	Nein
Ablaufsteuerung	Ja	Ja	Ja
Zugriff auf lokale Daten	Ja	Ja	Nein

Skalierbarkeitsfunktionen

Funktion	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie in HDInsight
Hochskalieren	Ja	Nr.	Nein
Aufskalieren	Ja	Nein	Ja (durch Hinzufügen von Workerknoten zum Cluster)
Für Big Data optimiert	Ja	Keine	Ja

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Zoiner Tejada | CEO und Architekt

Auswählen einer Technologie für die Datenpipelineorchestrierung in Azure

Welche Datenpipelineorchestrierungs-Optionen stehen zur Verfügung?

Wichtige Auswahlkriterien

Funktionsmatrix

Allgemeine Funktionen

Pipelinefunktionen

Skalierbarkeitsfunktionen

Beitragende

Nächste Schritte

Feedback

Feedback

Zusätzliche Ressourcen

Auswählen einer Technologie für die Datenpipelineorchestrierung in Azure

Welche Datenpipelineorchestrierungs-Optionen stehen zur Verfügung?

Wichtige Auswahlkriterien

Funktionsmatrix

Allgemeine Funktionen

Pipelinefunktionen

Skalierbarkeitsfunktionen

Beitragende

Nächste Schritte

Zugehörige Ressourcen

Feedback

Feedback

Zusätzliche Ressourcen