Auswählen einer Technologie für die Datenpipelineorchestrierung in Azure

Die meisten Big Data-Lösungen setzen sich aus wiederholten Datenverarbeitungsvorgängen zusammen, die in Workflows gekapselt sind. Ein Pipelineorchestrator ist ein Tool, mit dem diese Workflows automatisiert werden können. Ein Orchestrator kann Aufträge planen, Workflows ausführen und Abhängigkeiten zwischen Tasks koordinieren.

Welche Datenpipelineorchestrierungs-Optionen stehen zur Verfügung?

In Azure erfüllen die folgenden Dienste und Tools die grundlegenden Anforderungen für Pipelineorchestrierung, Ablaufsteuerung und Datenverschiebung:

Diese Dienste und Tools können unabhängig voneinander oder zusammen zum Erstellen einer Hybridlösung verwendet werden. Beispielsweise kann die Integration Runtime (IR) in Azure Data Factory V2 SSIS-Pakete nativ in einer verwalteten Azure-Computeumgebung ausführen. Einige Funktionen dieser Dienste überschneiden sich zwar, es gibt jedoch auch wesentliche Unterschiede.

Wichtige Auswahlkriterien

Beantworten Sie die folgenden Fragen, um die Auswahl einzuschränken:

  • Benötigen Sie Big Data-Funktionen zum Verschieben und Transformieren von Daten? In der Regel geht es dabei um Datenvolumen von mehreren Gigabytes oder Terabytes. Falls Sie solche Funktionen benötigen, können Sie sich auf die Optionen beschränken, die sich am besten für Big Data eignen.

  • Benötigen Sie einen verwalteten Dienst, der bedarfsorientiert ausgeführt werden kann? Falls ja, wählen Sie einen der cloudbasierten Dienste aus, die nicht durch die lokale Verarbeitungsleistung beschränkt sind.

  • Befinden sich einige Ihrer Datenquellen lokal? Falls ja, suchen Sie Optionen, die mit cloudbasierten und lokalen Datenquellen oder -zielen verwendet werden können.

  • Werden Ihre Quelldaten im Blobspeicher oder in einem HDFS-Dateisystem gespeichert? Wenn dies der Fall ist, wählen Sie eine Option, die Hive-Abfragen unterstützt.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:

Allgemeine Funktionen

Funktion Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Verwaltet Ja Keine Ja
Cloudbasiert Ja Nein (lokal) Ja
Voraussetzung Azure-Abonnement SQL Server Azure-Abonnement, HDInsight-Cluster
Verwaltungstools Azure-Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Bash-Shell, Oozie-REST-API, Oozie-Webbenutzeroberfläche
Preise Nutzungsbasierte Bezahlung Lizenzierung/Bezahlung für Funktionen Keine Zusatzgebühren (nur Gebühren für die Ausführung des HDInsight-Clusters)

Pipelinefunktionen

Funktion Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Kopieren von Daten Ja Ja Ja
Benutzerdefinierte Transformationen Ja Ja Ja (MapReduce-, Pig- und Hive-Aufträge)
Azure Machine Learning-Bewertung Ja Ja (mit Skripts) Nein
HDInsight (bedarfsgesteuert) Ja Nr. Nein
Azure Batch Ja Nr. Nein
Pig, Hive, MapReduce Ja Keine Ja
Spark Ja Nr. Nein
Ausführen des SSIS-Pakets Ja Ja Nein
Ablaufsteuerung Ja Ja Ja
Zugriff auf lokale Daten Ja Ja Nein

Skalierbarkeitsfunktionen

Funktion Azure Data Factory SQL Server Integration Services (SSIS) Oozie in HDInsight
Hochskalieren Ja Nr. Nein
Aufskalieren Ja Nein Ja (durch Hinzufügen von Workerknoten zum Cluster)
Für Big Data optimiert Ja Keine Ja

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Nächste Schritte