Auswählen einer Technologie für die Datenpipelineorchestrierung in AzureChoosing a data pipeline orchestration technology in Azure

Die meisten Big Data-Lösungen setzen sich aus wiederholten Datenverarbeitungsvorgängen zusammen, die in Workflows gekapselt sind.Most big data solutions consist of repeated data processing operations, encapsulated in workflows. Ein Pipelineorchestrator ist ein Tool, mit dem diese Workflows automatisiert werden können.A pipeline orchestrator is a tool that helps to automate these workflows. Ein Orchestrator kann Aufträge planen, Workflows ausführen und Abhängigkeiten zwischen Tasks koordinieren.An orchestrator can schedule jobs, execute workflows, and coordinate dependencies among tasks.

Welche Datenpipelineorchestrierungs-Optionen stehen zur Verfügung?What are your options for data pipeline orchestration?

In Azure erfüllen die folgenden Dienste und Tools die grundlegenden Anforderungen für Pipelineorchestrierung, Ablaufsteuerung und Datenverschiebung:In Azure, the following services and tools will meet the core requirements for pipeline orchestration, control flow, and data movement:

Diese Dienste und Tools können unabhängig voneinander oder zusammen zum Erstellen einer Hybridlösung verwendet werden.These services and tools can be used independently from one another, or used together to create a hybrid solution. Beispielsweise kann die Integration Runtime (IR) in Azure Data Factory V2 SSIS-Pakete nativ in einer verwalteten Azure-Computeumgebung ausführen.For example, the Integration Runtime (IR) in Azure Data Factory V2 can natively execute SSIS packages in a managed Azure compute environment. Einige Funktionen dieser Dienste überschneiden sich zwar, es gibt jedoch auch wesentliche Unterschiede.While there is some overlap in functionality between these services, there are a few key differences.

Wichtige AuswahlkriterienKey Selection Criteria

Beantworten Sie die folgenden Fragen, um die Auswahl einzuschränken:To narrow the choices, start by answering these questions:

  • Benötigen Sie Big Data-Funktionen zum Verschieben und Transformieren von Daten?Do you need big data capabilities for moving and transforming your data? In der Regel geht es dabei um Datenvolumen von mehreren Gigabytes oder Terabytes.Usually this means multi-gigabytes to terabytes of data. Falls Sie solche Funktionen benötigen, können Sie sich auf die Optionen beschränken, die sich am besten für Big Data eignen.If yes, then narrow your options to those that best suited for big data.

  • Benötigen Sie einen verwalteten Dienst, der bedarfsorientiert ausgeführt werden kann?Do you require a managed service that can operate at scale? Falls ja, wählen Sie einen der cloudbasierten Dienste aus, die nicht durch die lokale Verarbeitungsleistung beschränkt sind.If yes, select one of the cloud-based services that aren't limited by your local processing power.

  • Befinden sich einige Ihrer Datenquellen lokal?Are some of your data sources located on-premises? Falls ja, suchen Sie Optionen, die mit cloudbasierten und lokalen Datenquellen oder -zielen verwendet werden können.If yes, look for options that can work with both cloud and on-premises data sources or destinations.

  • Werden Ihre Quelldaten im Blobspeicher oder in einem HDFS-Dateisystem gespeichert?Is your source data stored in Blob storage on an HDFS filesystem? Wenn dies der Fall ist, wählen Sie eine Option, die Hive-Abfragen unterstützt.If so, choose an option that supports Hive queries.

FunktionsmatrixCapability matrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:The following tables summarize the key differences in capabilities.

Allgemeine FunktionenGeneral capabilities

FunktionCapability Azure Data FactoryAzure Data Factory SQL Server Integration Services (SSIS)SQL Server Integration Services (SSIS) Oozie in HDInsightOozie on HDInsight
VerwaltetManaged JaYes NeinNo JaYes
CloudbasiertCloud-based JaYes Nein (lokal)No (local) JaYes
VoraussetzungPrerequisite Azure-AbonnementAzure Subscription SQL ServerSQL Server Azure-Abonnement, HDInsight-ClusterAzure Subscription, HDInsight cluster
VerwaltungstoolsManagement tools Azure-Portal, PowerShell, CLI, .NET SDKAzure Portal, PowerShell, CLI, .NET SDK SSMS, PowerShellSSMS, PowerShell Bash-Shell, Oozie-REST-API, Oozie-WebbenutzeroberflächeBash shell, Oozie REST API, Oozie web UI
PreisePricing Nutzungsbasierte BezahlungPay per usage Lizenzierung/Bezahlung für FunktionenLicensing / pay for features Keine Zusatzgebühren (nur Gebühren für die Ausführung des HDInsight-Clusters)No additional charge on top of running the HDInsight cluster

PipelinefunktionenPipeline capabilities

FunktionCapability Azure Data FactoryAzure Data Factory SQL Server Integration Services (SSIS)SQL Server Integration Services (SSIS) Oozie in HDInsightOozie on HDInsight
Kopieren von DatenCopy data JaYes JaYes JaYes
Benutzerdefinierte TransformationenCustom transformations JaYes JaYes Ja (MapReduce-, Pig- und Hive-Aufträge)Yes (MapReduce, Pig, and Hive jobs)
Azure Machine Learning-BewertungAzure Machine Learning scoring JaYes Ja (mit Skripts)Yes (with scripting) NeinNo
HDInsight (bedarfsgesteuert)HDInsight On-Demand JaYes NeinNo NeinNo
Azure BatchAzure Batch JaYes NeinNo NeinNo
Pig, Hive, MapReducePig, Hive, MapReduce JaYes NeinNo JaYes
SparkSpark JaYes NeinNo NeinNo
Ausführen des SSIS-PaketsExecute SSIS Package JaYes JaYes NeinNo
AblaufsteuerungControl flow JaYes JaYes JaYes
Zugriff auf lokale DatenAccess on-premises data JaYes JaYes NeinNo

SkalierbarkeitsfunktionenScalability capabilities

FunktionCapability Azure Data FactoryAzure Data Factory SQL Server Integration Services (SSIS)SQL Server Integration Services (SSIS) Oozie in HDInsightOozie on HDInsight
HochskalierenScale up JaYes NeinNo NeinNo
AufskalierenScale out JaYes NeinNo Ja (durch Hinzufügen von Workerknoten zum Cluster)Yes (by adding worker nodes to cluster)
Für Big Data optimiertOptimized for big data JaYes NeinNo JaYes