Välja en orkestreringsteknik för datapipeline i Azure

De flesta stordatalösningar består av upprepade databearbetningsåtgärder, inkapslade i arbetsflöden. En pipelineorkestrerare är ett verktyg som hjälper till att automatisera dessa arbetsflöden. En initierare kan schemalägga jobb, köra arbetsflöden och samordna beroenden mellan uppgifter.

Vilka alternativ har du för datapipelineorkestrering?

I Azure uppfyller följande tjänster och verktyg de grundläggande kraven för pipelineorkestrering, kontrollflöde och dataförflyttning:

Dessa tjänster och verktyg kan användas oberoende av varandra eller användas tillsammans för att skapa en hybridlösning. Till exempel kan Integration Runtime (IR) i Azure Data Factory V2 köra SSIS-paket inbyggt i en hanterad Azure-beräkningsmiljö. Även om funktionerna mellan dessa tjänster överlappar varandra finns det några viktiga skillnader.

Viktiga urvalskriterier

Börja med att besvara de här frågorna för att begränsa alternativen:

  • Behöver du stordatafunktioner för att flytta och transformera dina data? Detta innebär vanligtvis flera gigabyte till terabyte data. Om ja, begränsar du alternativen till de alternativ som passar bäst för stordata.

  • Behöver du en hanterad tjänst som kan användas i stor skala? Om ja, välj en av de molnbaserade tjänsterna som inte begränsas av din lokala bearbetningskraft.

  • Finns några av dina datakällor lokalt? Om ja, leta efter alternativ som kan fungera med både molnbaserade och lokala datakällor eller mål.

  • Lagras dina källdata i Blob Storage i ett HDFS-filsystem? I så fall väljer du ett alternativ som stöder Hive-frågor.

Kapacitetsmatris

I följande tabeller sammanfattas de viktigaste skillnaderna i funktioner.

Allmänna funktioner

Funktion Azure Data Factory SQL Server Integration Services (SSIS) Oozie på HDInsight
Hanterad Ja Inga Ja
Molnbaserad Yes Nej (lokal) Yes
Förutsättning Azure Subscription (Azure-prenumeration) SQL Server Azure-prenumeration, HDInsight-kluster
Hanteringsverktyg Azure Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Bash-gränssnittet, Oozie REST API, Oozie-webbgränssnittet
Prissättning Betala per användning Licensiering/betalning för funktioner Ingen extra kostnad utöver att köra HDInsight-klustret

Pipelinefunktioner

Funktion Azure Data Factory SQL Server Integration Services (SSIS) Oozie på HDInsight
Kopiera data Ja Ja Ja
Anpassade transformningar Ja Ja Ja (MapReduce-, Pig- och Hive-jobb)
Azure Machine Learning bedömning Yes Ja (med skript) No
HDInsight på begäran Ja Inga Inga
Azure Batch Ja Inga Inga
Pig, Hive, MapReduce Ja Inga Ja
Spark Ja Inga Inga
Köra SSIS-paket Ja Ja Inga
Kontrollflöde Ja Ja Ja
Komma åt lokala data Ja Ja Inga

Skalbarhetsfunktioner

Funktion Azure Data Factory SQL Server Integration Services (SSIS) Oozie på HDInsight
Skala upp Ja Inga Inga
Skala ut Ja Inga Ja (genom att lägga till arbetsnoder i klustret)
Optimerad för stordata Ja Inga Ja