Välja en orkestreringsteknik för datapipeline i Azure
De flesta stordatalösningar består av upprepade databearbetningsåtgärder, inkapslade i arbetsflöden. En pipelineorkestrerare är ett verktyg som hjälper till att automatisera dessa arbetsflöden. En initierare kan schemalägga jobb, köra arbetsflöden och samordna beroenden mellan uppgifter.
Vilka alternativ har du för datapipelineorkestrering?
I Azure uppfyller följande tjänster och verktyg de grundläggande kraven för pipelineorkestrering, kontrollflöde och dataförflyttning:
Dessa tjänster och verktyg kan användas oberoende av varandra eller användas tillsammans för att skapa en hybridlösning. Till exempel kan Integration Runtime (IR) i Azure Data Factory V2 köra SSIS-paket inbyggt i en hanterad Azure-beräkningsmiljö. Även om funktionerna mellan dessa tjänster överlappar varandra finns det några viktiga skillnader.
Viktiga urvalskriterier
Börja med att besvara de här frågorna för att begränsa alternativen:
Behöver du stordatafunktioner för att flytta och transformera dina data? Detta innebär vanligtvis flera gigabyte till terabyte data. Om ja, begränsar du alternativen till de alternativ som passar bäst för stordata.
Behöver du en hanterad tjänst som kan användas i stor skala? Om ja, välj en av de molnbaserade tjänsterna som inte begränsas av din lokala bearbetningskraft.
Finns några av dina datakällor lokalt? Om ja, leta efter alternativ som kan fungera med både molnbaserade och lokala datakällor eller mål.
Lagras dina källdata i Blob Storage i ett HDFS-filsystem? I så fall väljer du ett alternativ som stöder Hive-frågor.
Kapacitetsmatris
I följande tabeller sammanfattas de viktigaste skillnaderna i funktioner.
Allmänna funktioner
| Funktion | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie på HDInsight |
|---|---|---|---|
| Hanterad | Ja | Inga | Ja |
| Molnbaserad | Yes | Nej (lokal) | Yes |
| Förutsättning | Azure Subscription (Azure-prenumeration) | SQL Server | Azure-prenumeration, HDInsight-kluster |
| Hanteringsverktyg | Azure Portal, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Bash-gränssnittet, Oozie REST API, Oozie-webbgränssnittet |
| Prissättning | Betala per användning | Licensiering/betalning för funktioner | Ingen extra kostnad utöver att köra HDInsight-klustret |
Pipelinefunktioner
| Funktion | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie på HDInsight |
|---|---|---|---|
| Kopiera data | Ja | Ja | Ja |
| Anpassade transformningar | Ja | Ja | Ja (MapReduce-, Pig- och Hive-jobb) |
| Azure Machine Learning bedömning | Yes | Ja (med skript) | No |
| HDInsight på begäran | Ja | Inga | Inga |
| Azure Batch | Ja | Inga | Inga |
| Pig, Hive, MapReduce | Ja | Inga | Ja |
| Spark | Ja | Inga | Inga |
| Köra SSIS-paket | Ja | Ja | Inga |
| Kontrollflöde | Ja | Ja | Ja |
| Komma åt lokala data | Ja | Ja | Inga |
Skalbarhetsfunktioner
| Funktion | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie på HDInsight |
|---|---|---|---|
| Skala upp | Ja | Inga | Inga |
| Skala ut | Ja | Inga | Ja (genom att lägga till arbetsnoder i klustret) |
| Optimerad för stordata | Ja | Inga | Ja |