Choisir une technologie d’orchestration de pipeline de données dans Azure

Article
03/04/2024

La plupart des solutions de Big Data se composent d’opérations de traitement des données répétées, encapsulées dans des workflows. Un orchestrateur de pipeline est un outil qui permet d’automatiser ces workflows. Un orchestrateur peut planifier des travaux, exécuter des workflows et coordonner les dépendances entre des tâches.

Quelles sont vos options d’orchestration de pipeline de données ?

Dans Azure, les outils et services suivants répondent aux exigences principales d’orchestration de pipeline, de flux de contrôle et de déplacement des données :

Ces services et outils peuvent être utilisés indépendamment l’un de l’autre ou conjointement pour créer une solution hybride. Par exemple, Integration Runtime (IR) dans Azure Data Factory V2 peut exécuter en mode natif des packages SSIS dans un environnement de calcul Azure géré. S’il existe certains recoupements des fonctionnalités entre ces services, il existe aussi quelques différences importantes.

Critères de sélection principaux

Pour restreindre les choix, commencez par répondre aux questions suivantes :

Avez-vous besoin des fonctionnalités de Big Data pour déplacer et transformer vos données ? Généralement, cela signifie des gigaoctets à des téraoctets de données. Dans ce cas, limitez vos options à celles qui sont le mieux adaptées au Big Data.
Avez-vous besoin d’un service géré qui puisse fonctionner à l’échelle ? Dans ce cas, sélectionnez un des services cloud non limité par votre puissance de traitement local.
Certaines de vos données sources sont-elles locales ? Dans l’affirmative, recherchez les options qui peuvent fonctionner avec les sources de données ou les destinations locales et sur cloud.
Vos données sources sont-elles stockées dans le stockage Blob sur un système de fichiers HDFS ? Dans ce cas, choisissez une option qui prend en charge les requêtes Hive.

Matrice des fonctionnalités

Les tableaux suivants résument les principales différences entre les fonctionnalités.

Fonctionnalités générales

Fonctionnalité	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie sur HDInsight
Adresses IP gérées	Oui	No	Oui
Sur le cloud	Oui	Non (Local)	Oui
Prérequis	Abonnement Azure	SQL Server	Abonnement Azure, cluster HDInsight
Outils d’administration	Portail Azure, PowerShell, CLI, .NET SDK	SSMS, PowerShell	Interpréteur de commandes Bash, API REST Oozie, IU Web Oozie
Tarifs	Paiement à l’utilisation	Licences / paiement des fonctionnalités	Aucun frais supplémentaire sur l’exécution du cluster HDInsight

Fonctionnalités du pipeline

Fonctionnalité	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie sur HDInsight
Copier des données	Oui	Oui	Oui
Transformations personnalisées	Oui	Oui	Oui (travaux MapReduce, Pig et Hive)
Notation d’Azure Machine Learning	Oui	Oui (avec des scripts)	Non
HDInsight à la demande	Oui	No	Non
Azure Batch	Oui	No	Non
Pig, Hive, MapReduce	Oui	No	Oui
Spark	Oui	No	Non
Exécuter le Package SSIS	Oui	Oui	Non
Flux de contrôle	Oui	Oui	Oui
Accès aux données locales	Oui	Oui	Non

Fonctionnalités d’évolutivité

Fonctionnalité	Azure Data Factory	SQL Server Integration Services (SSIS)	Oozie sur HDInsight
Monter en puissance	Oui	No	Non
Scale-out	Oui	Non	Oui (via l’ajout de nœuds de travail en cluster)
Optimisé pour le Big Data	Oui	No	Oui

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Zoiner Tejada | CEO et Architecte

Choisir une technologie d’orchestration de pipeline de données dans Azure

Quelles sont vos options d’orchestration de pipeline de données ?

Critères de sélection principaux

Matrice des fonctionnalités

Fonctionnalités générales

Fonctionnalités du pipeline

Fonctionnalités d’évolutivité

Contributeurs

Étapes suivantes

Commentaires

Commentaires

Ressources supplémentaires

Choisir une technologie d’orchestration de pipeline de données dans Azure

Quelles sont vos options d’orchestration de pipeline de données ?

Critères de sélection principaux

Matrice des fonctionnalités

Fonctionnalités générales

Fonctionnalités du pipeline

Fonctionnalités d’évolutivité

Contributeurs

Étapes suivantes

Ressources associées

Commentaires

Commentaires

Ressources supplémentaires