Choisir une technologie d’orchestration de pipeline de données dans Azure

La plupart des solutions de Big Data se composent d’opérations de traitement des données répétées, encapsulées dans des workflows. Un orchestrateur de pipeline est un outil qui permet d’automatiser ces workflows. Un orchestrateur peut planifier des travaux, exécuter des workflows et coordonner les dépendances entre des tâches.

Quelles sont vos options d’orchestration de pipeline de données ?

Dans Azure, les outils et services suivants répondent aux exigences principales d’orchestration de pipeline, de flux de contrôle et de déplacement des données :

Ces services et outils peuvent être utilisés indépendamment l’un de l’autre ou conjointement pour créer une solution hybride. Par exemple, Integration Runtime (IR) dans Azure Data Factory V2 peut exécuter en mode natif des packages SSIS dans un environnement de calcul Azure géré. S’il existe certains recoupements des fonctionnalités entre ces services, il existe aussi quelques différences importantes.

Critères de sélection principaux

Pour restreindre les choix, commencez par répondre aux questions suivantes :

  • Avez-vous besoin des fonctionnalités de Big Data pour déplacer et transformer vos données ? Généralement, cela signifie des gigaoctets à des téraoctets de données. Dans ce cas, limitez vos options à celles qui sont le mieux adaptées au Big Data.

  • Avez-vous besoin d’un service géré qui puisse fonctionner à l’échelle ? Dans ce cas, sélectionnez un des services cloud non limité par votre puissance de traitement local.

  • Certaines de vos données sources sont-elles locales ? Dans l’affirmative, recherchez les options qui peuvent fonctionner avec les sources de données ou les destinations locales et sur cloud.

  • Vos données sources sont-elles stockées dans le stockage Blob sur un système de fichiers HDFS ? Dans ce cas, choisissez une option qui prend en charge les requêtes Hive.

Matrice des fonctionnalités

Les tableaux suivants résument les principales différences entre les fonctionnalités.

Fonctionnalités générales

Fonctionnalité Azure Data Factory SQL Server Integration Services (SSIS) Oozie sur HDInsight
Adresses IP gérées Oui No Oui
Sur le cloud Oui Non (Local) Oui
Prérequis Abonnement Azure SQL Server Abonnement Azure, cluster HDInsight
Outils d’administration Portail Azure, PowerShell, CLI, .NET SDK SSMS, PowerShell Interpréteur de commandes Bash, API REST Oozie, IU Web Oozie
Tarifs Paiement à l’utilisation Licences / paiement des fonctionnalités Aucun frais supplémentaire sur l’exécution du cluster HDInsight

Fonctionnalités du pipeline

Fonctionnalité Azure Data Factory SQL Server Integration Services (SSIS) Oozie sur HDInsight
Copier des données Oui Oui Oui
Transformations personnalisées Oui Oui Oui (travaux MapReduce, Pig et Hive)
Notation d’Azure Machine Learning Oui Oui (avec des scripts) Non
HDInsight à la demande Oui No Non
Azure Batch Oui No Non
Pig, Hive, MapReduce Oui No Oui
Spark Oui No Non
Exécuter le Package SSIS Oui Oui Non
Flux de contrôle Oui Oui Oui
Accès aux données locales Oui Oui Non

Fonctionnalités d’évolutivité

Fonctionnalité Azure Data Factory SQL Server Integration Services (SSIS) Oozie sur HDInsight
Monter en puissance Oui No Non
Scale-out Oui Non Oui (via l’ajout de nœuds de travail en cluster)
Optimisé pour le Big Data Oui No Oui

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Étapes suivantes