Qu’est-ce que le gestionnaire du flux de travail ?

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Remarque

Le gestionnaire de flux de travail est basé sur Apache Airflow.

Remarque

Cette fonctionnalité est en version préliminaire publique. Pour les questions ou les suggestions de fonctionnalités, envoyez un e-mail à ManagedAirflow@microsoft.com avec les détails.

Remarque

Le gestionnaire du flux de travail pour Azure Data Factory s’appuie sur l’application Apache Airflow open source. Vous trouverez de la documentation et d’autres tutoriels sur Airflow dans les pages Documentation ou Communauté d’Apache Airflow.

Azure Data Factory offre des pipelines serverless pour l’orchestration des processus de données, le déplacement des données avec plus de 100 connecteurs managés et des transformations visuelles avec le flux de données de mappage.

Le service de gestionnaire du flux de travail d’Azure Data Factory est un moyen simple et efficace de créer et de gérer des environnements Apache Airflow, ce qui vous permet d’exécuter facilement des pipelines de données à grande échelle. Apache Airflow est une plateforme open source utilisée pour créer, planifier et superviser par programmation des workflows de données complexes. Elle vous permet de définir un ensemble de tâches, appelées opérateurs, qui peuvent être combinées en graphes orientés acyclique (DAG) pour représenter des pipelines de données. Airflow vous permet d’exécuter ces graphes DAG selon une planification ou en réponse à un événement, de superviser la progression des workflows et de fournir une visibilité sur l’état de chaque tâche. Il est largement utilisé dans l’engineering données et la science des données pour orchestrer des pipelines de données, tout en étant connu pour sa flexibilité, son extensibilité et sa facilité d’utilisation.

Capture d’écran montrant l’intégration des données.

Quand utiliser le gestionnaire du flux de travail ?

Azure Data Factory offre des pipelines pour orchestrer visuellement les processus de données (création basée sur l’interface utilisateur). Le gestionnaire du flux de travail, quant à lui, propose des DAG Python basés sur Airflow (création basée sur du code Python) pour définir le processus d’orchestration des données. Si vous connaissez déjà Airflow, ou si vous utilisez actuellement Apache Airflow, vous préférerez peut-être utiliser le gestionnaire du flux de travail au lieu des pipelines. Au contraire, si vous ne souhaitez pas écrire/gérer des DAG basés sur Python pour l’orchestration des processus de données, vous préférerez peut-être utiliser des pipelines.

Avec le gestionnaire du flux de travail, Azure Data Factory offre désormais des fonctionnalités de multi-orchestration couvrant les exigences d’une orchestration OSS visuelle et centrée sur le code.

Fonctionnalités

Le gestionnaire du flux de travail dans Azure Data Factory offre une gamme de fonctionnalités puissantes, notamment :

  • Déploiement simple et rapide : vous pouvez configurer rapidement et facilement Apache Airflow en sélectionnant une version d’Apache Airflow quand vous créez un gestionnaire du flux de travail.
  • Mise à l’échelle du cloud : le gestionnaire du flux de travail met automatiquement à l’échelle les nœuds Apache Airflow si nécessaire en fonction de la spécification de plage (min, max).
  • Intégration de Microsoft Entra : vous pouvez activer Microsoft Entra RBAC sur votre environnement Airflow pour une expérience d'authentification unique sécurisée par Microsoft Entra ID.
  • Chiffrement des métadonnées : le gestionnaire du flux de travail chiffre automatiquement les métadonnées à l’aide de clés gérées par Azure pour garantir par défaut que votre environnement est sécurisé. Il prend également en charge le chiffrement double avec une clé gérée par le client (CMK).
  • Surveillance et alertes Azure : tous les journaux générés par le gestionnaire du flux de travail sont exportés vers Azure Monitor. Il fournit également des métriques pour suivre les conditions critiques et vous aider à émettre une notification si nécessaire.

Architecture

Capture d’écran montrant l’architecture dans le gestionnaire du flux de travail.

Disponibilité régionale (préversion publique)

  • USA Est
  • USA Centre Sud
  • USA Ouest
  • Brésil Sud
  • Sud du Royaume-Uni
  • Europe Nord
  • Europe Ouest
  • Asie Sud-Est

Remarque

En disponibilité générale, toutes les régions ADF seront prises en charge. La région de l’environnement Airflow est définie par défaut sur la région Data Factory et n’est pas configurable : veillez donc à utiliser une fabrique de données dans la région prise en charge ci-dessus pour pouvoir accéder à la préversion du gestionnaire du flux de travail.

Versions d’Apache Airflow prises en charge

  • 2.6.3

Remarque

La modification de la version Airflow au sein d’un runtime d’intégration existant n’est pas prise en charge. Au lieu de cela, la solution recommandée consiste à créer un runtime d’intégration Airflow avec la version souhaitée

Intégrations

Apache Airflow s’intègre aux services Microsoft Azure via le fournisseur microsoft.azure.

Vous pouvez installer n’importe quel package de fournisseur en modifiant l’environnement Airflow depuis l’interface utilisateur Azure Data Factory. L’installation du package prend environ deux minutes.

Capture d’écran montrant l’intégration d’Airflow.

Limites

  • Le gestionnaire du flux de travail dans d’autres régions est disponible en disponibilité générale.
  • Les sources de données se connectant par flux d’air doivent être accessibles via un point de terminaison public (réseau).
  • Les DAG se trouvant dans un stockage Blob dans un réseau virtuel/derrière un pare-feu ne sont actuellement pas pris en charge. Au lieu de cela, nous vous recommandons d’utiliser la fonctionnalité de synchronisation Git du gestionnaire du flux de travail. Voir, Synchroniser un référentiel GitHub dans le gestionnaire du flux de travail
  • L’importation de Dags à partir d’Azure Key Vault n’est pas prise en charge dans LinkedServices.