Nouveautés et planifications de Data Factory dans Microsoft Fabric

Article
05/22/2024

Important

Les plans de mise en production décrivent les fonctionnalités susceptibles ou non d’avoir été publiées. Les chronologie de livraison et les fonctionnalités projetées peuvent changer ou ne pas être expédiés. Pour plus d’informations, consultez la stratégie Microsoft.

Data Factory dans Microsoft Fabric combine les fonctionnalités d’intégration des données citoyens et d’intégration de données pro en une expérience d’intégration de données moderne unique. Il fournit une connectivité à plus de 100 bases de données relationnelles et non relationnelles, lakehouses, entrepôts de données, interfaces génériques telles que les API REST, OData, etc.

Dataflows : Dataflow Gen2 vous permet d’effectuer des transformations de données à grande échelle et prend en charge différentes destinations de sortie qui écrivent dans Azure SQL Database, Lakehouse, Data Warehouse, etc. L’éditeur de flux de données offre plus de 300 transformations, notamment des options basées sur l’IA, et vous permet de transformer facilement des données avec une meilleure flexibilité que n’importe quel autre outil. Que vous extrayiez des données d’une source de données non structurée telle qu’une page web ou que vous remodeliez une table existante dans l’éditeur Power Query, vous pouvez facilement appliquer l’extraction de données de Power Query par exemple, qui utilise l’intelligence artificielle (IA) et simplifie le processus.

Pipelines de données : les pipelines de données offrent la possibilité de créer des workflows d’orchestration de données polyvalents qui rassemblent des tâches telles que l’extraction de données, le chargement dans des magasins de données préférés, l’exécution de notebooks, l’exécution de script SQL, etc. Vous pouvez rapidement créer de puissants pipelines de données pilotés par les métadonnées qui automatisent les tâches répétitives. Par exemple, le chargement et l’extraction de données à partir de différentes tables d’une base de données, l’itération via plusieurs conteneurs dans Stockage Blob Azure, etc. En outre, avec des pipelines de données, vous pouvez accéder aux données de Microsoft 365 à l’aide du connecteur Connexion aux données Microsoft Graph ion (MGDC).

Pour plus d’informations, consultez la documentation.

Domaines d’investissement

Au cours des prochains mois, Data Factory dans Microsoft Fabric étendra ses options de connectivité et continuera à s’ajouter à la riche bibliothèque de transformations et d’activités de pipeline de données. De plus, il vous permet d’effectuer une réplication de données en temps réel et hautes performances à partir de bases de données opérationnelles et d’intégrer ces données dans le lac pour l’analytique.

Fonctionnalité	Chronologie estimée des mises en production
Gestion des identités de source de données (SPN)	T2 2024
Prise en charge du pipeline de données pour SparkJobDefinition	T2 2024
Prise en charge du pipeline de données pour Azure HDinsight	T2 2024
Prise en charge de l’appel de pipelines de données inter-espaces de travail	T2 2024
Prise en charge du pipeline de données pour les déclencheurs pilotés par les événements	T2 2024
Nouveaux connecteurs pour l’activité de copie	T2 2024
Flux de travail de données : créer des pipelines de données optimisés par Apache Airflow	T2 2024
Copilot pour Data Factory (Dataflow)	Q3 2024
Valeurs par défaut de préproduction pour la destination de sortie Dataflow Gen 2	Q3 2024
Prise en charge de l’actualisation incrémentielle dans Dataflow Gen2	Q3 2024
Prise en charge du pipeline de données pour DBT CLI	Q3 2024
Prise en charge du pipeline de données pour les travaux Azure Databricks	Q3 2024
Copier le travail	Q3 2024
Copilot pour Data Factory (pipeline de données)	Q3 2024
Amélioration des Notifications par e-mail pour les échecs d’actualisation	Q3 2024
Ingestion parallèle basée sur les flux de données Gen 2	Q3 2024
Gestion des identités de source de données (Identité managée)	Q3 2024
Gestion des identités de source de données (Azure Key Vault)	Q3 2024
Permettre aux clients de paramétrer leurs connexions	T4 2024
Annuler la prise en charge de l’actualisation dans Dataflow Gen2	Expédié (Q4 2023)
Améliorations apportées à l’expérience des données (Parcourir les ressources Azure)	Expédié (Q1 2024)
Prise en charge de la passerelle de données locale (OPDG) ajoutée aux pipelines de données	Expédié (Q1 2024)
Prise en charge de la copie rapide dans Dataflow Gen2	Expédié (Q1 2024)
Intégration Git de Data Factory pour les pipelines de données	Expédié (Q1 2024)
Améliorations apportées aux destinations de sortie dans Dataflow Gen2 (schéma de requête)	Expédié (Q1 2024)

Gestion des identités de source de données (SPN)

Chronologie de publication estimée : Q2 2024

Type de publication : Disponibilité générale

Principal de service : pour accéder aux ressources sécurisées par un locataire Azure AD, l’entité qui requiert l’accès doit être représentée par un principal de sécurité. Vous serez en mesure de vous connecter à vos sources de données avec le principal de service.

Prise en charge du pipeline de données pour SparkJobDefinition

Chronologie de publication estimée : Q2 2024

Type de publication : Disponibilité générale

Vous pouvez maintenant exécuter votre code Spark, y compris les fichiers JAR, directement à partir d’une activité de pipeline. Pointez simplement sur votre code Spark et le pipeline exécute le travail sur votre cluster Spark dans Fabric. Cette nouvelle activité permet des modèles de flux de travail de données passionnants qui tirent parti de la puissance du moteur Spark de Fabric tout en incluant le flux de contrôle Data Factory et les fonctionnalités de flux de données dans le même pipeline que vos travaux Spark.

Prise en charge du pipeline de données pour Azure HDinsight

Chronologie de publication estimée : Q2 2024

Type de publication : Disponibilité générale

HD Insight est le service PaaS Azure pour Hadoop qui permet aux développeurs de créer des solutions Big Data très puissantes dans le cloud. La nouvelle activité de pipeline HDI activera les activités de travail HD Recommandations à l’intérieur de vos pipelines de données Data Factory similaires à la foncationnalité existante que vous avez enhoyée depuis des années dans les pipelines ADF et Synapse. Nous avons maintenant apporté cette fonctionnalité directement dans des pipelines de données Fabric.

Prise en charge de l’appel de pipelines de données inter-espaces de travail

Chronologie de publication estimée : Q2 2024

Type de version : préversion publique

Appeler la mise à jour de l’activité Pipelines : nous activons de nouvelles mises à jour intéressantes pour l’activité Invoke Pipeline. En réponse à des demandes client et de communauté écrasantes, nous allons activer l’exécution de pipelines de données entre les espaces de travail. Vous pourrez maintenant appeler des pipelines à partir d’autres espaces de travail auxquels vous avez accès. Cela permet des modèles de flux de travail de données très excitants qui peuvent utiliser la collaboration de vos équipes d’ingénierie et d’intégration des données entre les espaces de travail et les équipes fonctionnelles.

Prise en charge du pipeline de données pour les déclencheurs pilotés par les événements

Chronologie de publication estimée : Q2 2024

Type de version : préversion publique

Un cas d’usage courant pour appeler des pipelines de données Data Factory consiste à déclencher le pipeline lors d’événements de fichier tels que l’arrivée du fichier et la suppression de fichiers. Pour les clients provenant d’ADF ou Synapse vers Fabric, l’utilisation d’événements de stockage ADLS/Blog est très courante comme moyen de signaler une nouvelle exécution de pipeline ou de capturer les noms des fichiers créés. Les déclencheurs dans Fabric Data Factory tirent parti des fonctionnalités de plateforme Fabric, notamment les déclencheurs Event Flux et Reflex. À l’intérieur du canevas de conception de pipeline Fabric Data Factory, vous disposez d’un bouton Déclencheur que vous pouvez appuyer pour créer un déclencheur Reflex pour votre pipeline ou créer le déclencheur directement à partir de l’expérience d’activateur de données.

Nouveaux connecteurs pour l’activité de copie

Chronologie de publication estimée : Q2 2024

Type de version : préversion publique

De nouveaux connecteurs seront ajoutés pour activité Copy permettre au client d’ingérer à partir des sources suivantes, tout en tirant parti du pipeline de données : Oracle, MySQL, Azure MySQL Database, Azure AI Search, Azure Files, Dynamics AX, Azure Files, Google BigQuery.

Flux de travail de données : créer des pipelines de données optimisés par Apache Airflow

Chronologie de publication estimée : Q2 2024

Type de version : préversion publique

Les flux de travail de données sont alimentés par Apache Airflow et offrent un environnement d’exécution Apache Airflow intégré, ce qui vous permet de créer, d’exécuter et de planifier facilement des DAGs Python.

Copilot pour Data Factory (Dataflow)

Version estimée chronologie : Q3 2024

Type de publication : Disponibilité générale

Copilot for Data Factory (Dataflow) permet aux clients d’exprimer leurs exigences à l’aide du langage naturel lors de la création de solutions d’intégration de données avec Dataflows Gen2.

Valeurs par défaut de préproduction pour la destination de sortie Dataflow Gen 2

Version estimée chronologie : Q3 2024

Type de version : préversion publique

Dataflow Gen2 offre des fonctionnalités permettant d’ingérer des données à partir d’un large éventail de sources de données dans Fabric OneLake. Lors de la mise en lots de ces données, elles peuvent être transformées à grande échelle en tirant parti du moteur Dataflows Gen2 à grande échelle (basé sur le calcul SQL Fabric Lakehouse/Warehouse).

Le comportement par défaut pour Dataflows Gen2 consiste à mettre en scène des données dans OneLake afin d’activer des transformations de données à grande échelle. Bien que cela fonctionne parfaitement pour les scénarios à grande échelle, il ne fonctionne pas aussi bien pour les scénarios impliquant de petites quantités de données ingérées, étant donné qu’il introduit un tronçon supplémentaire (intermédiaire) pour les données avant qu’elles ne soient finalement chargées dans la destination de sortie du flux de données.

Avec les améliorations planifiées, nous allons ajuster le comportement intermédiaire par défaut à désactiver pour les requêtes avec une destination de sortie qui ne nécessite pas de préproduction (à savoir, Fabric Lakehouse et Azure SQL Database).

Le comportement intermédiaire peut être configuré manuellement par requête via le volet Requête Paramètres ou le menu contextuel de requête dans le volet Requêtes.

Prise en charge de l’actualisation incrémentielle dans Dataflow Gen2

Version estimée chronologie : Q3 2024

Type de version : préversion publique

Nous ajoutons la prise en charge de l’actualisation incrémentielle dans Dataflow Gen2. Cette fonctionnalité vous permet d’extraire de manière incrémentielle des données à partir de sources de données, d’appliquer des transformations Power Query et de charger dans différentes destinations de sortie.

Prise en charge du pipeline de données pour DBT CLI

Version estimée chronologie : Q3 2024

Type de version : préversion publique

Orchestration de l’interface CLI DBT (Outil de génération de données) : incorpore l’outil de génération de données (dbt) pour les flux de travail de transformation de données.

Prise en charge du pipeline de données pour les travaux Azure Databricks

Version estimée chronologie : Q3 2024

Type de version : préversion publique

Nous mettons à jour les pipelines de données Data Factory azure Databricks pour utiliser désormais l’API de travaux la plus récente qui permet des fonctionnalités de flux de travail intéressantes, comme l’exécution de travaux DLT.

Copier le travail

Version estimée chronologie : Q3 2024

Type de version : préversion publique

La tâche de copie simplifie l’expérience pour les clients qui doivent ingérer des données, sans avoir à créer de flux de données ou de pipeline de données. Le travail de copie prend en charge la copie complète et incrémentielle à partir de toutes les sources de données vers toutes les destinations de données.

Copilot pour Data Factory (pipeline de données)

Version estimée chronologie : Q3 2024

Type de version : préversion publique

Copilot pour Data Factory (pipeline de données) permet aux clients de créer des pipelines de données à l’aide du langage naturel et fournit des conseils de dépannage.

Amélioration des Notifications par e-mail pour les échecs d’actualisation

Version estimée chronologie : Q3 2024

Type de version : préversion publique

Les notifications par e-mail permettent aux créateurs Dataflow Gen2 de surveiller les résultats (réussite/échec) de l’opération d’actualisation d’un dataflow.

Ingestion parallèle basée sur les flux de données Gen 2

Version estimée chronologie : Q3 2024

Type de version : préversion publique

Actuellement, Dataflows Gen2 contenant des requêtes sur une source de données qui prend en charge les partitions actualise les partitions dans ces requêtes de manière séquentielle. Un exemple de ce comportement est une requête exécutée sur un dossier et ingéré tous les fichiers dans le dossier (puis, les analyse dans des tables, la combinaison dans une seule table, etc.).

Avec les améliorations planifiées, nous optimisons l’orchestration de ces requêtes afin que le traitement de chacune des partitions sources puisse être exécuté en parallèle. Cette optimisation peut entraîner une réduction significative des durées d’exécution globales du flux de données.

Gestion des identités de source de données (Identité managée)

Version estimée chronologie : Q3 2024

Type de version : préversion publique

Cela permet à l’identité managée d’être configurée au niveau de l’espace de travail. Vous pouvez utiliser les identités managées Fabric pour vous connecter à votre source de données en toute sécurité.

Gestion des identités de source de données (Azure Key Vault)

Version estimée chronologie : Q3 2024

Type de version : préversion publique

Prise en charge d’Azure Key Vault : vous pouvez stocker vos clés et secrets dans Azure Key Vault et vous y connecter. De cette façon, vous pouvez gérer vos clés à un seul endroit.

Permettre aux clients de paramétrer leurs connexions

Chronologie de publication estimée : Q4 2024

Type de version : préversion publique

Connecter ions fournissent une infrastructure commune pour définir la connectivité et l’authentification pour vos magasins de données. Ces connexions peuvent être partagées entre différents éléments. Avec la prise en charge du paramétrage, vous pourrez créer des pipelines complexes et réutilisables, des notebooks, des dataflows et d’autres types d’éléments.

Fonctionnalités livrées

Annuler la prise en charge de l’actualisation dans Dataflow Gen2

Expédié (Q4 2023)

Type de version : préversion publique

Nous ajoutons la prise en charge de l’annulation des actualisations de Dataflow Gen2 en cours à partir de l’affichage éléments de l’espace de travail.

Améliorations apportées à l’expérience des données (Parcourir les ressources Azure)

Expédié (Q1 2024)

Type de version : préversion publique

La navigation dans les ressources Azure offre une navigation transparente pour parcourir les ressources Azure. Vous pouvez facilement naviguer dans vos abonnements Azure et vous connecter à vos sources de données via une interface utilisateur intuitive. Il vous aide à trouver et à vous connecter rapidement aux données dont vous avez besoin.

Prise en charge de la passerelle de données locale (OPDG) ajoutée aux pipelines de données

Expédié (Q1 2024)

Type de version : préversion publique

Cette fonctionnalité permet aux pipelines de données d’utiliser des passerelles de données Fabric pour accéder aux données locales et derrière un réseau virtuel. Pour les utilisateurs qui utilisent des runtimes d’intégration auto-hébergés (SHIR), ils pourront passer à des passerelles de données locales dans Fabric.

Prise en charge de la copie rapide dans Dataflow Gen2

Expédié (Q1 2024)

Type de version : préversion publique

Nous ajoutons la prise en charge de l’ingestion de données à grande échelle directement dans l’expérience Dataflow Gen2, en utilisant la fonctionnalité d’activité de copie des pipelines. Cela prend en charge des sources telles que les bases de données Azure SQL, les fichiers CSV et Parquet dans Azure Data Lake Stockage et les Stockage Blob.

Cette amélioration augmente considérablement la capacité de traitement des données de Dataflow Gen2 en fournissant des fonctionnalités ELT (Extract-Load-Transform) à grande échelle.

Intégration Git de Data Factory pour les pipelines de données

Expédié (Q1 2024)

Type de version : préversion publique

Vous pouvez vous connecter à votre dépôt Git pour développer des pipelines de données de manière collaborative. L’intégration de pipelines de données à la fonctionnalité gestion du cycle de vie des applications (ALM) de la plateforme Fabric permet le contrôle de version, la branchement, les validations et les demandes de tirage.

Améliorations apportées aux destinations de sortie dans Dataflow Gen2 (schéma de requête)

Expédié (Q1 2024)

Type de version : préversion publique

Nous améliorons les destinations de sortie dans Dataflow Gen2 avec les fonctionnalités hautement demandées suivantes :

Possibilité de gérer les modifications de schéma de requête après la configuration d’une destination de sortie.
Paramètres de destination par défaut pour accélérer la création de flux de données.

Pour en savoir plus, consultez les destinations de données Dataflow Gen2 et les paramètres managés

Documentation Data Factory dans Microsoft Fabric

Partager via

Nouveautés et planifications de Data Factory dans Microsoft Fabric

Domaines d’investissement

Gestion des identités de source de données (SPN)

Prise en charge du pipeline de données pour SparkJobDefinition

Prise en charge du pipeline de données pour Azure HDinsight

Prise en charge de l’appel de pipelines de données inter-espaces de travail

Prise en charge du pipeline de données pour les déclencheurs pilotés par les événements

Nouveaux connecteurs pour l’activité de copie

Flux de travail de données : créer des pipelines de données optimisés par Apache Airflow

Copilot pour Data Factory (Dataflow)

Valeurs par défaut de préproduction pour la destination de sortie Dataflow Gen 2

Prise en charge de l’actualisation incrémentielle dans Dataflow Gen2

Prise en charge du pipeline de données pour DBT CLI

Prise en charge du pipeline de données pour les travaux Azure Databricks

Copier le travail

Copilot pour Data Factory (pipeline de données)

Amélioration des Notifications par e-mail pour les échecs d’actualisation

Ingestion parallèle basée sur les flux de données Gen 2

Gestion des identités de source de données (Identité managée)

Gestion des identités de source de données (Azure Key Vault)

Permettre aux clients de paramétrer leurs connexions

Fonctionnalités livrées

Annuler la prise en charge de l’actualisation dans Dataflow Gen2

Améliorations apportées à l’expérience des données (Parcourir les ressources Azure)

Prise en charge de la passerelle de données locale (OPDG) ajoutée aux pipelines de données

Prise en charge de la copie rapide dans Dataflow Gen2

Intégration Git de Data Factory pour les pipelines de données

Améliorations apportées aux destinations de sortie dans Dataflow Gen2 (schéma de requête)

Ressources supplémentaires

Partager via

Nouveautés et planifications de Data Factory dans Microsoft Fabric

Domaines d’investissement

Gestion des identités de source de données (SPN)

Prise en charge du pipeline de données pour SparkJobDefinition

Prise en charge du pipeline de données pour Azure HDinsight

Prise en charge de l’appel de pipelines de données inter-espaces de travail

Prise en charge du pipeline de données pour les déclencheurs pilotés par les événements

Nouveaux connecteurs pour l’activité de copie

Flux de travail de données : créer des pipelines de données optimisés par Apache Airflow

Copilot pour Data Factory (Dataflow)

Valeurs par défaut de préproduction pour la destination de sortie Dataflow Gen 2

Prise en charge de l’actualisation incrémentielle dans Dataflow Gen2

Prise en charge du pipeline de données pour DBT CLI

Prise en charge du pipeline de données pour les travaux Azure Databricks

Copier le travail

Copilot pour Data Factory (pipeline de données)

Amélioration des Notifications par e-mail pour les échecs d’actualisation

Ingestion parallèle basée sur les flux de données Gen 2

Gestion des identités de source de données (Identité managée)

Gestion des identités de source de données (Azure Key Vault)

Permettre aux clients de paramétrer leurs connexions

Fonctionnalités livrées

Annuler la prise en charge de l’actualisation dans Dataflow Gen2

Améliorations apportées à l’expérience des données (Parcourir les ressources Azure)

Prise en charge de la passerelle de données locale (OPDG) ajoutée aux pipelines de données

Prise en charge de la copie rapide dans Dataflow Gen2

Intégration Git de Data Factory pour les pipelines de données

Améliorations apportées aux destinations de sortie dans Dataflow Gen2 (schéma de requête)

Contenu connexe

Ressources supplémentaires