Exporter les données de table vers Azure Data Lake Storage Gen2

Notes

En vigueur depuis novembre 2020 :

  • Common Data Service s’appelle désormais Microsoft Dataverse. En savoir plus
  • Une partie de la terminologie de Microsoft Dataverse a été mise à jour. Par exemple, une entité est maintenant une table et un champ est maintenant une colonne. En savoir plus

Cet article sera bientôt mis à jour pour refléter la terminologie la plus récente.

Le service Exporter vers Data Lake est un pipeline permettant d’exporter en continu des données de Microsoft Dataverse vers Azure Data Lake Storage Gen 2. Le service Exporter vers Data Lake est conçu pour l’analyse des données volumineuses d’entreprise en offrant une haute disponibilité évolutive avec des capacités de reprise après sinistre. Les données sont stockées au format Common Data Model, qui offre une cohérence sémantique entre les applications et les déploiements.

Aperçu de l’exportation vers un lac de données

Exporter vers Data Lake offre les fonctionnalités suivantes :

  • Lier ou dissocier l’environnement Dataverse à/de Data Lake Storage Gen2 dans votre abonnement Azure.
  • Réplication continue des tables vers Data Lake Storage Gen2.
  • Écriture initiale suivie d’écrits incrémentiels pour les données et les métadonnées.
  • Réplication des tables standard et personnalisées.
  • Réplication des transactions de création, de mise à jour et de suppression (CUD).
  • Mises à jour instantanées continues pour les grands scénarios d’analyse.
  • Facilite la découverte des métadonnées et l’interopérabilité entre les producteurs de données et les consommateurs tels que Power BI, Azure Data Factory, Azure Databricks et Azure Machine Learning.

Comment les données et les métadonnées sont exportées

Le service Exporter vers Data Lake prend en charge les écritures initiales et incrémentielles pour les données de table et les métadonnées. Toute modification de données ou de métadonnées dans Dataverse sont automatiquement poussés vers le lac de données sans aucune action supplémentaire. Il s’agit d’une opération de poussée plutôt que de traction. Les modifications sont poussées vers la destination sans que vous ayez besoin de configurer des intervalles d’actualisation.

Les tables standard et personnalisées peuvent être exportés. Notez que l'attribut de table de suivi des modifications de Dataverse vous permet de préserver la synchronisation des données efficacement en détectant les données qui ont changé depuis leur extraction initiale ou leur dernière synchronisation.

Toutes les opérations de création, de mise à jour et de suppression sont exportées de Dataverse vers le lac de données. Par exemple, lorsqu'un utilisateur supprime une ligne de table Account dans Dataverse, la transaction est répliquée vers le lac de données de destination.

Conditions préalables

Avant de pouvoir exporter des données Dataverse vers un lac de données, vous devez créer et configurer un compte de stockage Azure Storage v2 (usage général v2).

Suivez les étapes dans l’article  Créer un compte de stockage Azure  et notez ces exigences :

  • Vous devez disposer du rôle de propriétaire sur le compte de stockage.
  • Définissez votre type de stockage comme Storagev2 (usage général v2).
  • Le compte de stockage doit avoir la fonctionnalité Espace de noms hiérarchique activée.

Nous vous recommandons de définir le paramètre de réplication sur stockage géoredondant avec accès en lecture (RA-GRS). Plus d’information : Stockage géo-redondant à accès en lecture

Propriétés du compte de stockage

Notes

  • Le compte de stockage doit être créé dans le même client Azure Active Directory (Azure AD) que votre client Power Apps.
  • Le compte de stockage doit être créé dans la même zone que l’environnement Power Apps dans lequel vous envisagez d’utiliser la fonctionnalité.
  • Pour lier l’environnement Dataverse à Azure Data Lake Storage Gen2, vous devez être un administrateur Dataverse.
  • Seules les tables pour lesquelles le suivi des modifications est activé peuvent être exportées.

Sélectionnez et exportez les données de la table Dataverse vers Azure Data Lake Storage Gen2

  1. Connectez-vous à Power Apps, dans le volet de navigation de gauche, développez Données, puis cliquez sur Tables.

  2. Dans la barre de commandes, sélectionnez Exporter vers le lac de données, puis sur la page Exporter vers le lac de données, sélectionnez Nouveau lien vers Data Lake.

  3. Sélectionnez chacun des paramètres suivants, puis sélectionnez Suivant :

    • Abonnement. Sélectionnez votre abonnement Azure.
    • Groupes de ressources. Sélectionnez le groupe de ressources qui contient le compte de stockage Storage v2 (usage général v2).
    • Compte de stockage. Sélectionnez le compte de stockage Storage v2 (usage général v2) à utiliser pour l’exportation.

    Notes

    Dans le cadre de la liaison de l’environnement Dataverse à un lac de données, vous accordez au service Exporter vers Data Lake l’accès à votre compte de stockage. Veillez à avoir suivi les conditions préalables pour créer et configurer le compte Azure Data Lake Storage et vous accorder un rôle de propriétaire sur le compte de stockage. En outre, vous accordez l’accès du service Power Platform Dataflows à votre compte de stockage. En savoir plus : Préparation de données en libre-service avec des flux de données.

  4. Sélectionnez les tables que vous souhaitez exporter vers le lac de données, puis sélectionnez Enregistrer. Seules les tables avec le suivi des modifications est activé peuvent être exportées. Pour plus d’informations : Autoriser le suivi des modifications

    Sélectionner les tables pour l’exportation

Votre environnement Dataverse est lié au compte Azure Data Lake Storage Gen2. Le système de fichiers dans le compte de stockage Azure est créé avec un dossier pour chaque table sélectionnée pour être répliquée dans le lac de données.

Vous pouvez suivre les étapes ci-dessus pour créer un lien entre un environnement Dataverse et plusieurs lacs de données Azure dans votre abonnement Azure. De même, vous pouvez créer un lien entre plusieurs environnements Dataverse et le même Azure Data Lake, le tout au sein du même locataire.

Notes

Les données exportées par le service Exporter vers le lac de données sont chiffrées au repos dans Azure Data Lake Storage Gen2. De plus, les données transitoires dans le stockage blob sont également chiffrées au repos. Chiffrement dans Azure Data Lake Storage Gen2 vous aide à protéger vos données, à mettre en œuvre des stratégies de sécurité d’entreprise et à répondre aux exigences de conformité réglementaire. Plus d’informations : Chiffrement de données Azure au repos
Actuellement, vous ne pouvez pas fournir d’adresses IP publiques pour le service d’exportation vers Data Lake pouvant être utilisées dans Paramètres du pare-feu Azure Data Lake. Les règles de réseau IP public n’ont aucun effet sur les demandes provenant de la même région Azure que le compte de stockage. Les services déployés dans la même région que le compte de stockage utilisent des adresses IP Azure privées pour la communication. Par conséquent, vous ne pouvez pas restreindre l’accès à des services Azure spécifiques en fonction de leur plage d’adresses IP sortantes publiques. Plus d’information : Configurer les pare-feu et les réseaux virtuels Azure Storage

Gérer les données de table dans le lac de données

Après avoir configuré l'exportation des données vers Azure Data Lake Storage Gen2 dans votre abonnement, vous pouvez gérer l'exportation des données de table vers le lac de données de deux manières :

  • Sur la zone Exporter vers le lac de données du portail de créateur Power Apps, sélectionnez Gérer les tables dans la barre de commandes pour ajouter ou supprimer une ou plusieurs tables liées.

  • Sur la zone Tables du portail de créateur Power Apps, sélectionnez en regard d'une table, puis sélectionnez le lac de données lié dans lequel vous souhaitez exporter les données de la table.

    Sélectionner une table pour l’exportation

Pour dissocier toutes les tables liées, sur la zone Exporter vers lac de données du portail de créateur Power Apps, sélectionnez Dissocier le lac de données.

Affichez vos données dans Azure Data Lake Storage Gen2

  1. Se connecter à Azure, sélectionnez le compte de stockage, puis dans le volet de navigation de gauche, sélectionnez Explorateur de stockage.
  2. Développez Systèmes de fichiers, puis sélectionnez commondataservice-environmentName-org-Id.

Le fichier model.json, avec son nom et sa version, fournit une liste des tables qui ont été exportées vers le lac de données. Le fichier model.json inclut également l’état de synchronisation initial et l’heure de fin de synchronisation.

Un dossier contenant des fichiers d'instantanés séparés par des virgules (format CSV) s'affiche pour chaque table exportée vers le lac de données.

table de données dans le lac de données

Mises à jour continues des instantanés

Les données Dataverse peuvent changer en permanence grâce à la création, la mise à jour et la suppression de transactions. Les instantanés fournissent une copie des données en lecture seule qui est mise à jour à intervalles réguliers, dans le cas présent toutes les heures. Cela garantit qu’à tout moment, un consommateur d’analyse de données peut consommer de manière fiable des données dans le lac.

Mises à jour continues des instantanés

Lorsque des tables sont ajoutées dans le cadre de l'exportation initiale, les données de la table sont écrites dans les fichiers table.csv sous les dossiers correspondants dans le lac de données. Il s'agit de l'intervalle T1, où un fichier instantané en lecture seule nommé table-T1.csv—par exemple, Account-T1.csv ou Contacts-T1.csv—est créé. En outre, le fichier model.json est mis à jour pour pointer vers ces fichiers d’instantanés. En ouvrant le fichier model.json, vous pouvez afficher les détails de l’instantané.

Voici un exemple de fichier partitionné Account.csv et de dossier d’instantanés dans le lac de données.

Instantané de la table Comptes

Les changements dans Dataverse sont continuellement poussés vers les fichiers CSV correspondants en utilisant le moteur de filage. Il s’agit de l’intervalle T2, où un autre instantané est pris. table-T2.csv—par exemple, Accounts-T2.csv ou Contacts-T2.csv (en supposant qu'il y ait des changements pour la table) —et model.json sont mis à jour avec les nouveaux fichiers de capture instantanée. Toute nouvelle personne qui consulte les données de capture instantanée à partir de T2 est dirigée vers les fichiers de capture instantanée les plus récents. De cette façon, la visionneuse de clichés d’origine peut continuer à fonctionner sur les anciens fichiers de clichés T1 tandis que les visionneuses plus récentes peuvent lire les dernières mises à jour. Ceci est utile dans les scénarios avec des processus en aval plus longs.

Voici un exemple du fichier model.json, qui pointe toujours vers le dernier fichier d’instantané de compte horodaté.

Exemple de fichier model.json d’instantané

Comment les données de table Dataverse sont écrites dans Azure Data Lake

Lors de l'utilisation de l'exportation vers un lac de données, toutes les modifications CUD (créer, mettre à jour, supprimer) des données ou des métadonnées dans les tables Dataverse sont poussées de manière incrémentielle vers Azure Data Lake. En fonction de votre cas d'utilisation, un utilisateur peut sélectionner l'une des nombreuses options pour personnaliser la façon dont les données sont écrites dans le lac. En outre, un utilisateur peut également choisir une stratégie de partition de données différente pour chacune de ses tables. Bien que ces paramètres vous aident à contrôler comment les données Dataverse sont écrites dans Azure Data Lake, cela est particulièrement utile dans les situations où vous essayez de décider comment vous souhaitez consommer les données Azure Data Lake.

Écriture dans un lac de données

En écrivant les données de table Dataverse dans Azure Data Lake , en fonction de la valeur createdOn, qui correspond à la date et à l'heure de création de l'enregistrement, vous avez le choix entre deux paramètres différents. Il s'agit de Mise à jour sur place et Ajouter uniquement.

Le paramètre par défaut (pour les tables où createdOn est disponible) consiste à effectuer une mise à jour sur place ou une insertion (mise à jour ou insertion) des données incrémentielles dans la destination. Si la modification est nouvelle et qu'une ligne correspondante n'existe pas dans le lac, dans le cas d'une création, les fichiers de destination sont analysés et les modifications sont insérées dans la partition de fichier correspondante dans le lac. Si le changement est une mise à jour et qu'une ligne existe dans le lac, le fichier correspondant dans le lac est mis à jour, plutôt qu'inséré, avec les données incrémentielles. En d'autres termes, le paramètre par défaut pour tous les changements CUD dans les tables Dataverse, où createdOn est disponible, consiste à effectuer une mise à jour sur place dans la destination, dans Azure Data Lake.

Vous pouvez changer le comportement par défaut d'une mise à jour sur place à l'aide d'un paramètre facultatif appelé Ajouter uniquement. Plutôt qu'une Mise à jour sur place, en mode Ajouter uniquement, les données incrémentielles issues des tables Dataverse sont ajoutées à la partition de fichiers correspondante dans le lac. Il s'agit d'un paramètre par table et disponible sous forme de case à cocher sous Avancé\Afficher les paramètres de configuration avancés. Pour les tables Dataverse avec le paramètre Ajouter uniquement activé, toutes les modifications CUD sont ajoutées de manière incrémentielle aux fichiers de destination correspondants dans le lac. Lorsque vous choisissez cette option, la stratégie de partition est définie par défaut sur Année et lorsque les données sont écrites dans le lac de données, elles sont partitionnées par année. Ajouter uniquement est également le paramètre par défaut pour les tables Dataverse qui n'ont pas la valeur createdOn.

Le tableau ci-dessous décrit comment les lignes sont gérées dans le lac par rapport aux événements CUD pour chacune des options d'écriture de données.

Événement Mise à jour sur place Ajouter uniquement
Créer La ligne est insérée dans le fichier de partition et est basée sur la valeur createdOn sur la ligne. La ligne est ajoutée à la fin du fichier de partition et est basée sur la valeur de l'enregistrement createdOn.
Mise à jour Si la ligne existe dans le fichier de partition, elle est remplacée ou mise à jour avec des données mises à jour. Si elle n'existe pas, elle est insérée dans le fichier. La ligne, avec la version mise à jour, est ajoutée à la fin du fichier de partition.
Suppr Si la ligne existe dans le fichier de partition, elle est supprimée du fichier. La ligne est ajoutée à la fin du fichier de partition avec isDeleted column = True.

Notes

Pour les tables Dataverse où Ajouter seulement est activé, la suppression d'une ligne dans la source ne supprimera ni ne retirera la ligne dans le lac. Au lieu de cela, la ligne supprimée est ajoutée en tant que nouvelle ligne dans le lac et la colonne isDeleted est définie sur True.

Voici quelques détails supplémentaires sur l'utilisation de l'une ou l'autre des options.

  • Mise à jour sur place : Il s'agit du paramètre par défaut et recommandé uniquement si vous souhaitez vous connecter directement aux données du lac et que vous avez besoin de l'état actuel (pas d'historique ou de modifications incrémentielles). Le fichier contient le jeu de données complet et peut être utilisé via Power BI ou en copiant l'intégralité des jeux de données pour les pipelines ETL (Extract, Transfer, Load).
  • Ajouter uniquement : Sélectionnez cette option si vous ne vous connectez pas directement aux données du lac et que vous souhaitez copier de manière incrémentielle des données vers une autre cible à l'aide de pipelines ETL. Cette option fournit un historique des modifications pour activer les scénarios AI et ML.

Vous pouvez basculer le paramètre Afficher les paramètres de configuration avancés sous Avancé dans l'exportation vers le lac de données pour personnaliser votre stratégie de partition de données et sélectionner des options pour écrire dans Azure Data Lake.

Afficher les paramètres de configuration avancée

Stratégie de partition de données

Lorsque vous exportez des données de table à partir de Dataverse vers le stockage Azure Data Lake à l'aide de l'exportation vers le lac de données, les tables sont partitionnées (au lieu d'un seul fichier) dans le lac en fonction de la valeur createdOn sur chaque ligne de la source. La stratégie de partition par défaut est par année et les données sont partitionnées dans le lac de données Azure par année.

En fonction du volume de table Dataverse et de la distribution des données, vous pouvez choisir une stratégie de partition plus granulaire pour partitionner vos données par mois. Avec cette option, quand les données de la table Dataverse sont écrites dans Azure Data Lake, elles seront partitionnées mensuellement en fonction de la valeur createdOn sur chaque ligne de la source. Il s'agit d'un paramètre par table qui est disponible sous forme de case à cocher sous Avancé\Afficher les paramètres de configuration avancés.

Détails supplémentaires avec des exemples de la façon dont les données sont gérées dans le lac avec une stratégie de partition annuelle ou mensuelle :

Options de stratégie de partition de données

Transport d’une configuration d’Exporter vers Data Lake entre environnements

Dans Power Apps, les solutions sont utilisées pour transporter des applications et des composants d’un environnement à un autre ou pour appliquer un ensemble de personnalisations à des applications existantes. Pour rendre les configurations d’exportation vers Data Lake compatibles avec les solutions, importez la solution d’exportation vers Data Lake Core dans l’environnement. Cela permet des capacités de base de gestion du cycle de vie des applications (ALM) telles que la distribution, la sauvegarde et la restauration de la configuration de l'exportation vers le lac de données.

Importer la solution Exporter vers Data Lake Core

  1. Sur le portail du créateur Power Apps, sélectionnez l’environnement dans lequel vous souhaitez distribuer la configuration d’Exporter vers Data Lake.
  2. Dans le volet de navigation de gauche, sélectionnez Solutions, sélectionnez Ouvrir AppSource, recherchez la solution nommée Exporter vers Data Lake Core, puis importez la solution.
  3. Répétez les étapes ci-dessus dans l'environnement de destination. Vous avez besoin de la solution Exporter vers Data Lake Core dans les environnements source et de destination.

Ajouter une configuration d’Exporter vers Data Lake à une solution

Important

Avant de pouvoir ajouter une configuration d’Exporter vers Data Lake, vous devez installer la solution Exporter vers Data Lake Core décrite précédemment.

  1. Sur le portail du créateur Power Apps, sélectionnez l’environnement dans lequel vous souhaitez distribuer la configuration d’Exporter vers Data Lake, puis dans le volet de navigation de gauche, sélectionnez Solutions.
  2. Sélectionnez Nouvelle solution, fournissez un nom, sélectionnez un éditeur, puis spécifiez un numéro de version.
  3. Ouvrez la solution que vous avez créée à l’étape précédente, sélectionnez Ajouter existant > Autre > Exporter vers la configuration du lac de données.
  4. Sélectionnez les configurations de lac de données liées que vous souhaitez, puis sélectionnez Ajouter.
  5. Dans la zone Solutions, sélectionnez la solution, dans la barre de commandes, sélectionnez Exporter.
  6. Dans le volet Avant d’exporter, sélectionnez Publier pour publier toutes les modifications avant d’exporter, puis sélectionnez Suivant.

Importer la solution qui contient la configuration d’Exporter vers Data Lake

Dans l’environnement où vous souhaitez importer votre solution, sur le portail du créateur Power Apps dans la zone Solutions, importez la solution.

Vérifier la configuration d’Exporter vers Data Lake

Dans le portail de créateur Power Apps dans l'environnement dans lequel vous avez importé la configuration d'exportation vers Data Lake, vérifiez que vous pouvez voir votre lac de données lié en plus des tables que vous avez transportées depuis votre autre environnement.

Exportation importée vers les tables Data Lake

Quelle est la prochaine étape ?

Après avoir utilisé avec succès le service Exporter vers Data Lake, découvrez comment vous pouvez analyser et consommer vos données avec Hub de découverte. Accéder au Hub de découverte, aller à Power Apps > Exporter vers Data Lake. Sélectionnez votre service lié, puis sélectionnez l’onglet Hub de découverte. Vous trouverez ici des outils recommandés et une documentation organisée pour vous aider à tirer le meilleur parti de vos données. Hub de découverte

Voir aussi

Analyser des données exportées avec Power BI

Ingérer des données exportées avec Azure Data Factory

FAQ sur l’exportation vers Data Lake

Blog : Exportation de données CDS vers Azure Data Lake

Notes

Pouvez-vous nous indiquer vos préférences de langue pour la documentation ? Répondez à un court questionnaire. (veuillez noter que ce questionnaire est en anglais)

Le questionnaire vous prendra environ sept minutes. Aucune donnée personnelle n’est collectée (déclaration de confidentialité).