Capturer des données modifiées d’Azure Data Lake Storage Gen2 vers Azure SQL Database à l’aide d’une ressource de capture des changements de données

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

Dans cet article, vous utilisez l’interface utilisateur Azure Data Factory pour créer une ressource de capture des changements de données (CDC). La ressource récupère les données modifiées d’une source Azure Data Lake Storage Gen2 et les ajoute à Azure SQL Database en temps réel.

Dans cet article, vous apprendrez comment :

  • Créez une ressource CDC.
  • Surveillez l’activité CDC.

Vous pouvez modifier et développer le modèle de configuration contenu dans cet article.

Prérequis

Avant de démarrer les procédures décrites dans cet article, vérifiez que vous disposez de ces ressources :

  • Abonnement Azure. Si vous n’avez pas encore d’abonnement Azure, créez un compte Azure gratuit.
  • Base de données SQL. Vous utilisez une instance Azure SQL Database comme magasin de données source. Si vous n’avez pas de base de données SQL, créez-en une dans le portail Azure.
  • Compte de stockage. Vous utilisez Delta Lake stocké dans Azure Data Lake Storage Gen2 comme magasin de données cible. Si vous ne possédez pas de compte de stockage, consultez l’article Créer un compte de stockage pour découvrir comment en créer un.

Créer un artefact CDC

  1. Accédez au volet Auteur dans votre fabrique de données. Sous Pipelines, un nouvel artefact de niveau supérieur s’affiche, appelé Capture des changements de données (préversion).

    Screenshot of a new top-level artifact for change data capture on the Factory Resources pane.

  2. Pointez sur Capture des changements de données (préversion) jusqu’à ce que trois points apparaissent. Sélectionnez ensuite Actions de capture des changements de données (préversion).

    Screenshot of the button for change data capture actions appearing over the new top-level artifact.

  3. Sélectionnez Nouvelle capture des changements de données (préversion). Cette étape ouvre un menu volant permettant de démarrer le processus guidé.

    Screenshot of a list of change data capture actions.

  4. Vous êtes invité à nommer votre ressource CDC. Par défaut, le nom est « adfcdc » avec un nombre incrémenté de 1. Vous pouvez remplacer ce nom par défaut par un nom de votre choix.

    Screenshot of the text box to update the name of a resource.

  5. Utilisez la liste déroulante pour choisir votre source de données. Pour cet article, sélectionnez DelimitedText.

    Screenshot of the guided process flyout with source options in a dropdown list.

  6. Vous êtes invité à sélectionner un service lié. Créez un service lié ou sélectionnez-en un existant.

    Screenshot of the box to choose or create a linked service.

  7. Utilisez la zone Paramètres de la source pour définir de manière facultative des configurations avancées de la source, telles que des délimiteurs de colonnes et de lignes.

    Screenshot of advanced source settings to set delimiters.

    Si vous ne modifiez pas manuellement ces paramètres de source, ils sont définis sur les valeurs par défaut.

  8. Utilisez le bouton Parcourir pour sélectionner votre dossier de données sources.

    Screenshot of a folder icon to browse for a folder path.

  9. Après avoir sélectionné un chemin de dossier, sélectionnez Continuer pour définir votre cible de données.

    Screenshot of the Continue button in the guided process to select data targets.

    Vous pouvez choisir d’ajouter plusieurs dossiers sources en utilisant le bouton plus (+). Les autres sources doivent également utiliser le service lié que vous avez déjà sélectionné.

  10. Sélectionnez une valeur de Type cible à l’aide de la liste déroulante. Pour cet article, sélectionnez Azure SQL Database.

    Screenshot of a dropdown menu of all data target types.

  11. Vous êtes invité à sélectionner un service lié. Créez un service lié ou sélectionnez-en un existant.

    Screenshot of the box to choose or create a linked service to your data target.

  12. Pour Tables cibles, vous pouvez créer une table cible ou en sélectionner une existante :

    • Pour créer une table cible, sélectionnez l’onglet Nouvelles entités, puis sélectionnez Modifier les nouvelles tables.

      Screenshot of the tab to create new tables for your target.

    • Pour sélectionner une table existante, sélectionnez l’onglet Entités existantes, puis utilisez la case à cocher pour choisir une table. Utilisez le bouton Aperçu pour afficher votre table de données.

      Screenshot of the tab to choose tables for your target.

    Si les tables existantes sur la cible ont des noms correspondants, elles sont sélectionnées par défaut sous Entités existantes. Si ce n’est pas le cas, des tables portant des noms correspondants sont créées sous Nouvelles entités. En outre, vous pouvez modifier de nouvelles tables à l’aide du bouton Modifier de nouvelles tables.

  13. Vous pouvez utiliser les cases à cocher pour choisir plusieurs tables cibles dans votre base de données SQL. Après avoir terminé de choisir les tables cibles, sélectionnez Continuer.

    Screenshot of the Continue button in the guided process to proceed to the next step.

  14. Un nouvel onglet de capture des changements de données s’affiche. Cet onglet est le studio CDC, où vous pouvez configurer votre nouvelle ressource.

    Screenshot of the change data capture studio.

    Un mappage est créé automatiquement pour vous. Vous pouvez mettre à jour les sélections Table source et Table cible de votre mappage à l’aide de listes déroulantes.

    Screenshot of the source-to-target mapping in the change data capture studio.

  15. Après avoir sélectionné vos tables, leurs colonnes sont mappées par défaut avec le bouton bascule Mappage automatique activé. Cette fonction mappe automatiquement les colonnes par nom dans le récepteur, récupère les nouvelles modifications de colonne lorsque le schéma source évolue et transmet ces informations aux types de récepteurs pris en charge.

    Si vous souhaitez utiliser le mappage automatique et ne pas modifier les mappages de colonnes, passez directement à l’étape 18.

    Screenshot of the toggle for automatic mapping turned on.

    Si vous souhaitez activer les mappages de colonnes, sélectionnez les mappages et désactivez le bouton de mappage automatique. Sélectionnez ensuite le bouton Mappages de colonnes pour afficher les mappages.

    Screenshot of mapping selection, the toggle for automatic mapping turned off, and the button for column mappings.

    Vous pouvez revenir au mappage automatique à tout moment en activant le bouton de mappage automatique.

  16. Affichez vos mappages de colonnes. Utilisez les listes déroulantes afin de modifier vos mappages de colonnes pour Méthode de mappage, Colonne source et Colonne cible.

    Screenshot of the page for editing column mappings.

    À partir de cette page, vous pouvez :

    • Ajoutez des mappages de colonnes supplémentaires à l’aide du bouton Nouveau mappage. Utilisez les listes déroulantes afin de sélectionner Méthode de mappage, Colonne source et Colonne cible.
    • Sélectionnez la colonne Clés si vous souhaitez suivre l’opération de suppression pour les types de récepteurs pris en charge.
    • Sélectionnez le bouton Actualiser sous Aperçu des données pour visualiser l’aspect des données sur la cible.

    Screenshot of the button for adding column mappings, the dropdown list for mapping methods, the Keys column, and the Refresh button.

  17. Lorsque votre mappage est terminé, sélectionnez la flèche pour revenir au canevas CDC principal.

    Screenshot of the button to go back to the table mapping page.

  18. Vous pouvez ajouter des mappages entre source et cible supplémentaires dans un artefact CDC. Utilisez le bouton Modifier pour ajouter des sources et cibles de données. Sélectionnez ensuite Nouveau mappage et utilisez les listes déroulantes pour définir une source et une cible supplémentaires. Vous pouvez activer ou désactiver le mappage automatique pour chacun de ces mappages, indépendamment.

    Screenshot of the button to add new sources and the button to set a new source-to-target mapping.

  19. Après avoir réalisé vos mappages, définissez la latence CDC à l’aide du bouton Définir la latence.

    Screenshot of the Set Latency button at the top of the canvas.

  20. Sélectionnez la latence de votre CDC, puis sélectionnez Appliquer pour apporter les modifications.

    Par défaut, la latence est définie sur 15 minutes. L’exemple de cet article utilise l’option Temps réel pour la latence. La latence en temps réel récupère en continu les modifications de vos données sources selon un intervalle inférieur à 1 minute.

    Pour d’autres latences (par exemple, si vous sélectionnez 15 minutes), votre capture des changements de données traitera vos données sources et récupérera toutes les données modifiées depuis le dernier traitement effectué.

    Screenshot of the options for setting latency.

    Remarque

    Si la prise en charge est étendue à l’intégration de données en diffusion en continu (sources de données Azure Event Hubs et Kafka), la latence est définie par défaut sur Temps réel.

  21. Après avoir terminé la configuration de votre CDC, sélectionnez Publier tout pour publier vos modifications.

    Screenshot of the publish button at the top of the canvas.

    Remarque

    Si vous ne publiez pas vos modifications, vous ne pourrez pas démarrer votre ressource CDC. Le bouton Démarrer de l’étape suivante ne sera pas disponible.

  22. Sélectionnez Démarrer pour lancer l’exécution de votre capture des changements de données.

    Screenshot of the Start button at the top of the canvas.

Surveiller votre capture des changements de données

  1. Ouvrez le volet Surveiller à l’aide de l’une des méthodes suivantes :

    • Sélectionnez Surveiller dans le Portail Azure.

      Screenshot of the Monitor button in the Azure portal.

    • Sélectionnez l’icône de surveillance dans le concepteur du CDC.

      Screenshot of the monitoring icon at the top of the CDC canvas.

  2. Sélectionnez Capture des changements de données (préversion) pour afficher vos ressources CDC.

    Screenshot of the Change Data Capture button.

    Le volet Capture des modifications de données affiche les informations Source, Cible, État et Dernier traitement relatives à votre capture des changements de données.

    Screenshot of an overview of the change data capture monitoring page.

  3. Sélectionnez le nom de votre ressource CDC pour afficher plus d’informations. Vous pouvez voir le nombre de modifications (insertions, mises à jour, suppressions) lues et écrites, ainsi que d’autres informations de diagnostic.

    Screenshot of the detailed monitoring of a selected change data capture.

    Si vous définissez plusieurs mappages dans votre capture des changements de données, chaque mappage s’affiche dans une couleur différente. Cliquez sur la barre pour afficher des détails spécifiques de chaque mappage, ou utilisez les informations de diagnostics en bas du volet.

    Screenshot of the detailed monitoring information for a change data capture with multiple source-to-target mappings.

    Screenshot of a detailed breakdown of each mapping in a change data capture artifact.