Share via


Ingérer des données dans votre entrepôt à l'aide de pipelines de données

S'applique à : Entrepôt dans Microsoft Fabric

Les pipelines de données offrent une alternative à l’utilisation de la commande COPY via une interface graphique utilisateur. Un pipeline de données constitue un regroupement logique d’activités qui exécutent ensemble une tâche d’ingestion des données. Les pipelines vous permettent de gérer les activités d’extraction, de transformation et de chargement (ETL) au lieu de les gérer individuellement.

Dans ce tutoriel, vous allez créer un pipeline qui charge des exemples de données dans un entrepôt dans Microsoft Fabric.

Remarque

Certaines fonctionnalités d’Azure Data Factory ne sont pas disponibles dans Microsoft Fabric, mais les concepts sont interchangeables. Vous pouvez en savoir plus sur Azure Data Factory et les pipelines en consultant Pipelines et activités dans Azure Data Factory et Azure Synapse Analytics. Pour obtenir un guide de démarrage rapide, consultez Démarrage rapide : créer votre premier pipeline pour copier des données.

Créer un pipeline de données

  1. Pour créer un pipeline, accédez à votre espace de travail, sélectionnez le bouton +Nouveau, puis Pipeline de données. Capture d’écran de la section supérieure de l’espace de travail de l’utilisateur montrant le bouton Nouveau, avec les options Entrepôt, Pipeline de données et Afficher tout.

  2. Dans la boîte de dialogue Nouveau pipeline, indiquez un nom pour votre nouveau pipeline, puis sélectionnez Créer.

  3. Vous allez arriver dans la zone de canevas du pipeline, où vous voyez trois options pour commencer : Ajouter une activité de pipeline, Copier des données et Choisir une tâche à démarrer.

    Capture d’écran des trois options à sélectionner pour démarrer l’ingestion.

    Chacune de ces options offre différentes alternatives pour créer un pipeline :

    • Ajouter une activité de pipeline : cette option lance l’éditeur de pipeline, où vous pouvez créer des pipelines à partir de zéro à l’aide d’activités de pipeline.
    • Copier des données : cette option lance un assistant pas à pas qui vous permet de sélectionner une source de données et une destination, et de configurer des options de chargement de données telles que les mappages de colonnes. Une fois l’opération terminée, elle crée une activité de pipeline avec une tâche Copier des données déjà configurée pour vous.
    • Choisir une tâche à démarrer : cette option lance un ensemble de modèles prédéfinis pour vous aider à prendre en main les pipelines en fonction de différents scénarios.

    Sélectionnez l’option Copier des données pour lancer l’assistant de copie.

  4. La première page de l’assistant Copier des données vous permet de choisir vos propres données à partir de différentes sources de données, ou de sélectionner l’un des exemples fournis pour commencer. Pour ce tutoriel, nous allons utiliser l’échantillon COVID-19 Data Lake. Sélectionnez cette option, puis Suivant.

    Capture d’écran des choix disponibles pour utiliser des exemples de données ou d’autres sources de données.

  5. Dans la page suivante, vous pouvez sélectionner un jeu de données, le format de fichier source et afficher un aperçu du jeu de données sélectionné. Sélectionnez Bing COVID-19, le format CSV, puis sélectionnez suivant.

    Capture d’écran des différentes options de jeu de données pour l’échantillon COVID-19, les formats de fichier et une grille affichant un aperçu des données.

  6. La page suivante, Destination des données, vous permet de configurer le type l’espace de travail de destination. Nous allons charger des données dans un entrepôt de notre espace de travail. Sélectionnez donc l’onglet Entrepôt et l’option Entrepôt de données. Cliquez sur Suivant.

    Capture d’écran des différentes options de destination.

  7. Il est maintenant temps de choisir l’entrepôt dans lequel charger les données. Sélectionnez l’entrepôt souhaité dans la liste déroulante, puis Suivant.

    Capture d’écran d’une liste déroulante avec un entrepôt sélectionné.

  8. La dernière étape pour configurer la destination consiste à fournir un nom à la table de destination et à configurer les mappages de colonnes. Ici, vous pouvez choisir de charger les données dans une nouvelle table ou dans une table existante, fournir un schéma et des noms de table, modifier les noms de colonnes, supprimer des colonnes ou modifier leurs mappages. Vous pouvez accepter les valeurs par défaut ou ajuster les paramètres selon votre préférence.

    Capture d’écran des options de chargement de données dans une table existante ou de création d’une table.

    Lorsque vous avez terminé d’examiner les options, sélectionnez Suivant.

  9. La page suivante vous donne la possibilité d’utiliser la préproduction ou de fournir des options avancées pour l’opération de copie de données (qui utilise la commande T-SQL COPY). Passez en revue les options sans les modifier, puis sélectionnez Suivant.

  10. La dernière page de l’assistant propose un résumé de l’activité de copie. Sélectionnez l’option Démarrer le transfert de données immédiatement, puis sélectionnez Enregistrer + Exécuter.

    Capture d’écran de l’option permettant de démarrer immédiatement le transfert de données et les boutons Retour et Enregistrer + Exécuter.

  11. Vous êtes dirigé vers la zone de canevas du pipeline, où une nouvelle activité Copier des données est déjà configurée pour vous. Le pipeline commence à s’exécuter automatiquement. Vous pouvez superviser l’état de votre pipeline dans le volet Sortie :

    Capture d’écran du canevas de pipeline avec une activité Copy au centre, et l’état d’exécution du pipeline indiquant l’état actuel En cours.

  12. Après quelques secondes, votre pipeline se termine. Revenez à votre entrepôt. Vous pouvez sélectionner votre table pour afficher un aperçu des données et confirmer que l’opération de copie s’est terminée.

    Capture d’écran d’un entrepôt avec la table bing_covid_19 sélectionnée et une grille affichant un aperçu des données de la table.

Pour plus d’informations sur l’ingestion de données dans votre entrepôt dans Microsoft Fabric, consultez :

Étape suivante