Démarrage rapide : Créer une fabrique de données à l’aide du portail Azure et d’Azure Data Factory Studio

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Ce guide de démarrage rapide explique comment utiliser l’interface utilisateur d’Azure Data Factory pour créer et surveiller une fabrique de données. Le pipeline que vous créez dans cette fabrique de données copie les données d’un dossier vers un autre dossier dans un stockage Blob Azure. Pour transformer des données à l’aide d’Azure Data Factory, consultez Flux de données de mappage.

Notes

Si vous débutez avec Azure Data Factory, consultez Présentation d’Azure Data Factory avant de commencer ce guide de démarrage rapide.

Prérequis

Abonnement Azure

Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.

Rôles Azure

Pour créer des instances Data Factory, le compte d’utilisateur que vous utilisez pour vous connecter à Azure doit être membre des rôles Contributeur ou Propriétaire, ou administrateur de l’abonnement Azure. Pour voir les autorisations dont vous disposez dans l’abonnement, accédez au portail Azure, sélectionnez votre nom d’utilisateur en haut à droite, sélectionnez l’icône « ... » pour plus d’options, puis sélectionnez Mes autorisations. Si vous avez accès à plusieurs abonnements, sélectionnez l’abonnement approprié.

Les exigences applicables à la création et à la gestion des ressources enfants pour Data Factory (jeux de données, services liés, pipelines, déclencheurs et runtimes d’intégration) sont les suivantes :

  • Pour créer et gérer des ressources enfants dans le Portail Azure, vous devez appartenir au rôle Contributeurs de Data Factory au niveau du groupe de ressources ou à un niveau supérieur.
  • Pour créer et gérer des ressources enfants à l’aide de PowerShell ou du Kit de développement logiciel (SDK), le rôle Contributeur au niveau du groupe de ressources ou à un niveau supérieur est suffisant.

Pour découvrir des exemples d’instructions concernant l’ajout d’un utilisateur à un rôle, consultez l’article décrivant comment ajouter des rôles.

Pour plus d’informations, consultez les articles suivants :

Compte de Stockage Azure

Dans ce guide de démarrage rapide, vous utilisez un compte de Stockage Azure (plus précisément, un compte de Stockage Blob) à usage général à la fois comme magasins de données source et de destination. Si vous ne possédez pas de compte de Stockage Azure à usage général, consultez Créer un compte de stockage pour en créer un.

Obtenir le nom du compte de stockage

Pour ce guide de démarrage rapide, vous avez besoin du nom de votre compte de Stockage Azure. La procédure suivante détaille les étapes à suivre pour obtenir le nom de votre compte de stockage :

  1. Dans un navigateur web, accédez au portail Azure et connectez-vous à l’aide de vos nom d’utilisateur et mot de passe Azure.
  2. Dans le menu Portail Azure, sélectionnez Tous les services, puis sélectionnez Stockage>Comptes de stockage. Vous pouvez également rechercher et sélectionner Comptes de stockage à partir de n’importe quelle page.
  3. Dans la page Comptes de stockage, appliquez un filtre pour votre compte de stockage (si nécessaire), puis sélectionnez votre compte de stockage.

Vous pouvez également rechercher et sélectionner Comptes de stockage à partir de n’importe quelle page.

Création d’un conteneur d’objets blob

Dans cette section, vous allez créer un conteneur d’objets blob nommé adftutorial dans un stockage Blob Azure.

  1. Dans la page du compte de stockage, sélectionnez Présentation>Conteneurs.

  2. Dans la barre d’outils de la page <Nom du compte> - Conteneurs, sélectionnez Conteneur.

  3. Dans la boîte de dialogue Nouveau conteneur, saisissez le nom adftutorial, puis sélectionnez OK. La page <Nom du compte> - Conteneurs est mise à jour pour inclure adftutorial dans la liste des conteneurs.

    List of containers

Ajouter un dossier et un fichier d’entrée pour le conteneur d’objets blob

Dans cette section, vous créez un dossier nommé input (entrée) dans le conteneur que vous avez créé, puis chargez un exemple de fichier dans ce dossier. Avant de commencer, ouvrez un éditeur de texte tel que Bloc-notes, puis créez un fichier nommé emp.txt avec le contenu suivant :

John, Doe
Jane, Doe

Enregistrez-le dans le dossier C:\ADFv2QuickStartPSH (si le dossier n’existe pas, créez-le). Revenez ensuite au portail Azure et procédez comme suit :

  1. Dans la page <Nom du compte> - Conteneurs, là où vous vous êtes arrêté, sélectionnez adftutorial dans la liste mise à jour des conteneurs.

    1. Si vous avez fermé la fenêtre ou accédé à une autre page, connectez-vous au Portail Azure à nouveau.
    2. Dans le menu Portail Azure, sélectionnez Tous les services, puis sélectionnez Stockage>Comptes de stockage. Vous pouvez également rechercher et sélectionner Comptes de stockage à partir de n’importe quelle page.
    3. Sélectionnez votre compte de stockage, puis sélectionnez Conteneurs>adftutorial.
  2. Dans la barre d’outils de la page du conteneur adftutorial, sélectionnez Charger.

  3. Dans la page Charger l’objet blob, sélectionnez la zone Fichiers, puis recherchez et sélectionnez le fichier emp.txt.

  4. Développez le titre Avancé. La page s’affiche à présent comme indiqué :

    Select Advanced link

  5. Dans la zone Charger dans le dossier, entrez input.

  6. Cliquez sur le bouton Charger. Vous devriez voir le fichier emp.txt et l’état du chargement dans la liste.

  7. Sélectionnez l’icône Fermer (X) pour fermer la page Charger l’objet blob.

Laissez la page du conteneur adftutorial ouverte. Vous l’utiliserez pour vérifier la sortie à la fin de ce guide de démarrage rapide.

Vidéo

Regardez cette vidéo pour comprendre l’interface de fabrique de Data Factory :

Créer une fabrique de données

  1. Lancez le navigateur web Microsoft Edge ou Google Chrome. L’interface utilisateur de Data Factory n’est actuellement prise en charge que par les navigateurs web Microsoft Edge et Google Chrome.

  2. Accédez au portail Azure.

  3. Dans le menu du Portail Azure, sélectionnez Créer une ressource.

  4. Sélectionnez Intégration, puis Data Factory.

    Data Factory selection in the New pane.

  5. Dans la page Créer une fabrique de données, sous l’onglet De base, sélectionnez l’Abonnement Azure dans lequel vous voulez créer la fabrique de données.

  6. Pour Groupe de ressources, réalisez l’une des opérations suivantes :

    a. Sélectionnez un groupe de ressources existant dans la liste déroulante.

    b. Sélectionnez Créer, puis entrez le nom d’un nouveau groupe de ressources.

    Pour plus d’informations sur les groupes de ressources, consultez Utilisation des groupes de ressources pour gérer vos ressources Azure.

  7. Pour Région, sélectionnez l’emplacement de la fabrique de données.

    La liste n’affiche que les emplacements pris en charge par Data Factory et où vos métadonnées Azure Data Factory sont stockées. Les magasins de données associés (tels que Stockage Azure et Azure SQL Database) et les services de calcul (comme Azure HDInsight) utilisés par Data Factory peuvent s’exécuter dans d’autres régions.

  8. Pour Nom, entrez ADFTutorialDataFactory. Le nom de la fabrique de données Azure doit être un nom global unique. Si l’erreur suivante s’affiche, changez le nom de la fabrique de données (par exemple, <votrenom>ADFTutorialDataFactory), puis tentez de la recréer. Consultez l’article Data Factory - Règles d’affectation des noms pour en savoir plus sur les règles d’affectation des noms d’artefacts Data Factory.

    New data factory error message for duplicate name.

  9. Pour Version, sélectionnez V2.

  10. Sélectionnez Suivant : Configuration Git, puis cochez la case Configurer Git plus tard.

  11. Sélectionnez Vérifier + créer, puis sélectionnez Créer une fois la validation passée. Une fois la ressource créée, sélectionnez Accéder à la ressource pour ouvrir la page Data Factory.

  12. Sélectionnez Ouvrir dans la vignette Ouvrir Azure Data Factory Studio pour démarrer l’interface utilisateur d’Azure Data Factory dans un onglet de navigateur distinct.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

    Notes

    Si vous constatez que le navigateur web est bloqué à l’étape « Autorisation », décochez la case Bloquer les cookies et les données de site tiers. Sinon, gardez-la cochée, créez une exception pour login.microsoftonline.com, puis réessayez d’ouvrir l’application.

Créer un service lié

Dans cette procédure, vous créez un service lié qui associe votre compte de Stockage Azure à la fabrique de données. Le service lié comporte les informations de connexion utilisées par le service Data Factory lors de l’exécution pour s’y connecter.

  1. Sur la page de l’interface utilisateur Azure Data Factory, ouvrez l’onglet Gérer dans le volet gauche.

  2. Dans la page Services liés, sélectionnez + Nouveau pour créer un service lié.

    New linked service.

  3. Dans la page Nouveau service lié, sélectionnez Stockage Blob Azure, puis cliquez sur Continuer.

  4. Dans la page New Linked Service (Azure Blob Storage) (Nouveau service lié (Stockage Blob Azure)), procédez comme suit :

    a. Pour le Nom, entrez AzureStorageLinkedService.

    b. Pour Nom du compte de stockage, sélectionnez le nom de votre compte de Stockage Azure.

    c. Cliquez sur Tester la connexion pour confirmer que le service Data Factory peut se connecter au compte de stockage.

    d. Sélectionnez Créer pour enregistrer le service lié.

    Linked service.

Créez les jeux de données

Dans cette procédure, vous créez deux jeux de données : InputDataset et OutputDataset. Ces jeux de données sont de type AzureBlob. Ils font référence au service lié Stockage Azure que vous avez créé dans la section précédente.

Le jeu de données d’entrée représente les données sources dans le dossier d’entrée. Dans la définition du jeu de données d’entrée, vous spécifiez le conteneur d’objets Blob (adftutorial), le dossier (input) et le fichier (emp.txt) qui contient la source de données.

Le jeu de données de sortie représente les données qui sont copiées vers la destination. Dans la définition du jeu de données de sortie, vous spécifiez le conteneur d’objets Blob (adftutorial), le dossier (output) et le fichier dans lequel les données sont copiées. Chaque exécution d’un pipeline possède un ID unique associé. Vous pouvez accéder à cet ID à l’aide de la variable système RunId. Le nom du fichier de sortie est évalué dynamiquement en fonction de l’ID d’exécution du pipeline.

Dans les paramètres du service lié, vous avez spécifié le compte de Stockage Azure qui contient les données sources. Dans les paramètres de jeu de données source, vous spécifiez où se trouvent exactement les données sources (conteneur d’objets Blob, dossier et fichier). Dans les paramètres de jeu de données récepteur, vous spécifiez où les données sont copiées (conteneur d’objets Blob, dossier et fichier).

  1. Sélectionnez l’onglet Créer dans le volet gauche.

  2. Cliquez sur le bouton + (plus), puis sélectionnez Jeu de données.

    Menu for creating a dataset.

  3. Dans la page Nouveau jeu de données, sélectionnez Stockage Blob Azure, puis Continuer.

  4. Dans la page Sélectionner le format, choisissez le type de format de vos données, puis sélectionnez Continuer. Dans ce cas, sélectionnez Binaire lorsque la copie s’effectue en l’état sans analyser le contenu.

    Select format.

  5. Dans la page Définir les propriétés, effectuez les étapes suivantes :

    a. Sous Nom, entrez InputDataset.

    b. Pour le Service lié, sélectionnez AzureStorageLinkedService.

    c. Pour le Chemin d’accès, sélectionnez le bouton Parcourir.

    d. Dans la fenêtre Choisir un fichier ou dossier, accédez au dossier d’entrée dans le conteneur adftutorial, sélectionnez le fichier emp.txt, puis sélectionnez OK.

    e. Sélectionnez OK.

    Set properties for InputDataset.

  6. Répétez les étapes pour créer le jeu de données de sortie :

    a. Cliquez sur le bouton + (plus), puis sélectionnez Jeu de données.

    b. Dans la page Nouveau jeu de données, sélectionnez Stockage Blob Azure, puis Continuer.

    c. Dans la page Sélectionner le format, choisissez le type de format de vos données, puis sélectionnez Continuer.

    d. Dans la page Définir des propriétés, spécifiez OutputDataset comme nom. Sélectionnez AzureStorageLinkedService comme service lié.

    e. Sous Chemin d’accès au fichier, entrez adftutorial/output. Si le dossier Sortie n’existe pas, il est créé lors de l’exécution de l’activité de copie.

    f. Sélectionnez OK.

    Set properties for OutputDataset.

Créer un pipeline

Dans cette procédure, vous créez et validez un pipeline avec une activité de copie qui utilise les jeux de données d’entrée et de sortie. L’activité de copie copie les données du fichier que vous avez spécifié dans les paramètres du jeu de données d’entrée dans le fichier que vous avez spécifié dans les paramètres du jeu de données de sortie. Si le jeu de données d’entrée ne spécifie qu’un dossier (et pas le nom de fichier), l’activité de copie copie tous les fichiers dans le dossier source vers la destination.

  1. Cliquez sur le bouton + (plus), puis sélectionnez Pipeline.

  2. Dans le panneau Général, sous Propriétés, spécifiez CopyPipeline comme Nom. Réduisez ensuite le panneau en cliquant sur l’icône Propriétés en haut à droite.

  3. Dans la boîte à outils Activités, développez Move & Transform (Déplacer et transformer). Faites glisser l’activité Copier des données depuis la boîte à outils Activités vers la surface du concepteur de pipeline. Vous pouvez également rechercher des activités dans la boîte à outils Activités. Spécifiez CopyFromBlobToBlob pour le Nom.

    Creating a copy data activity.

  4. Basculez vers l’onglet Source dans les paramètres de l’activité de copie et sélectionnez InputDataset pour le Jeu de données source.

  5. Basculez vers l’onglet Récepteur dans les paramètres de l’activité de copie et sélectionnez OutputDataset pour le Jeu de données récepteur.

  6. Pour valider les paramètres du pipeline, cliquez sur Valider sur la barre d’outils pour le pipeline au-dessus du canevas. Vérifiez que le pipeline a été validé avec succès. Pour fermer la sortie de validation, sélectionnez le bouton Validation dans le coin supérieur droit.

    Validate a pipeline.

Déboguer le pipeline

Dans cette étape, vous déboguez le pipeline avant de le déployer vers Data Factory.

  1. Sur la barre d’outils du pipeline au-dessus du canevas, cliquez sur Déboguer pour déclencher une série de tests.

  2. Vérifiez que vous voyez l’état de l’exécution du pipeline dans l’onglet Sortie des paramètres du pipeline.

    Pipeline run output

  3. Vérifiez qu’un fichier de sortie apparaît bien dans le dossier de sortie du conteneur adftutorial. Si le dossier de sortie n’existe pas, le service Data Factory le crée automatiquement.

Déclencher le pipeline manuellement

Dans cette procédure, vous déployez des entités (services liés, jeux de données, pipelines) vers Azure Data Factory. Vous déclenchez ensuite manuellement une exécution du pipeline.

  1. Avant de déclencher un pipeline, vous devez publier des entités dans Data Factory. Pour les publier, sélectionnez Publier tout dans la partie supérieure.

    Publish all.

  2. Pour déclencher le pipeline manuellement, sélectionnez Ajouter un déclencheur dans la barre d’outils du pipeline, puis sélectionnez Déclencher maintenant. Dans la page Exécution de pipeline, sélectionnez OK.

Surveiller le pipeline

  1. Basculez vers l’onglet Surveiller sur la gauche. Utilisez le bouton Actualiser pour actualiser la liste.

    Tab for monitoring pipeline runs

  2. Sélectionnez le lien CopyPipeline pour voir l’état d’exécution de l’activité de copie dans cette page.

  3. Pour afficher les détails de l’opération de copie, sélectionnez le lien Détails (image en forme de lunettes). Pour plus d’informations sur les propriétés, consultez Vue d’ensemble de l’activité de copie.

    Copy operation details.

  4. Vérifiez qu’un nouveau fichier apparaît bien dans le dossier de sortie.

  5. Vous pouvez revenir à la vue Exécutions du pipeline à partir de la vue Exécutions d’activités en sélectionnant le lien Toutes les exécutions de pipelines.

Déclencher le pipeline selon une planification

Cette procédure est facultative dans ce didacticiel. Vous pouvez créer un déclencheur par planificateur afin de planifier une exécution périodique du pipeline (toutes les heures, tous les jours, etc.). Dans cette procédure, vous créez un déclencheur qui doit s’exécuter toutes les minutes jusqu’à la date et l’heure de fin que vous spécifiez.

  1. Passez à l’onglet Auteur.

  2. Accédez à votre pipeline, sélectionnez Ajouter un déclencheur dans la barre d’outils du pipeline, puis Nouveau/Modifier.

  3. Sur la page Ajouter des déclencheurs, sélectionnez Choisir un déclencheur, puis Nouveau.

  4. Dans la page Nouveau déclencheur, sous Fin, sélectionnez On Date (À la date), spécifiez une heure de fin quelques minutes après l’heure actuelle, puis sélectionnez OK.

    Un coût est associé à chaque exécution du pipeline, vous devez donc spécifier l’heure de fin quelques minutes seulement après l’heure de début. Vérifiez qu’elle est le même jour. Toutefois, vérifiez que la durée est suffisante entre l’heure de publication et l’heure de fin pour permettre l’exécution du pipeline. Le déclencheur ne s’applique que lorsque vous avez publié la solution dans Data Factory, et non lorsque vous enregistrez le déclencheur dans l’interface utilisateur.

  5. Dans la page Nouveau déclencheur, cochez la case Activé, puis sélectionnez OK.

    New Trigger setting.

  6. Lisez le message d’avertissement, puis sélectionnez OK.

  7. Sélectionnez Publier tout pour publier les changements sur Data Factory.

  8. Basculez vers l’onglet Surveiller sur la gauche. Sélectionnez Actualiser pour actualiser la liste. Vous voyez que le pipeline s’exécute toutes les minutes entre l’heure de publication et l’heure de fin.

    Notez les valeurs contenues dans la colonne TRIGGERED BY (DÉCLENCHÉ PAR). L’exécution manuelle du déclencheur était celle de l’étape précédente (Déclencher maintenant).

  9. Passez à la vue Exécutions du déclencheur.

  10. Vérifiez qu’un fichier de sortie est créé pour chaque exécution du pipeline jusqu’à la date/heure de fin spécifiée dans le dossier de sortie.

Étapes suivantes

Dans cet exemple, le pipeline copie les données d’un emplacement vers un autre dans un stockage Blob Azure. Pour en savoir plus sur l’utilisation de Data Factory dans d’autres scénarios, consultez les didacticiels.