Charger des données dans Azure Data Lake Storage Gen2 avec Azure Data FactoryLoad data into Azure Data Lake Storage Gen2 with Azure Data Factory

S’APPLIQUE À : ouiAzure Data Factory nonAzure Synapse Analytics (préversion) APPLIES TO: yesAzure Data Factory noAzure Synapse Analytics (Preview)

Azure Data Lake Storage Gen2 est un ensemble de fonctionnalités dédiées à l'analytique du Big Data et intégrées au service Stockage Blob Azure.Azure Data Lake Storage Gen2 is a set of capabilities dedicated to big data analytics, built into Azure Blob storage. Il vous permet d’interagir avec vos données selon les deux paradigmes que sont le système de fichiers et le stockage d’objets.It allows you to interface with your data using both file system and object storage paradigms.

Azure Data Factory (ADF) est un service d’intégration de données informatiques complètement managé.Azure Data Factory (ADF) is a fully managed cloud-based data integration service. Vous pouvez utiliser le service pour remplir le lac avec des données provenant d’un ensemble étendu de banques de données locales et cloud lors de la création de vos solutions d’analytique.You can use the service to populate the lake with data from a rich set of on-premises and cloud-based data stores and save time when building your analytics solutions. Pour une liste détaillée des connecteurs pris en charge, consultez le tableau de Banques de données prises en charge.For a detailed list of supported connectors, see the table of Supported data stores.

Azure Data Factory offre une solution de déplacement des données managées qui est évolutive.Azure Data Factory offers a scale-out, managed data movement solution. En raison de l’architecture évolutive d’Azure Data Factory elle peut ingérer des données à un débit élevé.Due to the scale-out architecture of ADF, it can ingest data at a high throughput. Pour en savoir plus, voir Performances de l’activité de copie.For details, see Copy activity performance.

Cet article vous explique comment utiliser l’outil de copie de données de Data Factory pour charger des données depuis le service ’Amazon Web Services S3 dans Azure Data Lake Store Gen2.This article shows you how to use the Data Factory Copy Data tool to load data from Amazon Web Services S3 service into Azure Data Lake Storage Gen2. Vous pouvez procéder de même pour copier des données à partir d’autres types de banques de données.You can follow similar steps to copy data from other types of data stores.

Conseil

Pour copier des données à partir d’Azure Data Lake Storage Gen1 dans Gen2, reportez-vous à cette procédure pas à pas spécifique.For copying data from Azure Data Lake Storage Gen1 into Gen2, refer to this specific walkthrough.

PrérequisPrerequisites

  • Abonnement Azure : Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.Azure subscription: If you don't have an Azure subscription, create a free account before you begin.
  • Compte de stockage Azure avec Data Lake Storage Gen2 activé : Si vous n’avez pas de compte de stockage, créez-en un.Azure Storage account with Data Lake Storage Gen2 enabled: If you don't have a Storage account, create an account.
  • Compte AWS avec un compartiment S3 qui contient des données : Cet article explique comment copier des données à partir d’Amazon S3.AWS account with an S3 bucket that contains data: This article shows how to copy data from Amazon S3. Vous pouvez utiliser d’autres magasins de données en procédant de la même façon.You can use other data stores by following similar steps.

Créer une fabrique de donnéesCreate a data factory

  1. Dans le menu de gauche, sélectionnez Créer une ressource > Données + Analytique > Data Factory :On the left menu, select Create a resource > Data + Analytics > Data Factory:

    Sélection Data Factory dans le volet « Nouveau »

  2. Sur la page Nouvelle fabrique de données, fournissez les valeurs des champs suivants :In the New data factory page, provide values for following fields:

    • Name : Entrez un nom global unique pour votre fabrique de données Azure.Name: Enter a globally unique name for your Azure data factory. Si l’erreur « Le nom de fabrique de données NomDeVotreFabriqueDeDonnées n’est pas disponible » apparaît, saisissez un autre nom pour la fabrique de données.If you receive the error "Data factory name YourDataFactoryName is not available", enter a different name for the data factory. Par exemple, utilisez le nom votrenomADFTutorialDataFactory.For example, you could use the name yournameADFTutorialDataFactory. Essayez à nouveau de créer la fabrique de données.Try creating the data factory again. Pour savoir comment nommer les artefacts Data Factory, voir Data Factory - Règles d’affectation des noms.For the naming rules for Data Factory artifacts, see Data Factory naming rules.
    • Abonnement: Sélectionnez l’abonnement Azure dans lequel créer la fabrique de données.Subscription: Select your Azure subscription in which to create the data factory.
    • Groupe de ressources : Sélectionnez un groupe de ressources existant dans la liste déroulante ou sélectionnez l’option Créer et entrez le nom d’un groupe de ressources.Resource Group: Select an existing resource group from the drop-down list, or select the Create new option and enter the name of a resource group. Pour plus d’informations sur les groupes de ressources, consultez Utilisation des groupes de ressources pour gérer vos ressources Azure.To learn about resource groups, see Using resource groups to manage your Azure resources.
    • Version : Sélectionnez V2.Version: Select V2.
    • Emplacement : Sélectionnez l’emplacement de la fabrique de données.Location: Select the location for the data factory. Seuls les emplacements pris en charge sont affichés dans la liste déroulante.Only supported locations are displayed in the drop-down list. Les magasins de données utilisés par la fabrique de données peuvent se trouver dans d’autres emplacements et régions.The data stores that are used by data factory can be in other locations and regions.
  3. Sélectionnez Create (Créer).Select Create.

  4. Une fois la création terminée, accédez à votre fabrique de données.After creation is complete, go to your data factory. La page d’accueil Data Factory devrait s’afficher comme dans l’image suivante :You see the Data Factory home page as shown in the following image:

    Page d’accueil Data Factory

    Sélectionnez la vignette Créer et surveiller pour lancer l’application d’intégration de données dans un onglet séparé.Select the Author & Monitor tile to launch the Data Integration Application in a separate tab.

Charger des données dans Azure Data Lake Storage Gen2Load data into Azure Data Lake Storage Gen2

  1. Dans la page Prise en main, sélectionnez la vignette Copier les données pour démarrer l’outil Copier les données.In the Get started page, select the Copy Data tile to launch the Copy Data tool.

  2. Dans la page Propriétés, spécifiez CopyFromAmazonS3ToADLS dans le champ Nom de tâche, puis cliquez sur Suivant.In the Properties page, specify CopyFromAmazonS3ToADLS for the Task name field, and select Next.

    Page Propriétés

  3. Dans la page Banque de données sources, cliquez sur + Créer une connexion.In the Source data store page, click + Create new connection. Sélectionnez Amazon S3 dans la galerie des connecteurs, puis sélectionnez Continuer.Select Amazon S3 from the connector gallery, and select Continue.

    Page Banque de données sources s3

  4. Dans la page Nouveau service lié (Amazon S3) , procédez comme suit :In the New linked service (Amazon S3) page, do the following steps:

    1. Spécifiez la valeur du champ ID de clé d’accès.Specify the Access Key ID value.

    2. Spécifiez la valeur Clé d’accès secrète.Specify the Secret Access Key value.

    3. Cliquez sur Tester la connexion pour vérifier les paramètres, puis sélectionnez Créer.Click Test connection to validate the settings, then select Create.

      Spécification du compte Amazon S3

    4. Vous voyez qu’une nouvelle connexion AmazonS3 est créée.You will see a new AmazonS3 connection gets created. Sélectionnez Suivant.Select Next.

  5. Sur la page de sélection du fichier ou dossier d’entrée, accédez au dossier et au fichier sur lesquels effectuer la copie.In the Choose the input file or folder page, browse to the folder and file that you want to copy over. Sélectionnez le dossier ou le fichier, puis sélectionnez Choisir.Select the folder/file, and then select Choose.

    Choisir le fichier ou le dossier d’entrée

  6. Spécifiez le comportement de copie en cochant les options Copier les fichiers de façon récursive et Copie binaire.Specify the copy behavior by checking the Recursively and Binary copy options. Sélectionnez Suivant.Select Next.

    Spécification du dossier de sortie

  7. Sur la page Banque de données de destination, cliquez sur + Créer une connexion, puis sélectionnez Azure Data Lake Storage Gen2 et sélectionnez Continuer.In the Destination data store page, click + Create new connection, and then select Azure Data Lake Storage Gen2, and select Continue.

    Page Magasin de données de destination

  8. Sur la page Nouveau service lié (Azure Data Lake Storage Gen2) , procédez comme suit :In the New linked service (Azure Data Lake Storage Gen2) page, do the following steps:

    1. Sélectionnez votre compte activé pour Data Lake Storage Gen2 dans la liste déroulante « Nom du compte de stockage ».Select your Data Lake Storage Gen2 capable account from the "Storage account name" drop-down list.

    2. Sélectionnez Créer pour créer la connexion.Select Create to create the connection. Sélectionnez ensuite Suivant.Then select Next.

      Indiquer un compte Azure Data Lake Storage Gen2

  9. Dans la page de sélection du fichier ou dossier de sortie, saisissez copyfroms3 dans le champ du nom du dossier de sortie, puis sélectionnez Suivant.In the Choose the output file or folder page, enter copyfroms3 as the output folder name, and select Next. ADF crée le système de fichiers ADLS Gen2 et les sous-dossiers correspondants pendant la copie s’ils n’existent pas.ADF will create the corresponding ADLS Gen2 file system and subfolders during copy if it doesn't exist.

    Spécification du dossier de sortie

  10. Dans la page Paramètres, sélectionnez Suivant pour utiliser les paramètres par défaut.In the Settings page, select Next to use the default settings.

    Page Paramètres

  11. Dans la page Résumé, vérifiez les paramètres, puis cliquez sur Suivant.In the Summary page, review the settings, and select Next.

    Page de résumé

  12. Sur la page Déploiement, sélectionnez Surveiller pour surveiller le pipeline (tâche).On the Deployment page, select Monitor to monitor the pipeline (task).

  13. Lorsque l’exécution du pipeline se termine avec succès, vous voyez une exécution de pipeline qui est déclenchée par un déclencheur manuel.When the pipeline run completes successfully, you see a pipeline run that is triggered by a manual trigger. Vous pouvez utiliser les liens sous la colonne NOM DU PIPELINE pour voir les détails de l’activité et réexécuter le pipeline.You can use links under the PIPELINE NAME column to view activity details and to rerun the pipeline.

    Surveiller des exécutions de pipelines

  14. Pour voir les exécutions d’activités associées à l’exécution du pipeline, sélectionnez le lien CopyFromAmazonS3ToADLS sous la colonne NOM DU PIPELINE.To see activity runs associated with the pipeline run, select the CopyFromAmazonS3ToADLS link under the PIPELINE NAME column. Pour plus de détails sur l’opération de copie, sélectionnez le lien Détails (icône en forme de lunettes) dans la colonne NOM DE L’ACTIVITÉ.For details about the copy operation, select the Details link (eyeglasses icon) under the ACTIVITY NAME column. Vous pouvez suivre les informations détaillées comme le volume de données copiées à partir de la source dans le récepteur, le débit des données, les étapes d’exécution avec une durée correspondante et la configuration utilisée.You can monitor details like the volume of data copied from the source to the sink, data throughput, execution steps with corresponding duration, and used configuration.

    Surveiller des exécutions d’activités

    Détails du suivi de l'exécution des activités

  15. Sélectionnez Actualiser pour actualiser l’affichage.To refresh the view, select Refresh. Sélectionnez Toutes les exécutions de pipelines en haut pour revenir à la vue Exécutions de pipelines.Select All pipeline runs at the top to go back to the Pipeline Runs view.

  16. Vérifiez que les données sont copiées dans votre compte Azure Data Lake Store Gen2 :Verify that the data is copied into your Data Lake Storage Gen2 account.

Étapes suivantesNext steps