Intégration de données avec Azure Data Factory et Azure Data ShareData integration using Azure Data Factory and Azure Data Share

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

À mesure que les clients se lancent dans des projets modernes basés sur l’analytique et les entrepôts de données, ils nécessitent non seulement une plus grande quantité de données mais également une meilleure visibilité sur l’ensemble de leurs données.As customers embark on their modern data warehouse and analytics projects, they require not only more data but also more visibility into their data across their data estate. Cet atelier explique comment les améliorations apportées à Azure Data Factory et Azure Data Share simplifient l’intégration et la gestion des données dans Azure.This workshop dives into how improvements to Azure Data Factory and Azure Data Share simplify data integration and management in Azure.

De l’activation des processus ETL/ELT sans code à la création d’une vue complète de vos données, les améliorations apportées à Azure Data Factory vont donner les moyens à vos ingénieurs Données d’apporter en toute confiance davantage de données, et donc plus de valeur, à votre entreprise.From enabling code-free ETL/ELT to creating a comprehensive view over your data, improvements in Azure Data Factory will empower your data engineers to confidently bring in more data, and thus more value, to your enterprise. Azure Data Share va vous permettre de faire du partage B2B (interentreprise) de manière régie.Azure Data Share will allow you to do business to business sharing in a governed manner.

Dans cet atelier, vous allez utiliser Azure Data Factory (ADF) pour ingérer des données provenant d’Azure SQL Database dans Azure Data Lake Storage Gen2 (ADLS Gen2).In this workshop, you'll use Azure Data Factory (ADF) to ingest data from Azure SQL Database into Azure Data Lake Storage Gen2 (ADLS Gen2). Une fois que vous avez placé les données dans le lac, vous les transformez par le biais des flux de données de mappage, le service de transformation natif de Data Factory, et vous les déposez dans Azure Synapse Analytics.Once you land the data in the lake, you'll transform it via mapping data flows, data factory's native transformation service, and sink it into Azure Synapse Analytics. Vous partagez ensuite la table contenant les données transformées avec des données supplémentaires, à l’aide d’Azure Data Share.Then, you'll share the table with transformed data along with some additional data using Azure Data Share.

Les données utilisées dans ce lab sont des données relatives aux taxis de New York.The data used in this lab is New York City taxi data. Pour les importer dans votre base de données dans SQL Database, téléchargez le fichier taxi-data bacpac.To import it into your database in SQL Database, download the taxi-data bacpac file.

PrérequisPrerequisites

Configurer votre environnement Azure Data FactorySet up your Azure Data Factory environment

Dans cette section, vous allez découvrir comment accéder à l’expérience utilisateur ADF (Azure Data Factory) à partir du portail Azure.In this section, you'll learn how to access the Azure Data Factory user experience (ADF UX) from the Azure portal. Une fois dans l’expérience utilisateur ADF, vous allez configurer trois services liés pour chacun des magasins de données que nous utilisons : Azure SQL DB, ADLS Gen2 et Azure Synapse Analytics.Once in the ADF UX, you'll configure three linked service for each of the data stores we are using: Azure SQL DB, ADLS Gen2, and Azure Synapse Analytics.

Dans Azure Data Factory, les services liés définissent les informations de connexion aux ressources externes.In Azure Data Factory linked services define the connection information to external resources. Azure Data Factory prend en charge plus de 85 connecteurs.Azure Data Factory currently supports over 85 connectors.

Ouvrir l’expérience utilisateur Azure Data FactoryOpen the Azure Data Factory UX

  1. Ouvrez le portail Azure dans Microsoft Edge ou Google Chrome.Open the Azure portal in either Microsoft Edge or Google Chrome.

  2. À l’aide de la barre de recherche en haut de la page, recherchez « Fabriques de données »Using the search bar at the top of the page, search for 'Data Factories'

    Portail 1

  3. Cliquez sur votre ressource de fabrique de données pour ouvrir son panneau de ressources.Click on your data factory resource to open up its resource blade.

    Portail 2

  4. Cliquez sur Créer et surveiller pour ouvrir l’expérience utilisateur ADF.Click on Author and Monitor to open up the ADF UX. L’expérience utilisateur ADF est également accessible sur adf.azure.com.The ADF UX can also be accessed at adf.azure.com.

    Portail 3

  5. Vous êtes redirigé vers la page d’accueil de l’expérience utilisateur ADF.You'll be redirected to the homepage of the ADF UX. Cette page contient des guides de démarrage rapide, des vidéos pédagogiques et des liens vers des tutoriels pour apprendre les concepts liés à la fabrique de données.This page contains quick-starts, instructional videos, and links to tutorials to learn data factory concepts. Pour commencer la création, cliquez sur l’icône en forme de crayon dans la barre latérale gauche.To start authoring, click on the pencil icon in left side-bar.

    Configuration du portail

Créer un service lié Azure SQL DatabaseCreate an Azure SQL Database linked service

  1. La page de création vous permet de créer des ressources de fabrique de données telles que des pipelines, des jeux de données, des flux de données, des déclencheurs et des services liés.The authoring page is where you create data factory resources such as pipelines, datasets, data flows, triggers and linked services. Pour créer un service lié, cliquez sur le bouton Connexions dans le coin inférieur droit.To create a linked service, click on the Connections button in the bottom-right corner.

    Configuration du portail 2

  2. Sous l’onglet Connections (Connexions), cliquez sur New (Nouveau) pour ajouter un nouveau service lié.In the connections tab, click New to add a new linked service.

    Configuration du portail 3

  3. Le premier service lié que vous allez configurer est un service Azure SQL DB.The first linked service you'll configure is an Azure SQL DB. Vous pouvez utiliser la barre de recherche pour filtrer la liste des magasins de données.You can use the search bar to filter the data store list. Cliquez sur la vignette Azure SQL Database, puis cliquez sur Continue (Continuer).Click on the Azure SQL Database tile and click continue.

    Configuration du portail 4

  4. Dans le volet de configuration de SQL DB, entrez « SQLDB » en tant que nom de service lié.In the SQL DB configuration pane, enter 'SQLDB' as your linked service name. Entrez vos informations d’identification pour permettre à la fabrique de données de se connecter à votre base de données.Enter in your credentials to allow data factory to connect to your database. Si vous utilisez l’authentification SQL, entrez le nom du serveur, la base de données, votre nom d’utilisateur et le mot de passe.If you're using SQL authentication, enter in the server name, the database, your user name and password. Vous pouvez vérifier que vos informations de connexion sont correctes en cliquant sur Tester la connexion.You can verify your connection information is correct by clicking Test connection. Une fois que vous avez fini, cliquez sur Créer.Click Create when finished.

    Configuration du portail 5

Créer un service lié Azure Synapse AnalyticsCreate an Azure Synapse Analytics linked service

  1. Répétez le même processus pour ajouter un service lié Azure Synapse Analytics.Repeat the same process to add an Azure Synapse Analytics linked service. Sous l’onglet Connections, cliquez sur New.In the connections tab, click New. Sélectionnez la vignette Azure Synapse Analytics, puis cliquez sur Continuer.Select the Azure Synapse Analytics tile and click continue.

    Configuration du portail 6

  2. Dans le volet de configuration du service lié, entrez « SQLDW » en tant que nom de service lié.In the linked service configuration pane, enter 'SQLDW' as your linked service name. Entrez vos informations d’identification pour permettre à la fabrique de données de se connecter à votre base de données.Enter in your credentials to allow data factory to connect to your database. Si vous utilisez l’authentification SQL, entrez le nom du serveur, la base de données, votre nom d’utilisateur et le mot de passe.If you're using SQL authentication, enter in the server name, the database, your user name and password. Vous pouvez vérifier que vos informations de connexion sont correctes en cliquant sur Tester la connexion.You can verify your connection information is correct by clicking Test connection. Une fois que vous avez fini, cliquez sur Créer.Click Create when finished.

    Configuration du portail 7

Créer un service lié Azure Data Lake Storage Gen2Create an Azure Data Lake Storage Gen2 linked service

  1. Le dernier service lié nécessaire pour ce lab est un service Azure Data Lake Storage Gen2.The last linked service needed for this lab is an Azure Data Lake Storage gen2. Sous l’onglet Connections, cliquez sur New.In the connections tab, click New. Sélectionnez la vignette Azure Data Lake Storage Gen2, puis cliquez sur Continue.Select the Azure Data Lake Storage Gen2 tile and click continue.

    Configuration du portail 8

  2. Dans le volet de configuration du service lié, entrez « ADLSGen2 » en tant que nom de service lié.In the linked service configuration pane, enter 'ADLSGen2' as your linked service name. Si vous utilisez l’authentification par clé de compte, sélectionnez votre compte de stockage ADLS Gen2 dans la liste déroulante Nom du compte de stockage.If you're using Account key authentication, select your ADLS Gen2 storage account from the Storage account name dropdown. Vous pouvez vérifier que vos informations de connexion sont correctes en cliquant sur Tester la connexion.You can verify your connection information is correct by clicking Test connection. Une fois que vous avez fini, cliquez sur Créer.Click Create when finished.

    Configuration du portail 9

Activer le mode de débogage de flux de donnéesTurn on data flow debug mode

Dans la section Transform data using mapping data flow (Transformer les données à l’aide du flux de données de mappage), vous allez créer des flux de données de mappage.In section Transform data using mapping data flow, you'll be building mapping data flows. Parmi les bonnes pratiques relatives à la création de flux de données de mappage, il en existe une qui consiste à activer le mode débogage. Cela vous permet de tester la logique de transformation en quelques secondes sur un cluster Spark actif.A best practice before building mapping data flows is to turn on debug mode, which allows you to test transformation logic in seconds on an active spark cluster.

Pour activer le débogage, cliquez dans la barre supérieure de la fabrique sur le curseur Data flow debug (Débogage du flux de données).To turn on debug, click the Data flow debug slider in the factory top bar. Quand la boîte de dialogue de confirmation s’affiche, cliquez sur OK.Click ok when the confirmation dialog pop-ups. Le cluster va prendre entre 5 et 7 minutes environ pour démarrer.The cluster will take about 5-7 minutes to start up. Pendant l’initialisation, passez à Ingérer des données d’Azure SQL DB dans ADLS Gen2 à l’aide de l’activité de copie.Continue on to Ingest data from Azure SQL DB into ADLS Gen2 using the copy activity while it is initializing.

Configuration du portail 10

Ingérer des données à l’aide de l’activité de copieIngest data using the copy activity

Dans cette section, vous allez créer un pipeline avec une activité de copie qui ingère une table Azure SQL DB dans un compte de stockage ADLS Gen2.In this section, you'll create a pipeline with a copy activity that ingests one table from an Azure SQL DB into an ADLS Gen2 storage account. Vous allez apprendre à ajouter un pipeline, à configurer un jeu de données et à déboguer un pipeline via l’expérience utilisateur ADF.You'll learn how to add a pipeline, configure a dataset and debug a pipeline via the ADF UX. Le modèle de configuration utilisé dans cette section peut s’appliquer à la copie d’un magasin de données relationnelles vers un magasin de données basées sur des fichiers.The configuration pattern used in this section can be applied to copying from a relational data store to a file-based data store.

Dans Azure Data Factory, un pipeline est un regroupement logique d’activités qui effectuent ensemble une tâche.In Azure Data Factory, a pipeline is a logical grouping of activities that together perform a task. Une activité définit une opération à effectuer sur vos données.An activity defines an operation to perform on your data. Un jeu de données pointe vers les données à utiliser dans un service lié.A dataset points to the data you wish to use in a linked service.

Créer un pipeline avec une activité de copieCreate a pipeline with a copy activity

  1. Dans le volet des ressources de fabrique, cliquez sur l’icône représentant un signe plus pour ouvrir le nouveau menu de ressource.In the factory resources pane, click on the plus icon to open the new resource menu. Sélectionnez Pipeline.Select Pipeline.

    Copie dans le portail 1

  2. Sous l’onglet General (Général) du canevas de pipeline, donnez à votre pipeline un nom descriptif, par exemple « IngestAndTransformTaxiData ».In the General tab of the pipeline canvas, name your pipeline something descriptive such as 'IngestAndTransformTaxiData'.

    Copie dans le portail 2

  3. Dans le volet d’activités du canevas de pipeline, ouvrez l’accordéon Move and Transform (Déplacer et transformer), puis faites glisser l’activité Copy data (Copier les données) vers le canevas.In the activities pane of the pipeline canvas, open the Move and Transform accordion and drag the Copy data activity onto the canvas. Donnez à l’activité de copie un nom descriptif, par exemple « IngestIntoADLS ».Give the copy activity a descriptive name such as 'IngestIntoADLS'.

    Copie dans le portail 3

Configurer un jeu de données source Azure SQL DBConfigure Azure SQL DB source dataset

  1. Cliquez sur l’onglet Source de l’activité de copie.Click on the Source tab of the copy activity. Pour créer un jeu de données, cliquez sur New.To create a new dataset, click New. Votre source est la table « dbo.TripData » située dans le service lié « SQLDB » configuré.Your source will be the table 'dbo.TripData' located in the linked service 'SQLDB' configured earlier.

    Copie dans le portail 4

  2. Recherchez Azure SQL Database, puis cliquez sur Continue.Search for Azure SQL Database and click continue.

    Copie dans le portail 5

  3. Appelez votre jeu de données « TripData ».Call your dataset 'TripData'. Sélectionnez « SQLDB » en tant que service lié.Select 'SQLDB' as your linked service. Sélectionnez le nom de table « dbo.TripData » dans la liste déroulante correspondante.Select table name 'dbo.TripData' from the table name dropdown. Importez le schéma à partir de la connexion/du magasin.Import the schema From connection/store. Une fois que vous avez fini, cliquez sur OK.Click OK when finished.

    Copie dans le portail 6

Vous avez réussi à créer votre jeu de données source.You have successfully created your source dataset. Vérifiez dans les paramètres de la source que la valeur par défaut Table est sélectionnée dans le champ d’utilisation de la requête.Make sure in the source settings, the default value Table is selected in the use query field.

Configurer le jeu de données du récepteur ADLS Gen2Configure ADLS Gen2 sink dataset

  1. Cliquez sur l’onglet Sink (Récepteur) de l’activité de copie.Click on the Sink tab of the copy activity. Pour créer un jeu de données, cliquez sur New.To create a new dataset, click New.

    Copie dans le portail 7

  2. Recherchez Azure Data Lake Storage Gen2, puis cliquez sur Continue.Search for Azure Data Lake Storage Gen2 and click continue.

    Copie dans le portail 8

  3. Dans le volet de sélection du format, sélectionnez DelimitedText, car vous écrivez dans un fichier CSV.In the select format pane, select DelimitedText as you're writing to a csv file. Cliquez sur Continue.Click continue.

    Copie dans le portail 9

  4. Nommez votre jeu de données récepteur « TripDataCSV ».Name your sink dataset 'TripDataCSV'. Sélectionnez « ADLSGen2 » en tant que service lié.Select 'ADLSGen2' as your linked service. Entrez l’emplacement où vous souhaitez écrire votre fichier CSV.Enter where you want to write your csv file. Par exemple, vous pouvez écrire vos données dans le fichier trip-data.csv dans le conteneur staging-container.For example, you can write your data to file trip-data.csv in container staging-container. Affectez la valeur true à First row as header (Première ligne comme en-tête), car vous souhaitez que vos données de sortie aient des en-têtes.Set First row as header to true as you want your output data to have headers. Dans la mesure où il n’existe pas encore de fichier à l’emplacement de destination, affectez à Import schema (Schéma d’importation) la valeur None (Aucun).Since no file exists in the destination yet, set Import schema to None. Une fois que vous avez fini, cliquez sur OK.Click OK when finished.

    Copie dans le portail 10

Tester l’activité de copie avec une exécution de débogage de pipelineTest the copy activity with a pipeline debug run

  1. Pour vérifier que votre activité de copie fonctionne correctement, cliquez sur Debug (Déboguer) en haut du canevas de pipeline afin d’exécuter un débogage.To verify your copy activity is working correctly, click Debug at the top of the pipeline canvas to execute a debug run. Une exécution de débogage vous permet de tester votre pipeline de bout en bout, ou jusqu’à un point d’arrêt, avant de le publier sur le service de fabrique de données.A debug run allows you to test your pipeline either end-to-end or until a breakpoint before publishing it to the data factory service.

    Copie dans le portail 11

  2. Pour superviser votre exécution de débogage, accédez à l’onglet Sortie du canevas du pipeline.To monitor your debug run, go to the Output tab of the pipeline canvas. L’écran de supervision est actualisé automatiquement toutes les 20 secondes, ou quand vous cliquez manuellement sur le bouton d’actualisation.The monitoring screen will autorefresh every 20 seconds or when you manually click the refresh button. L’activité de copie a une vue de supervision spéciale à laquelle vous pouvez accéder en cliquant sur l’icône représentant des lunettes dans la colonne Actions.The copy activity has a special monitoring view, which can be access by clicking the eye-glasses icon in the Actions column.

    Copie dans le portail 12

  3. La vue de supervision de la copie donne les détails d’exécution de l’activité ainsi que les caractéristiques de performance.The copy monitoring view gives the activity's execution details and performance characteristics. Vous pouvez voir des informations telles que les données lues/écrites, les lignes lues/écrites, les fichiers lus/écrits et le débit.You can see information such as data read/written, rows read/written, files read/written, and throughput. Si vous avez tout configuré correctement, vous devez voir 49 999 lignes écrites dans un fichier de votre récepteur ADLS.If you have configured everything correctly, you should see 49,999 rows written into one file in your ADLS sink.

    Copie dans le portail 13

  4. Avant de passer à la section suivante, il est suggéré de publier vos changements sur le service de fabrique de données en cliquant sur Publish all (Tout publier) dans la barre supérieure de la fabrique.Before moving on to the next section, it's suggested that you publish your changes to the data factory service by clicking Publish all in the factory top bar. Bien que cela ne soit pas abordé dans ce lab, Azure Data Factory prend en charge l’intégration complète de Git.While not covered in this lab, Azure Data Factory supports full git integration. L’intégration de Git permet la gestion de versions, l’enregistrement itératif dans un dépôt et la collaboration dans une fabrique de données.Git integration allows for version control, iterative saving in a repository, and collaboration on a data factory. Pour plus d’informations, consultez Contrôle de code source dans Azure Data Factory.For more information, see source control in Azure Data Factory.

    Publication dans le portail 1

Transformer des données avec un flux de données de mappageTransform data using mapping data flow

Une fois que vous avez réussi à copier les données dans Azure Data Lake Storage, vous devez effectuer une jointure et une agrégation de ces données dans un entrepôt de données.Now that you have successfully copied data into Azure Data Lake Storage, it is time to join and aggregate that data into a data warehouse. Nous allons utiliser le flux de données de mappage, le service de transformation conçu de manière visuelle d’Azure Data Factory.We will use mapping data flow, Azure Data Factory's visually designed transformation service. Les flux de données de mappage permettent aux utilisateurs de développer une logique de transformation sans code, et d’exécuter ces flux sur des clusters Spark managés par le service ADF.Mapping data flows allow users to develop transformation logic code-free and execute them on spark clusters managed by the ADF service.

Le flux de données créé au cours de cette étape effectue une jointure interne du jeu de données « TripDataCSV » créé dans la section précédente avec une table « dbo.TripFares » stockée dans « SQLDB » en fonction de quatre colonnes clés.The data flow created in this step inner joins the 'TripDataCSV' dataset created in the previous section with a table 'dbo.TripFares' stored in 'SQLDB' based on four key columns. Les données sont ensuite agrégées en fonction de la colonne payment_type pour calculer la moyenne de certains champs, avant d’être écrites dans une table Azure Synapse Analytics.Then the data gets aggregated based upon column payment_type to calculate the average of certain fields and written in an Azure Synapse Analytics table.

Ajouter une activité de flux de données à votre pipelineAdd a data flow activity to your pipeline

  1. Dans le volet d’activités du canevas de pipeline, ouvrez l’accordéon Move and Transform, puis faites glisser l’activité Data flow (Flux de données) vers le canevas.In the activities pane of the pipeline canvas, open the Move and Transform accordion and drag the Data flow activity onto the canvas.

    Flux de données dans le portail 1

  2. Dans le volet latéral qui s’ouvre, sélectionnez Create new data flow (Créer un flux de données), puis choisissez Mapping data flow (Flux de données de mappage).In the side pane that opens, select Create new data flow and choose Mapping data flow. Cliquez sur OK.Click OK.

    Flux de données dans le portail 2

  3. Vous accédez ensuite au canevas de flux de données, où vous créez votre logique de transformation.You'll be directed to the data flow canvas where you'll be building your transformation logic. Sous l’onglet General, nommez votre flux de données « JoinAndAggregateData ».In the general tab, name your data flow 'JoinAndAggregateData'.

    Flux de données dans le portail 3

Configurer votre source csv de données de trajetConfigure your trip data csv source

  1. La première chose à faire est de configurer vos deux transformations de sources.The first thing you want to do is configure your two source transformations. La première source pointe vers le jeu de données DelimitedText de « TripDataCSV ».The first source will point to the 'TripDataCSV' DelimitedText dataset. Pour ajouter une transformation de source, cliquez sur la case Add Source (Ajouter une source) dans le canevas.To add a source transformation, click on the Add Source box in the canvas.

    Flux de données dans le portail 4

  2. Nommez votre source « TripDataCSV », puis sélectionnez le jeu de données « TripDataCSV » dans la liste déroulante de sources.Name your source 'TripDataCSV' and select the 'TripDataCSV' dataset from the source drop-down. Si vous vous en souvenez, vous n’avez pas importé de schéma initialement durant la création de ce jeu de données, car il n’y avait aucune donnée.If you remember, you didn't import a schema initially when creating this dataset as there was no data there. Dans la mesure où trip-data.csv existe maintenant, cliquez sur Edit (Modifier) pour accéder à l’onglet des paramètres du jeu de données.Since trip-data.csv exists now, click Edit to go to the dataset settings tab.

    Flux de données dans le portail 5

  3. Accédez à l’onglet Schema (Schéma), puis cliquez sur Import schema (Importer le schéma).Go to tab Schema and click Import schema. Sélectionnez From connection/store (Depuis la connexion/le magasin) pour effectuer l’importation directement à partir du magasin de fichiers.Select From connection/store to import directly from the file store. 14 colonnes de type chaîne doivent s’afficher.14 columns of type string should appear.

    Flux de données dans le portail 6

  4. Revenez au flux de données « JoinAndAggregateData ».Go back to data flow 'JoinAndAggregateData'. Si votre cluster de débogage a démarré (indiqué par un cercle vert à côté du curseur de débogage), vous pouvez obtenir une capture instantanée des données sous l’onglet Data Preview (Aperçu des données). Cliquez sur Refresh (Actualiser) pour extraire un aperçu des données.If your debug cluster has started (indicated by a green circle next to the debug slider), you can get a snapshot of the data in the Data Preview tab. Click Refresh to fetch a data preview.

    Flux de données dans le portail 7

Nota

L’aperçu des données n’écrit pas de données.Data preview does not write data.

Configurer votre source SQL DB des tarifs de trajetConfigure your trip fares SQL DB source

  1. La deuxième source que vous ajoutez doit pointer vers la table SQL DB « dbo.TripFares ».The second source you're adding will point at the SQL DB table 'dbo.TripFares'. Sous votre source « TripDataCSV », il existe une autre zone Add Source.Under your 'TripDataCSV' source, there will be another Add Source box. Cliquez dessus pour ajouter une nouvelle transformation de source.Click it to add a new source transformation.

    Flux de données dans le portail 8

  2. Nommez cette source « TripFaresSQL ».Name this source 'TripFaresSQL'. Cliquez sur New (Nouveau) à côté du champ du jeu de données source pour créer un jeu de données SQL DB.Click New next to the source dataset field to create a new SQL DB dataset.

    Flux de données dans le portail 9

  3. Sélectionnez la vignette Azure SQL Database, puis cliquez sur Continue.Select the Azure SQL Database tile and click continue. Remarque : Vous remarquerez peut-être que de nombreux connecteurs de la fabrique de données ne sont pas pris en charge dans le flux de données de mappage. Pour transformer les données d’une de ces sources, ingérez-les dans une source prise en charge à l’aide de l’activité de copie.Note: You may notice many of the connectors in data factory are not supported in mapping data flow. To transform data from one of these sources, ingest it into a supported source using the copy activity.

    Flux de données dans le portail 10

  4. Appelez votre jeu de données « TripFares ».Call your dataset 'TripFares'. Sélectionnez « SQLDB » en tant que service lié.Select 'SQLDB' as your linked service. Sélectionnez le nom de table « dbo.TripFares » dans la liste déroulante de noms de table.Select table name 'dbo.TripFares' from the table name dropdown. Importez le schéma à partir de la connexion/du magasin.Import the schema From connection/store. Une fois que vous avez fini, cliquez sur OK.Click OK when finished.

    Flux de données dans le portail 11

  5. Pour vérifier vos données, extrayez un aperçu de ces dernières sous l’onglet Data Preview.To verify your data, fetch a data preview in the Data Preview tab.

    Flux de données dans le portail 12

Effectuer une jointure interne de TripDataCSV et TripFaresSQLInner join TripDataCSV and TripFaresSQL

  1. Pour ajouter une nouvelle transformation, cliquez sur l’icône représentant un signe plus dans le coin inférieur droit de « TripDataCSV ».To add a new transformation, click the plus icon in the bottom-right corner of 'TripDataCSV'. Sous Multiple inputs/outputs (Entrées/sorties multiples), sélectionnez Join (Créer une jointure).Under Multiple inputs/outputs, select Join.

    Jointure dans le portail 1

  2. Nommez votre transformation de jointure « InnerJoinWithTripFares ».Name your join transformation 'InnerJoinWithTripFares'. Sélectionnez « TripFaresSQL » dans la liste déroulante de flux de droite.Select 'TripFaresSQL' from the right stream dropdown. Sélectionnez le type de jointure Inner (Interne).Select Inner as the join type. Pour en savoir plus sur les différents types de jointure dans le flux de données de mappage, consultez Types de jointure.To learn more about the different join types in mapping data flow, see join types.

    Sélectionnez les colonnes auxquelles vous souhaitez faire correspondre chaque flux via la liste déroulante Join conditions (Conditions de jointure).Select which columns you wish to match on from each stream via the Join conditions dropdown. Pour ajouter une condition de jointure supplémentaire, cliquez sur l’icône représentant un signe plus à côté d’une condition existante.To add an additional join condition, click on the plus icon next to an existing condition. Par défaut, toutes les conditions de jointure sont associées à un opérateur AND, ce qui signifie que toutes les conditions doivent être remplies pour avoir une correspondance.By default, all join conditions are combined with an AND operator, which means all conditions must be met for a match. Dans ce lab, nous souhaitons faire correspondre les colonnes medallion, hack_license, vendor_id et pickup_datetimeIn this lab, we want to match on columns medallion, hack_license, vendor_id, and pickup_datetime

    Jointure dans le portail 2

  3. Vérifiez que vous avez correctement effectué la jointure de 25 colonnes à l’aide d’un aperçu des données.Verify you successfully joined 25 columns together with a data preview.

    Jointure dans le portail 3

Agréger par payment_typeAggregate by payment_type

  1. Une fois que vous avez fini d’effectuer votre transformation de jointure, ajoutez une transformation d’agrégat en cliquant sur l’icône représentant un signe plus à côté de « InnerJoinWithTripFares ».After you complete your join transformation, add an aggregate transformation by clicking the plus icon next to 'InnerJoinWithTripFares. Choisissez Aggregate (Agrégat) sous Schema modifier (Modificateur de schéma).Choose Aggregate under Schema modifier.

    Agrégation dans le portail 1

  2. Nommez votre transformation d’agrégat « AggregateByPaymentType ».Name your aggregate transformation 'AggregateByPaymentType'. Sélectionnez payment_type en tant que colonne de regroupement.Select payment_type as the group by column.

    Agrégation dans le portail 2

  3. Accédez à l’onglet Agrégats. Ici, vous allez spécifier deux agrégations :Go to the Aggregates tab. Here, you'll specify two aggregations:

    • Le tarif moyen regroupé par type de paiementThe average fare grouped by payment type
    • La distance totale du trajet regroupée par type de paiementThe total trip distance grouped by payment type

    Pour commencer, vous allez créer l’expression correspondant au tarif moyen.First, you'll create the average fare expression. Dans la zone de texte intitulée Add or select a column (Ajouter ou sélectionner une colonne), entrez « average_fare ».In the text box labeled Add or select a column, enter 'average_fare'.

    Agrégation dans le portail 3

  4. Pour entrer une expression d’agrégation, cliquez sur la zone bleue intitulée Enter expression (Entrer l’expression).To enter an aggregation expression, click the blue box labeled Enter expression. Cela permet d’ouvrir le Générateur d’expressions de flux de données, un outil utilisé pour créer visuellement des expressions de flux de données à l’aide d’un schéma d’entrée, de fonctions et d’opérations intégrées ainsi que de paramètres définis par l’utilisateur.This will open up the data flow expression builder, a tool used to visually create data flow expressions using input schema, built-in functions and operations, and user-defined parameters. Pour plus d’informations sur les fonctionnalités du Générateur d’expressions, consultez la documentation du Générateur d’expressions.For more information on the capabilities of the expression builder, see the expression builder documentation.

    Pour obtenir le tarif moyen, utilisez la fonction d’agrégation avg() afin d’agréger le cast de la colonne total_amount en entier avec toInteger().To get the average fare, use the avg() aggregation function to aggregate the total_amount column cast to an integer with toInteger(). En langage d’expression de flux de données, cela est défini sous la forme avg(toInteger(total_amount)).In the data flow expression language, this is defined as avg(toInteger(total_amount)). Une fois que vous avez fini, cliquez sur Save and finish (Enregistrer et terminer).Click Save and finish when you're done.

    Agrégation dans le portail 4

  5. Pour ajouter une expression d’agrégation supplémentaire, cliquez sur l’icône représentant un signe plus à côté de average_fare.To add an additional aggregation expression, click on the plus icon next to average_fare. Sélectionnez Add column (Ajouter une colonne).Select Add column.

    Agrégation dans le portail 5

  6. Dans la zone de texte intitulée Add or select a column (Ajouter ou sélectionner une colonne), entrez « total_trip_distance ».In the text box labeled Add or select a column, enter 'total_trip_distance'. Comme à la dernière étape, ouvrez le Générateur d’expressions pour entrer l’expression.As in the last step, open the expression builder to enter in the expression.

    Pour obtenir la distance totale du trajet, utilisez la fonction d’agrégation sum() afin d’agréger le cast de la colonne trip_distance en entier avec toInteger().To get the total trip distance, use the sum() aggregation function to aggregate the trip_distance column cast to an integer with toInteger(). En langage d’expression de flux de données, cela est défini sous la forme sum(toInteger(trip_distance)).In the data flow expression language, this is defined as sum(toInteger(trip_distance)). Une fois que vous avez fini, cliquez sur Save and finish (Enregistrer et terminer).Click Save and finish when you're done.

    Agrégation dans le portail 6

  7. Testez votre logique de transformation sous l’onglet Data Preview. Comme vous pouvez le voir, il existe beaucoup moins de lignes et de colonnes qu’auparavant.Test your transformation logic in the Data Preview tab. As you can see, there are significantly fewer rows and columns than previously. Seules les trois colonnes de regroupement et d’agrégation définies dans cette transformation se poursuivent en aval.Only the three groups by and aggregation columns defined in this transformation continue downstream. Comme il n’existe que cinq groupes de types de paiement dans l’exemple, seules cinq lignes sont générées.As there are only five payment type groups in the sample, only five rows are outputted.

    Agrégation dans le portail 7

Configurer votre récepteur Azure Synapse AnalyticsConfigure you Azure Synapse Analytics sink

  1. Une fois que nous avons fini de travailler sur la logique de transformation, nous sommes prêts à créer un récepteur de nos données dans une table Azure Synapse Analytics.Now that we have finished our transformation logic, we are ready to sink our data in an Azure Synapse Analytics table. Ajoutez une transformation de récepteur sous la section Destination.Add a sink transformation under the Destination section.

    Récepteur dans le portail 1

  2. Nommez votre récepteur « SQLDWSink ».Name your sink 'SQLDWSink'. Cliquez sur Nouveau à côté du champ de jeu de données récepteur pour créer un jeu de données Azure Synapse Analytics.Click New next to the sink dataset field to create a new Azure Synapse Analytics dataset.

    Récepteur dans le portail 2

  3. Sélectionnez la vignette Azure Synapse Analytics, puis cliquez sur Continuer.Select the Azure Synapse Analytics tile and click continue.

    Récepteur dans le portail 3

  4. Appelez votre jeu de données « AggregatedTaxiData ».Call your dataset 'AggregatedTaxiData'. Sélectionnez « SQLDW » en tant que service lié.Select 'SQLDW' as your linked service. Sélectionnez Create new table (Créer une table), puis nommez la nouvelle table dbo.AggregateTaxiData.Select Create new table and name the new table dbo.AggregateTaxiData. Une fois que vous avez fini, cliquez sur OKClick OK when finished

    Récepteur dans le portail 4

  5. Accédez à l’onglet Settings (Paramètres) du récepteur.Go to the Settings tab of the sink. Comme nous créons une table, nous devons sélectionner Recreate table (Recréer la table) sous l’action de table.Since we are creating a new table, we need to select Recreate table under table action. Décochez Enable staging (Activer la préproduction), qui nous permet de passer de l’insertion ligne par ligne à l’insertion par lot, et inversement.Unselect Enable staging, which toggles whether we are inserting row-by-row or in batch.

    Récepteur dans le portail 5

Vous avez réussi à créer votre flux de données.You have successfully created your data flow. Il est temps maintenant de l’exécuter dans une activité de pipeline.Now it's time to run it in a pipeline activity.

Déboguer votre pipeline de bout en boutDebug your pipeline end-to-end

  1. Revenez à l’onglet du pipeline IngestAndTransformData.Go back to the tab for the IngestAndTransformData pipeline. Notez la zone verte dans l’activité de copie « IngestIntoADLS ».Notice the green box on the 'IngestIntoADLS' copy activity. Faites-la glisser vers l’activité de flux de données « JoinAndAggregateData ».Drag it over to the 'JoinAndAggregateData' data flow activity. Cela entraîne la création d’un élément « en cas de réussite », qui déclenche l’exécution de l’activité de flux de données uniquement si la copie est réussie.This creates an 'on success', which causes the data flow activity to only run if the copy is successful.

    Pipeline dans le portail 1

  2. Comme nous l’avons fait pour l’activité de copie, cliquez sur Debug pour effectuer une exécution de débogage.As we did for the copy activity, click Debug to execute a debug run. Pour les exécutions de débogage, l’activité de flux de données utilise le cluster de débogage actif au lieu de démarrer un nouveau cluster.For debug runs, the data flow activity will use the active debug cluster instead of spinning up a new cluster. L’exécution de ce pipeline prend un peu plus d’une minute.This pipeline will take a little over a minute to execute.

    Pipeline dans le portail 2

  3. Tout comme l’activité de copie, le flux de données a une vue de supervision spéciale, accessible via l’icône de lunettes à la fin de l’activité.Like the copy activity, the data flow has a special monitoring view accessed by the eyeglasses icon on completion of the activity.

    Pipeline dans le portail 3

  4. Dans la vue de supervision, vous pouvez voir un graphe de flux de données simplifié avec les temps d’exécution et les lignes à chaque étape d’exécution.In the monitoring view, you can see a simplified data flow graph along with the execution times and rows at each execution stage. Si tout est correct, vous devez avoir agrégé 49 999 lignes en cinq lignes dans cette activité.If done correctly, you should have aggregated 49,999 rows into five rows in this activity.

    Pipeline dans le portail 4

  5. Vous pouvez cliquer sur une transformation pour obtenir des détails supplémentaires sur son exécution, par exemple les informations de partitionnement ainsi que les colonnes nouvelles/mises à jour/supprimées.You can click a transformation to get additional details on its execution such as partitioning information and new/updated/dropped columns.

    Pipeline dans le portail 5

Vous avez fini à présent la partie fabrique de données de ce lab.You have now completed the data factory portion of this lab. Publiez vos ressources si vous souhaitez les faire fonctionner avec des déclencheurs.Publish your resources if you wish to operationalize them with triggers. Vous avez réussi à exécuter un pipeline qui a ingéré des données d’Azure SQL Database vers Azure Data Lake Storage à l’aide de l’activité de copie, puis vous avez agrégé ces données dans Azure Synapse Analytics.You successfully ran a pipeline that ingested data from Azure SQL Database to Azure Data Lake Storage using the copy activity and then aggregated that data into an Azure Synapse Analytics. Vous pouvez vérifier que les données ont été correctement écrites en examinant le serveur SQL Server lui-même.You can verify the data was successfully written by looking at the SQL Server itself.

Partagez des données avec Azure Data ShareShare data using Azure Data Share

Dans cette section, vous allez apprendre à configurer un nouveau partage de données à l’aide du portail Azure.In this section, you'll learn how to set up a new data share using the Azure portal. Cela implique la création d’un partage de données qui contient des jeux de données provenant d’Azure Data Lake Store Gen2 et d’Azure Synapse Analytics.This will involve creating a new data share that will contain datasets from Azure Data Lake Store Gen2 and Azure Synapse Analytics. Vous allez configurer ensuite une planification d’instantanés, qui permettra aux consommateurs de données d’actualiser automatiquement les données partagées avec eux.You'll then configure a snapshot schedule, which will give the data consumers an option to automatically refresh the data being shared with them. Vous allez ensuite inviter des destinataires à accéder à votre partage de données.Then, you'll invite recipients to your data share.

Une fois que vous avez créé un partage de données, vous changez de rôle et devenez le consommateur de données.Once you have created a data share, you'll then switch hats and become the data consumer. En tant que consommateur de données, vous suivez le flux de l’acceptation d’une invitation à un partage de données, en configurant l’emplacement où vous souhaitez que les données soient reçues et en mappant les jeux de données à différents emplacements de stockage.As the data consumer, you'll walk through the flow of accepting a data share invitation, configuring where you'd like the data to be received and mapping datasets to different storage locations. Vous allez ensuite déclencher une capture instantanée, qui va copier les données partagées avec vous dans la destination spécifiée.Then you'll trigger a snapshot, which will copy the data shared with you into the destination specified.

Partage de données (flux du fournisseur de données)Sharing data (Data Provider flow)

  1. Ouvrez le portail Azure dans Microsoft Edge ou Google Chrome.Open the Azure portal in either Microsoft Edge or Google Chrome.

  2. À l’aide de la barre de recherche en haut de la page, recherchez Partages de donnéesUsing the search bar at the top of the page, search for Data Shares

    Publicités du portail

  3. Sélectionnez le compte de partage de données qui contient « Provider » (Fournisseur) dans son nom.Select the data share account with 'Provider' in the name. Par exemple, DataProvider0102.For example, DataProvider0102.

  4. Sélectionnez Start sharing your data (Commencer à partager vos données)Select Start sharing your data

    Démarrer le partage

  5. Sélectionnez +Create (+Créer) pour commencer à configurer votre nouveau partage de données.Select +Create to start configuring your new data share.

  6. Sous Share name (Nom du partage), indiquez le nom de votre choix.Under Share name, specify a name of your choice. Il s’agit du nom de partage visible par votre consommateur de données. Veillez donc à lui donner un nom descriptif, par exemple TaxiData.This is the share name that will be seen by your data consumer, so be sure to give it a descriptive name such as TaxiData.

  7. Sous Description, entrez une phrase qui décrit le contenu du partage de données.Under Description, put in a sentence, which describes the contents of the data share. Le partage de données contient des données relatives aux trajets de taxi dans le monde entier. Ces données sont stockées dans un certain nombre de magasins, notamment Azure Synapse Analytics et Azure Data Lake Store.The data share will contain world-wide taxi trip data that is stored in a number of stores including Azure Synapse Analytics and Azure Data Lake Store.

  8. Sous Conditions d’utilisation, spécifiez un ensemble de conditions auxquelles vous souhaitez que votre consommateur de données adhère.Under Terms of use, specify a set of terms that you would like your data consumer to adhere to. Certains exemples incluent « Do not distribute this data outside your organization » (Ne pas diffuser ces données en dehors de votre organisation) ou « Refer to legal agreement » (Se référer à l’accord juridique).Some examples include "Do not distribute this data outside your organization" or "Refer to legal agreement".

    Partager les détails

  9. Sélectionnez Continuer.Select Continue.

  10. Sélectionnez Ajouter des jeux de donnéesSelect Add datasets

    Ajouter un jeu de données 1

  11. Sélectionnez Azure Synapse Analytics pour sélectionner une table Azure Synapse Analytics où vos transformations ADF ont été placées.Select Azure Synapse Analytics to select a table from Azure Synapse Analytics that your ADF transformations landed in.

    Ajouter un jeu de données SQL

  12. Vous allez recevoir un script à exécuter pour pouvoir continuer.You'll be given a script to run before you can proceed. Le script fourni crée un utilisateur dans la base de données SQL pour permettre au MSI Azure Data Share de s’authentifier en son nom.The script provided creates a user in the SQL database to allow the Azure Data Share MSI to authenticate on its behalf.

Importante

Avant d’exécuter le script, vous devez vous définir en tant qu’administrateur Active Directory pour le serveur SQL Server.Before running the script, you must set yourself as the Active Directory Admin for the SQL Server.

  1. Ouvrez un nouvel onglet, puis accédez au portail Azure.Open a new tab and navigate to the Azure portal. Copiez le script fourni pour créer un utilisateur dans la base de données dont vous souhaitez partager des données.Copy the script provided to create a user in the database that you want to share data from. Pour ce faire, connectez-vous à la base de données EDW via l’Explorateur de requêtes (préversion) à l’aide de l’authentification AAD.Do this by logging into the EDW database using Query Explorer (preview) using AAD authentication.

    Vous devez modifier le script pour que l’utilisateur créé soit placé entre crochets.You'll need to modify the script so that the user created is contained within brackets. Par exemple :Eg:

    create user [dataprovider-xxxx] from external login; exec sp_addrolemember db_owner, [dataprovider-xxxx];create user [dataprovider-xxxx] from external login; exec sp_addrolemember db_owner, [dataprovider-xxxx];

  2. Revenez à Azure Data Share, où vous ajoutez des jeux de données à votre partage de données.Switch back to Azure Data Share where you were adding datasets to your data share.

  3. Sélectionnez EDW, puis sélectionnez AggregatedTaxiData pour la table.Select EDW, then select AggregatedTaxiData for the table.

  4. Sélectionnez Ajouter un DatasetSelect Add dataset

    Nous avons désormais une table SQL qui fait partie de notre jeu de données.We now have a SQL table that is part of our dataset. Nous allons ensuite ajouter d’autres jeux de données à partir d’Azure Data Lake Store.Next, we will add additional datasets from Azure Data Lake Store.

  5. Sélectionnez Ajouter un Dataset, puis Azure Data Lake Store Gen2Select Add dataset and select Azure Data Lake Store Gen2

    Ajouter un jeu de données ADLS

  6. Sélectionnez Suivant.Select Next

  7. Développez wwtaxidata.Expand wwtaxidata. Développez Boston Taxi Data (Données sur les taxis de Boston).Expand Boston Taxi Data. Notez que vous pouvez effectuer un partage au niveau du fichier.Notice that you can share down to the file level.

  8. Sélectionnez le dossier Boston Taxi Data (Données sur les taxis de Boston) pour ajouter l’intégralité du dossier à votre partage de données.Select the Boston Taxi Data folder to add the entire folder to your data share.

  9. Sélectionnez Ajouter des jeux de donnéesSelect Add datasets

  10. Passez en revue les jeux de données qui ont été ajoutés.Review the datasets that have been added. Vous devez avoir ajouté une table SQL et un dossier ADLS Gen2 à votre partage de données.You should have a SQL table and an ADLS Gen2 folder added to your data share.

  11. Sélectionnez Continue (Continuer)Select Continue

  12. Dans cet écran, vous pouvez ajouter des destinataires à votre partage de données.In this screen, you can add recipients to your data share. Les destinataires que vous ajoutez vont recevoir des invitations à votre partage de données.The recipients you add will receive invitations to your data share. Dans le cadre de ce lab, vous devez ajouter 2 adresses e-mail :For the purpose of this lab, you must add in 2 e-mail addresses:

    1. L’adresse e-mail de l’abonnement Azure dans lequel vous vous trouvez.The e-mail address of the Azure subscription you're in.

      Ajouter des destinataires

    2. Ajoutez le consommateur de données fictives nommé janedoe@fabrikam.com .Add in the fictional data consumer named janedoe@fabrikam.com.

  13. Dans cet écran, vous pouvez configurer un paramètre de capture instantanée pour votre consommateur de données.In this screen, you can configure a Snapshot Setting for your data consumer. Cela lui permet de recevoir des mises à jour régulières de vos données selon un intervalle que vous avez défini.This will allow them to receive regular updates of your data at an interval defined by you.

  14. Consultez Planification d’instantanés, puis configurez une actualisation toutes les heures de vos données à l’aide de la liste déroulante Périodicité.Check Snapshot Schedule and configure an hourly refresh of your data by using the Recurrence drop down.

  15. Sélectionnez Create (Créer).Select Create.

    Vous avez désormais un partage de données actif.You now have an active data share. Permet de passer en revue ce que vous pouvez voir en tant que fournisseur de données quand vous créez un partage de données.Lets review what you can see as a data provider when you create a data share.

  16. Sélectionnez le partage de données que vous avez créé, et qui s’intitule DataProvider.Select the data share that you created, titled DataProvider. Vous pouvez y accéder en sélectionnant Partages envoyés dans Partage de données.You can navigate to it by selecting Sent Shares in Data Share.

  17. Cliquez sur Planification d’instantanés.Click on Snapshot schedule. Vous pouvez désactiver la planification d’instantanés, si vous le souhaitez.You can disable the snapshot schedule if you choose.

  18. Sélectionnez ensuite l’onglet Jeux de données. Vous pouvez ajouter des jeux de données supplémentaires à ce partage de données après sa création.Next, select the Datasets tab. You can add additional datasets to this data share after it has been created.

  19. Sélectionnez l’onglet Partager des abonnements. Il n’existe aucun abonnement de partage, car votre consommateur de données n’a pas encore accepté votre invitation.Select the Share subscriptions tab. No share subscriptions exist yet because your data consumer hasn't yet accepted your invitation.

  20. Accédez à l’onglet Invitations. Ici, vous voyez s’afficher une liste des invitations en attente.Navigate to the Invitations tab. Here, you'll see a list of pending invitation(s).

    Invitations en attente

  21. Sélectionnez l’invitation à janedoe@fabrikam.com .Select the invitation to janedoe@fabrikam.com. Sélectionnez Supprimer.Select Delete. Si votre destinataire n’a pas encore accepté l’invitation, il ne pourra plus le faire.If your recipient hasn't yet accepted the invitation, they will no longer be able to do so.

  22. Sélectionnez l'onglet Historique . Rien ne s’affiche pour l’instant, car votre consommateur de données n’a pas encore accepté votre invitation et déclenché une capture instantanée.Select the History tab. Nothing is displayed as yet because your data consumer hasn't yet accepted your invitation and triggered a snapshot.

Réception de données (flux du consommateur de données)Receiving data (Data consumer flow)

Une fois que nous avons passé en revue notre partage de données, nous sommes prêts à changer de contexte et à endosser le rôle de consommateur de données.Now that we have reviewed our data share, we are ready to switch context and wear our data consumer hat.

Vous devez maintenant avoir une invitation Azure Data Share dans votre boîte de réception en provenance de Microsoft Azure.You should now have an Azure Data Share invitation in your inbox from Microsoft Azure. Lancez Outlook Web Access (outlook.com), puis connectez-vous à l’aide des informations d’identification fournies pour votre abonnement Azure.Launch Outlook Web Access (outlook.com) and log in using the credentials supplied for your Azure subscription.

Dans l’e-mail que vous devez avoir reçu, cliquez sur « Afficher l’invitation> ».In the e-mail that you should have received, click on "View invitation >". À ce stade, vous allez simuler l’expérience du consommateur de données qui accepte une invitation des fournisseurs de données à accéder à leur partage de données.At this point, you're going to be simulating the data consumer experience when accepting a data providers invitation to their data share.

Invitation par e-mail

Vous pouvez être invité à sélectionner un abonnement.You may be prompted to select a subscription. Veillez à sélectionner l’abonnement que vous avez utilisé pour ce lab.Make sure you select the subscription you have been working in for this lab.

  1. Cliquez sur l’invitation intitulée DataProvider.Click on the invitation titled DataProvider.

  2. Dans cet écran d’invitation, vous pouvez noter divers détails relatifs au partage de données que vous avez configuré en tant que fournisseur de données.In this Invitation screen, you'll notice various details about the data share that you configured earlier as a data provider. Passez en revue les détails, puis acceptez les conditions d’utilisation, le cas échéant.Review the details and accept the terms of use if provided.

  3. Sélectionnez l’abonnement et le groupe de ressources qui existent déjà pour votre lab.Select the Subscription and Resource Group that already exists for your lab.

  4. Pour Data share account (Compte de partage de données), sélectionnez DataConsumer.For Data share account, select DataConsumer. Vous pouvez également créer un compte de partage de données.You can also create a new data share account.

  5. À côté de Received share name (Nom de partage reçu), notez que le nom de partage par défaut est le nom spécifié par le fournisseur de données.Next to Received share name, you'll notice the default share name is the name that was specified by the data provider. Donnez au partage un nom convivial qui décrit les données que vous allez recevoir, par exemple TaxiDataShare.Give the share a friendly name that describes the data you're about to receive, e.g TaxiDataShare.

    Acceptations d’invitation

  6. Vous pouvez choisir Accept and configure now (Accepter et configurer maintenant) ou Accept and configure later (Accepter et configurer plus tard).You can choose to Accept and configure now or Accept and configure later. Si vous choisissez d’accepter l’invitation et d’effectuer la configuration maintenant, vous spécifiez un compte de stockage dans lequel toutes les données doivent être copiées.If you choose to accept and configure now, you'll specify a storage account where all data should be copied. Si vous choisissez d’accepter l’invitation et d’effectuer la configuration plus tard, les jeux de données du partage ne sont pas mappés, et vous devez les mapper manuellement.If you choose to accept and configure later, the datasets in the share will be unmapped and you'll need to manually map them. Nous allons choisir cette option plus tard.We will opt for that later.

  7. Sélectionnez Accept and configure later.Select Accept and configure later.

    Durant la configuration de cette option, un abonnement de partage est créé mais il n’existe aucun emplacement de destination pour les données, car aucune destination n’a été mappée.In configuring this option, a share subscription is created but there is nowhere for the data to land since no destination has been mapped.

    Nous allons ensuite configurer les mappages de jeux de données pour le partage de données.Next, we will configure dataset mappings for the data share.

  8. Sélectionnez le partage reçu (le nom spécifié à l’étape 5).Select the Received Share (the name you specified in step 5).

    Instantané de déclencheur est grisé mais le partage est actif.Trigger snapshot is greyed out but the share is Active.

  9. Sélectionnez l’onglet Jeux de données. Notez que chaque jeu de données est non mappé, ce qui signifie qu’il n’existe aucune destination vers laquelle copier les données.Select the Datasets tab. Notice that each dataset is Unmapped, which means that it has no destination to copy data to.

    jeux de données non mappés

  10. Sélectionnez la table Azure Synapse Analytics, puis sélectionnez + Mapper à la cible.Select the Azure Synapse Analytics Table and then select + Map to Target.

  11. Dans la partie droite de l’écran, sélectionnez la liste déroulante Type de données cible.On the right-hand side of the screen, select the Target Data Type drop down.

    Vous pouvez mapper les données SQL à un large éventail de magasins de données.You can map the SQL data to a wide range of data stores. Dans le cas présent, nous allons effectuer un mappage à une base de données Azure SQL Database.In this case, we'll be mapping to an Azure SQL Database.

    mapping

    (Facultatif) Sélectionnez Azure Data Lake Store Gen2 en tant que type de données cible.(Optional) Select Azure Data Lake Store Gen2 as the target data type.

    (Facultatif) Sélectionnez l’abonnement, le groupe de ressources et le compte de stockage que vous avez utilisés.(Optional) Select the Subscription, Resource Group and Storage account you have been working in.

    (Facultatif) Vous pouvez choisir de recevoir les données dans votre lac de données au format CSV ou Parquet.(Optional) You can choose to receive the data into your data lake in either csv or parquet format.

  12. À côté de Type de données cible, sélectionnez Azure SQL Database.Next to Target data type, select Azure SQL Database.

  13. Sélectionnez l’abonnement, le groupe de ressources et le compte de stockage que vous avez utilisés.Select the Subscription, Resource Group and Storage account you have been working in.

    mappage SQL

  14. Pour pouvoir continuer, vous devez créer un utilisateur dans SQL Server en exécutant le script fourni.Before you can proceed, you'll need to create a new user in the SQL Server by running the script provided. Tout d’abord, copiez le script fourni dans le Presse-papiers.First, copy the script provided to your clipboard.

  15. Ouvrez un nouvel onglet de portail Azure. Ne fermez pas votre onglet existant, car vous devrez y revenir dans quelques instants.Open a new Azure portal tab. Don't close your existing tab as you'll need to come back to it in a moment.

  16. Sous le nouvel onglet que vous avez ouvert, accédez à Bases de données SQL.In the new tab you opened, navigate to SQL databases.

  17. Sélectionnez la base de données SQL (il ne doit y en avoir qu’une seule dans votre abonnement).Select the SQL database (there should only be one in your subscription). Veillez à ne pas sélectionner l’entrepôt de données.Be careful not to select the data warehouse.

  18. Sélectionnez Éditeur de requêtes (préversion)Select Query editor (preview)

  19. Utilisez l’authentification AAD pour vous connecter à l’Éditeur de requêtes.Use AAD authentication to log in to Query editor.

  20. Exécutez la requête fournie dans votre partage de données (copiée dans le Presse-papiers à l’étape 14).Run the query provided in your data share (copied to clipboard in step 14).

    Cette commande permet au service Azure Data Share d’utiliser les identités managées pour les services Azure afin de s’authentifier auprès du serveur SQL Server et d’y copier des données.This command allows the Azure Data Share service to use Managed Identities for Azure Services to authenticate to the SQL Server to be able to copy data into it.

  21. Revenez à l’onglet d’origine, puis sélectionnez Mapper à la cible.Go back to the original tab, and select Map to target.

  22. Sélectionnez ensuite le dossier Azure Data Lake Gen2 faisant partie du jeu de données, et mappez-le à un compte Stockage Blob Azure.Next, select the Azure Data Lake Gen2 folder that is part of the dataset and map it to an Azure Blob Storage account.

    storage

    Une fois tous les jeux de données mappés, vous êtes prêt à recevoir les données du fournisseur de données.With all datasets mapped, you're now ready to start receiving data from the data provider.

    mappé

  23. Sélectionnez Details (Détails).Select Details.

    Notez qu’Instantané de déclencheur n’est plus grisé, car le partage de données a désormais des destinations de copie.Notice that Trigger snapshot is no longer greyed out, since the data share now has destinations to copy into.

  24. Sélectionnez Instantané de déclencheur -> Copie complète.Select Trigger snapshot -> Full Copy.

    déclencheur

    Cela déclenche la copie des données vers votre nouveau compte de partage de données.This will start copying data into your new data share account. Dans un scénario réel, ces données proviennent d’un tiers.In a real world scenario, this data would be coming from a third party.

    Les données prennent environ 3 à 5 minutes pour arriver.It will take approximately 3-5 minutes for the data to come across. Vous pouvez superviser la progression en cliquant sur l’onglet Historique.You can monitor progress by clicking on the History tab.

    Pendant l’attente, accédez au partage de données d’origine (DataProvider), et affichez l’état des onglets Partager des abonnements et Historique. Notez qu’il existe désormais un abonnement actif. En tant que fournisseur de données, vous pouvez également superviser le moment où le consommateur de données commence à recevoir les données partagées.While you wait, navigate to the original data share (DataProvider) and view the status of the Share Subscriptions and History tab. Notice that there is now an active subscription, and as a data provider, you can also monitor when the data consumer has started to receive the data shared with them.

  25. Revenez au partage de données du consommateur de données.Navigate back to the Data consumer's data share. Une fois que le déclencheur est à l’état de réussite, accédez à la base de données SQL et au lac de données de destination. Vous pouvez constater que les données sont parvenues dans les magasins respectifs.Once the status of the trigger is successful, navigate to the destination SQL database and data lake to see that the data has landed in the respective stores.

Félicitations, vous avez fini le lab !Congratulations, you have completed the lab!