Préparer des données avec data wrangling

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Essayez Data Factory dans Microsoft Fabric, une solution d’analyse tout-en-un pour les entreprises. Microsoft Fabric couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel, l’aide à la décision et la création de rapports. Découvrez comment démarrer un nouvel essai gratuitement !

La data wrangling dans la fabrique de données vous permet de créer des compositions (« mash-up ») Power Query interactives en mode natif dans ADF, puis de les exécuter à grande échelle à l’intérieur d’un pipeline ADF.

Créer une activité Power Query

Il existe deux façons de créer une activité Power Query dans Azure Data Factory. Vous pouvez cliquer sur l’icône plus et sélectionner Power Query dans le volet de ressources de la fabrique.

Screenshot that shows Power Query in the factory resources pane.

L’autre méthode se trouve dans le volet d’activités du canevas du pipeline. Ouvrez l’accordéon Power Query, puis faites glisser l’activité Power Query sur le canevas.

Screenshot that highlights the data wrangling option.

Créer une activité de data wrangling Power Query

Ajoutez un jeu de données source pour votre composition (« mash-up ») Power Query. Vous pouvez choisir un jeu de données existant ou en créer un. Après avoir enregistré votre combinaison (« mash-up »), vous pouvez créer un pipeline, ajouter l’activité de data wrangling de Power Query à votre pipeline, puis sélectionner un jeu de données de récepteur pour indiquer à ADF où placer vos données. Vous pouvez choisir un ou plusieurs jeux de données sources, mais un seul récepteur est autorisé à ce stade. Choisir un jeu de données récepteur est facultatif, mais au moins un jeu de données source est requis.

Wrangling

Cliquez sur Créer pour ouvrir l’éditeur mashup Power Query Online.

Vous allez commencer par choisir une source de jeu de données pour l’éditeur de mashup.

Power Query source.

Une fois que vous avez terminé la génération de votre Power Query, vous pouvez l’enregistrer, puis créer un pipeline. Vous devez ajouter le mashup en tant qu’activité à votre pipeline. C’est à ce moment que vous allez créer/sélectionner le jeu de données de récepteur pour placer vos données. Vous pouvez également définir les propriétés du jeu de données de récepteur en cliquant sur le deuxième bouton situé à droite de ce dernier. N’oubliez pas de remplacer la valeur « Option de partition » sous « Optimiser » par « Partition unique » si vous souhaitez obtenir un seul fichier de sortie.

Power Query sink.

Créez votre wrangling Power Query à l’aide d’une préparation des données sans code. Pour obtenir la liste des fonctions disponibles, consultez les fonctions de transformation. ADF convertit le script M en script de flux de données afin que vous puissiez exécuter votre Power Query à grande échelle à l’aide de l’environnement Spark de flux de données Azure Data Factory.

Screenshot that shows the process for authoring your data wrangling Power Query.

Exécution et surveillance d’une activité de data wrangling Power Query

Pour déboguer un pipeline d’activité Power Query, cliquez sur Déboguer dans le canevas du pipeline. Une fois que vous avez publié votre pipeline, la commande Déclencher maintenant effectue une exécution à la demande du dernier pipeline publié. Des pipelines Power Query peuvent être planifiés avec tous les déclencheurs Azure Data Factory existants.

Screenshot that shows how to add a Power Query data wrangling activity.

Accédez à l’onglet Analyse pour visualiser la sortie de l’exécution d’une activité Power Query déclenchée.

Screenshot that shows the output of a triggered wrangling Power Query activity run.

Découvrez comment créer un flux de données de mappage.