Nettoyer et transformer des données avec l’éditeur Power Query

Effectué

Maintenant que nous sommes connectés à une source de données avec Microsoft Power BI Desktop, nous devons ajuster les données pour répondre à nos besoins. Parfois, l’ajustement consiste à transformer les données, par exemple renommer des colonnes ou des tables, remplacer le texte par des nombres, supprimer des lignes ou définir la première ligne comme en-tête.

L’éditeur Power Query dans Power BI Desktop propose un grand nombre de menus contextuels, en plus des tâches disponibles sur le ruban. La plupart des éléments que vous pouvez sélectionner sous l’onglet Transformer du ruban sont également disponible en double-cliquant sur un élément (comme une colonne), puis en sélectionnant une commande dans le menu contextuel qui apparaît.

Mettre en forme les données

Quand vous mettez en forme des données dans l’éditeur Power Query, vous fournissez des instructions pas à pas que l’éditeur Power Query effectue pour vous, afin d’ajuster les données à mesure de leur chargement et de leur présentation par l’éditeur. La source de données d’origine n’est pas affectée. Seule cette vue particulière des données est ajustée ou mise en forme.

Les étapes que vous spécifiez (par exemple, renommer une table, transformer un type de données ou supprimer des colonnes) sont enregistrées par l’éditer Power Query. Ces étapes sont ensuite effectuées chaque fois que la requête se connecte à la source de données, afin que les données soient toujours mises en forme de la façon que vous spécifiez. Ce processus se produit lors de chaque utilisation de la requête dans Power BI Desktop ou quand une autre personne utilise votre requête partagée (par exemple dans le service Power BI). Ces étapes sont capturées de façon séquentielle sous Étapes appliquées dans le volet Paramètres Power Query.

L’illustration suivante montre le volet Paramètres d’une requête pour une requête qui a été mise en forme. Nous allons passer en revue chacune des étapes dans les paragraphes qui suivent.

Paramètres de la requête

Revenons à nos données sur les retraites, que nous avons trouvées en nous connectant à une source de données Web, et passons maintenant à la mise en forme de ces données en fonction de nos besoins.

Notes

Consultez la page précédente de l’unité si vous n'avez pas téléchargé l'exemple de données.

Il faut que les données soient des nombres. C’est le cas ici, mais si vous êtes amené à un moment ou un autre à changer de type de données, il vous suffit de cliquer avec le bouton droit sur l’en-tête de la colonne et de sélectionner Modifier le type > Nombre entier. Si vous devez modifier plusieurs colonnes, sélectionnez l’une d’elles, puis maintenez la touche Maj enfoncée pendant que vous sélectionnez des colonnes adjacentes supplémentaires. Ensuite, cliquez sur un en-tête de colonne pour modifier toutes les colonnes sélectionnées. Vous pouvez également utiliser la touche Ctrl pour sélectionner des colonnes non adjacentes.

Type modifié appliqué à une étape

Notes

Power Query détecte souvent qu’une colonne de texte doit être convertie en nombres et change automatiquement le type quand il importe la table dans l’éditeur Power Query. Dans ce cas, une étape sous Étapes appliquées identifie ce que fait Power Query a fait pour vous.

Vous pouvez également modifier, ou transformer, ces colonnes de texte en en-tête avec l’onglet Transformer sur le ruban. L’illustration suivante montre l’onglet Transformer. La zone rouge met en surbrillance le bouton Type de données, qui vous permet de transformer le type de données actuel en un autre type.

Le ruban Transformer et le bouton Type de données

Notez que la liste Étapes appliquées du volet Paramètres d’une requête reflète toutes les modifications qui ont été apportées. Pour supprimer une étape du processus de mise en forme, il suffit de la sélectionner, puis de sélectionner le X à sa gauche.

Fenêtre Paramètres d’une requête

Se connecter à des données

Les données relatives aux différents États sont intéressantes et utiles pour la création de travaux et de requêtes d’analyse supplémentaires. Mais un problème se pose : la plupart de ces données utilisent une abréviation composée de deux lettres pour les codes des États, et non pas le nom complet des États. Nous avons donc besoin d’un moyen permettant d’associer les noms des États à leur abréviation.

Nous avons de la chance : il existe une autre source de données publique qui fait exactement cela. Cependant, un gros travail de mise en forme est nécessaire avant de pouvoir la connecter à notre tableau de données sur les retraites. Voici la ressource web pour les abréviations des États :

http://en.wikipedia.org/wiki/List_of_U.S._state_abbreviations

Dans l’éditeur Power Query, sous l’onglet Accueil du ruban, sélectionnez Nouvelle source > Web. Entrez ensuite l’adresse, puis sélectionnez OK. La fenêtre Navigateur montre ce qu’elle a trouvé sur cette page web.

Abréviations des États des États-Unis provenant du site web

Sélectionnez la table Codes and abbreviations... (Codes et abréviations...), car elle comprend les données que nous voulons, même si quelques opérations de mise en forme sont nécessaires pour réduire les données de la table à l’essentiel.

Sélectionnez Charger pour importer les données dans l’éditeur Power Query et pouvoir les mettre en forme. Effectuez ensuite ces étapes :

  • Supprimer les trois lignes du haut : ces lignes correspondent au résultat de la façon dont la table de la page web a été créée, et nous n’en avons pas besoin. Pour les supprimer, sous l’onglet Accueil du ruban, sélectionnez Supprimer les lignes > Supprimer les lignes du haut. Dans la boîte de dialogue qui apparaît, entrez 3 pour le nombre de lignes à supprimer.

    Supprimer les lignes du haut

  • Supprimer les 26 lignes du bas : ces lignes concernent tous les territoires, ce que nous n’avons pas besoin d’inclure. Le processus est identique mais cette fois, sélectionnez Supprimer les lignes> Supprimer les lignes du bas et entrez 26 pour le nombre de lignes à supprimer.

    Supprimer les lignes du bas

  • Filtrer Washington DC : la table des statistiques sur les retraites n’incluant pas « Washington, DC », nous allons l’exclure de notre liste. Sélectionnez la flèche déroulante en regard de la colonne Federal state (État fédéral), puis décochez la case en regard de Federal district (District fédéral).

    Supprimer une ligne avec une certaine valeur

  • Supprimer quelques colonnes inutiles : nous avons besoin seulement du mappage de chaque État à son abréviation officielle composée de deux lettres, et ces informations figurent dans la première et la quatrième colonne. Par conséquent, nous devons conserver seulement ces deux colonnes et nous pouvons supprimer toutes les autres. Sélectionnez la première colonne à supprimer, puis maintenez enfoncée la touche Ctrl en sélectionnant les autres colonnes à supprimer (vous pouvez ainsi sélectionner plusieurs colonnes non adjacentes). Ensuite, sous l’onglet Accueil du ruban, sélectionnez Supprimer les colonnes > Supprimer les colonnes.

    Supprimer des colonnes spécifiques

  • Utiliser la première ligne comme en-tête : comme nous avons supprimé les trois lignes du haut, la ligne du haut actuelle correspond à l’en-tête que nous voulons. Sélectionnez le bouton Utiliser la première ligne pour les en-têtes.

    Utiliser la première ligne pour les en-têtes

    Notes

    C’est le bon moment pour vous indiquer que la séquence d’étapes appliquées dans l’éditeur Power Query est importante et peut avoir une incidence sur la façon dont les données sont mises en forme. Il est également important de considérer comment une étape peut affecter une étape ultérieure. Si vous supprimez une étape de la liste Étapes appliquées, les étapes suivantes peuvent ne pas se comporter comme prévu initialement, en raison de l’impact de la séquence d’étapes de la requête.

  • Renommer les colonnes et la table elle-même : comme d’habitude, il existe plusieurs façons de renommer une colonne. Vous pouvez choisir la méthode que vous préférez. Renommons-les State Name (Nom de l’État) et State Code (Code de l’État). Pour renommer la table, entrez simplement le nom dans le champ Nom du volet Paramètres d’une requête. Appelons cette table StateCodes.

    Renommer des colonnes

Combiner des données

Maintenant que la table StateCodes est mise en forme, nous pouvons combiner nos deux tables en une seule. Étant donné que les tables que nous avons maintenant sont un résultat des requêtes que nous avons appliquées aux données, ils sont souvent appelées requêtes.

Deux méthodes principales permettent de combiner des requêtes : la fusion et l’ajout.

Quand vous avez une ou plusieurs colonnes à ajouter à une autre requête, vous fusionnez les requêtes. Quand vous avez des lignes de données supplémentaires à ajouter à une requête existante, vous ajoutez la requête.

Ici, nous voulons fusionner les requêtes. Pour commencer, sélectionnez la requête dans laquelle fusionner l’autre requête. Ensuite, sous l’onglet Accueil du ruban, sélectionnez Fusionner des requêtes. Nous voulons d’abord sélectionner notre requête portant sur les retraites. Pendant que nous y sommes, nous allons renommer cette requête RetirementStats.

Bouton Fusionner des requêtes

La boîte de dialogue Fusionner apparaît, nous invitant à sélectionner la table à fusionner dans la table sélectionnée, puis les colonnes de correspondance à utiliser pour la fusion.

Sélectionnez State (État) dans la table (requête) RetirementStats, puis sélectionnez la requête StateCodes. (Dans ce cas, le choix est facile, car il n’existe qu’une seule autre requête. Cependant, quand vous vous connectez à de nombreuses sources de données, vous devez choisir parmi de nombreuses requêtes.) Une fois les colonnes de correspondance appropriées sélectionnées -État dans RetirementStats et Nom de l’État dans StateCodes - la boîte de dialogue Fusionner ressemble à ce qui suit, et le bouton OK devient disponible.

Boîte de dialogue Fusionner

Un élément NewColumn est créé à la fin de la requête et représente le contenu de la table (requête) qui a été fusionnée avec la requête existante. Toutes les colonnes de la requête fusionnée sont condensées dans NewColumn, mais vous pouvez choisir de développer la table et d’inclure les colonnes de votre choix. Pour développer la table fusionnée et sélectionner les colonnes à inclure, sélectionnez l’icône Développer (icône Développer). La boîte de dialogue Développer apparaît.

Boîte de dialogue Développer

Dans ce cas, nous voulons simplement la colonne State Code (Code d’état). Sélectionnez donc seulement cette colonne, puis sélectionnez OK. Vous pouvez également décocher la case Utiliser le nom de la colonne d’origine comme préfixe. Si vous la laissez cochée, la colonne fusionnée sera nommée NewColumn.State Code (le nom de colonne d’origine ou NewColumn, puis un point suivi du nom de la colonne qui est insérée dans la requête).

Notes

Si vous le souhaitez, vous pouvez tester la façon dont la table NewColumn est insérée. Si les résultats ne vous conviennent pas, supprimez juste l’étape Développer de la liste Étapes appliquées du volet Paramètres d’une requête. Votre requête revient à l’état où elle se trouvait avant l’application de cette étape. Vous êtes libre de recommencer l’opération autant de fois que vous le souhaitez, jusqu’à ce que le processus de développement vous convienne.

Nous disposons désormais d’une seule requête (table) combinant deux sources de données, chacune d’entre elles ayant été mise en forme pour répondre à nos besoins. Cette requête peut servir de base pour de nombreuses autres connexions de données intéressantes, comme des statistiques sur le coût des logements, des données démographiques ou des offres d’emploi dans les États.

Pour appliquer les modifications dans l’éditeur Power Query et les charger dans Power BI Desktop, sélectionnez Fermer et appliquer sur l’onglet Accueil du ruban.

Fermer et appliquer les paramètres de données

Les données de votre modèle sont maintenant prêtes à être utilisées. Nous allons ensuite créer quelques visuels pour votre rapport.

Nous disposons maintenant de suffisamment de données pour créer quelques rapports intéressants, le tout dans Power BI Desktop. Comme il s’agit d’une étape majeure, enregistrons ce fichier Power BI Desktop. Sélectionnez Fichier > Enregistrer sur l’onglet Accueil du ruban pour enregistrer le rapport. Nous allons l’appeler Getting Started with Power BI Desktop (Bien démarrer avec Power BI Desktop).

Parfait ! Passez maintenant à l’unité suivante pour créer des visuels intéressants.