Utiliser le langage R dans l’Éditeur Power Query

Le langage R est un langage de programmation puissant qui est utilisé par de nombreux statisticiens, scientifiques des données et analystes de données. Vous pouvez utiliser R dans l’Éditeur Power Query de Power BI Desktop pour :

  • Préparer des modèles de données.
  • Créer des rapports.
  • Procéder au nettoyage de données, à la mise en forme avancée de données et à l’analytique de modèles sémantiques, ce qui inclut la saisie semi-automatique des données, les prédictions, le clustering, et bien plus encore.

Installer R

Vous pouvez télécharger R gratuitement depuis le Référentiel CRAN.

Installer mice

Comme prérequis, installez la bibliothèque mice dans votre environnement R. Sans mice, l’exemple de code de script ne fonctionne pas correctement. Le package mice implémente une méthode pour traiter les données manquantes.

Pour installer la bibliothèque mice :

  1. Lancez le programme R.exe, par exemple, C:\Program Files\Microsoft\R Open\R-3.5.3\bin\R.exe.

  2. Exécutez la commande d’installation à partir de l’invite R :

    install.packages('mice') 
    

Utiliser le script R dans l’Éditeur Power Query

Pour illustrer l’utilisation de R dans l’Éditeur Power Query, cet exemple utilise un modèle sémantique boursier contenu dans un fichier .csv.

  1. Téléchargez le fichier EuStockMarkets_NA.csv. Notez l’endroit où vous l’enregistrez.

  2. Chargez le fichier dans Power BI Desktop. Sous l’onglet Accueil, sélectionnez Obtenir des données>Texte/CSV.

    Screenshot shows the Get data option where you can select Text/CSV.

  3. Sélectionnez le fichier EuStockMarkets_NA.csv, puis choisissez Ouvrir. Les données CSV s’affichent dans la boîte de dialogue Fichier texte/CSV.

    Screenshot shows the contents of the selected .csv file.

  4. Sélectionnez Charger pour charger les données du fichier. Quand Power BI Desktop a fini de charger les données, la nouvelle table s’affiche dans le volet Champs.

    Screenshot shows data in the Fields pane.

  5. Pour ouvrir l’éditeur Power Query, dans le ruban Accueil, sélectionnez Transformer les données.

    Screenshot shows the Home ribbon with Transform data highlighted.

  6. Sous l’onglet Transformer, sélectionnez Exécuter un script R. L’éditeur Exécuter un script R s’affiche. Les lignes 15 et 20 ont des données manquantes, tout comme d’autres lignes qui ne sont pas visibles dans l’image. Les étapes suivantes montrent de quelle façon R complète ces lignes à votre place.

    [Screenshot shows Power Query Editor with Run R Script selected.

  7. Pour cet exemple, entrez le code de script suivant dans la zone Script de la fenêtre Exécuter un script R.

       library(mice)
       tempData <- mice(dataset,m=1,maxit=50,meth='pmm',seed=100)
       completedData <- complete(tempData,1)
       output <- dataset
       output$completedValues <- completedData$"SMI missing values"
    

    Remarque

    Vous devrez remplacer une variable nommée output pour créer correctement le nouveau modèle sémantique avec les filtres appliqués.

  8. Sélectionnez OK. L’Éditeur Power Query affiche un avertissement concernant la confidentialité des données.

    Screenshot shows data privacy warning with a Continue option.

  9. Dans le message d’avertissement, sélectionnez Continuer. Dans la boîte de dialogue Niveaux de confidentialité qui s’affiche, définissez toutes les sources de données sur Public pour que les scripts R fonctionnent correctement dans le service Power BI.

    Screenshot shows the Privacy levels dialog with Public privacy selected.

    Pour plus d’informations sur les paramètres de confidentialité et leurs implications, consultez Niveaux de confidentialité Power BI Desktop.

  10. Sélectionnez Enregistrer pour exécuter le script.

    Lorsque vous exécutez le script, vous devez voyez s’afficher le résultat suivant :

    Screenshot of results of R script.

    Lorsque vous sélectionnez Table en regard de Sortie dans la table qui s’affiche, la table s’affiche comme illustré dans l’image suivante.

    Screenshot of table results from R script.

    Le volet Champs comporte la nouvelle colonne appelée completedValues. La colonne des valeurs SMI manquantes contient quelques éléments de données manquants. La section suivante explique de quelle façon R gère ce problème.

    Avec seulement cinq lignes de script R, l’Éditeur Power Query a renseigné les valeurs manquantes sur la base d’un modèle de prévision.

Créer des visuels à partir des données de script R

Nous pouvons maintenant créer un visuel pour voir de quelle manière le code de script R avec la bibliothèque mice remplit les valeurs manquantes.

Screenshot shows an R script visual that includes missing values and completed values.

Vous pouvez enregistrer tous les visuels terminés dans un fichier .pbix Power BI Desktop, et utiliser le modèle de données et ses scripts R dans le service Power BI.

Notes

Vous pouvez télécharger un fichier .pbix une fois toutes ces étapes terminées.

Après avoir chargé le fichier .pbix vers le service Power BI, vous devez effectuer d’autres étapes pour activer l’actualisation des données du service et les visuels mis à jour :

  • Activer l’actualisation planifiée pour le modèle sémantique : pour activer l’actualisation planifiée pour le classeur contenant votre modèle sémantique avec des scripts R, consultez Configuration d’une actualisation planifiée. Cet article contient également des informations sur les passerelles de données locales.

  • Installer une passerelle personnelle : une passerelle de données locale (mode personnel) doit être installée sur l’ordinateur où se trouvent le fichier et R. Le service Power BI accède à ce classeur et restitue de nouveau tous les visuels mis à jour. Pour plus d’informations, consultez Utilisation de passerelles personnelles dans Power BI.

Considérations et limitations

Certaines limitations s’appliquent aux requêtes qui incluent des scripts R créés dans l’Éditeur Power Query :

  • Tous les paramètres de source de données R doivent être définis comme étant publics. Toutes les autres étapes d’une requête dans l’Éditeur Power Query doivent également être publiques.

    Pour obtenir les paramètres de la source de données, dans Power BI Desktop, sélectionnez Fichier>Options et paramètres>Paramètres de la source de données.

    Screenshot shows the Options and Settings dialog where you can select Data source settings.

    Dans la boîte de dialogue Paramètres de la source de données, sélectionnez la ou les sources de données, puis sélectionnez Modifier les autorisations. Définissez le Niveau de confidentialité sur Public.

    Screenshot shows Data source settings dialog where you can edit permissions.

  • Pour planifier l’actualisation de vos visuels ou modèles sémantiques R, activez l’actualisation planifiée et installez une passerelle de données locale (mode personnel) sur l’ordinateur contenant le classeur et R. Vous ne pouvez pas utiliser une passerelle d’entreprise pour actualiser des modèles sémantiques contenant des scripts R dans Power Query.

Vous pouvez réaliser toutes sortes de choses avec R et les requêtes personnalisées. Explorez et mettez en forme vos données exactement comme vous souhaitez les voir.