Share via


Connecter Power BI à Azure Databricks

Microsoft Power BI est un service d’analytique métier qui fournit des visualisations interactives avec des fonctionnalités de décisionnel libre-service, permettant aux utilisateurs finaux de créer des rapports et des tableaux de bord eux-mêmes, sans dépendre de l’équipe informatique ou des administrateurs de base de données.

Lorsque vous utilisez Azure Databricks comme source de données avec Power BI, vous pouvez profiter des performances et de la technologie Azure Databricks au même titre que les scientifiques des données et les ingénieurs Données.

Publier sur Power BI Online à partir d’Azure Databricks

Lorsque vous utilisez Azure Databricks comme source de données avec Power BI Online, vous pouvez créer des jeux de données Power BI à partir de tables ou de schémas directement à partir de l’interface utilisateur Databricks.

Spécifications

  • Vos données doivent se trouver sur le catalogue Unity, et votre calcul (cluster) doit être activé pour le catalogue Unity. Le metastore Hive n’est actuellement pas pris en charge.
  • Vous devez disposer d’une licence Power BI Premium (capacité Premium ou Premium par utilisateur).
  • Vous devez activer « Les utilisateurs peuvent modifier des modèles de données dans le service Power BI (préversion) » sous Paramètres de l’espace de travail et paramètres du modèle de données pour modifier le modèle sémantique après sa publication. Vous pouvez également modifier le modèle sémantique à l’aide de l’éditeur tabulaire en créant une connexion à l’aide du point de terminaison XMLA.
  • Si vous devez activer l’écriture XML dans votre espace de travail PowerBI, suivez ce lien pour obtenir des instructions.
  • Si votre espace de travail se trouve sous une liaison privée, vous devez mettre à jour manuellement les informations d’identification des sources de données du jeu de données dans Power BI.

Guide d’utilisation

Publier des tables Azure Databricks dans un jeu de données Power BI

  1. Connectez-vous à votre espace de travail Databricks et accédez à l’Explorateur de catalogues. Sélectionnez le schéma/les tables à publier. Ne pas sélectionner dans un metastore Hive ou dans le catalogue d'échantillons.
  2. Dans la liste déroulante de calcul, sélectionnez l’entrepôt de données que vous souhaitez utiliser dans cette publication Power BI.
  3. Une fois le tableau/schéma à publier ouvert dans l’Explorateur de catalogue, cliquez sur le bouton « Utiliser avec les outils BI » en haut à droite.
  4. Dans la liste déroulante qui s’ouvre, cliquez sur l’option « Publier sur l’espace de travail Power BI ».

À ce stade, un menu s’ouvre sur le côté droit de la fenêtre. Suivez les prompts fournies par le menu, détaillées ci-dessous :

  1. Cliquez sur « Se connecter à Microsoft Entra ID » pour vous authentifier auprès de votre compte Microsoft.
  2. Dans le menu suivant, sélectionnez l’espace de travail à publier dans le menu déroulant « Espaces de travail Power BI ». Dans la liste déroulante « Mode jeu de données », sélectionnez le mode DirectQuery (sélectionné par défaut) ou le mode Importation.
  3. Cliquez sur le bouton bleu « Publier sur Power BI » en bas du menu.
  4. Attendez que le jeu de données soit publié. Cela prend normalement environ 10 à 20 secondes.
  5. Lorsque le jeu de données est publié, le bouton bleu comporte un lien intitulé « Ouvrir Power BI ». Cliquez dessus pour ouvrir votre nouveau jeu de données Power BI dans un nouvel onglet.

Fonctionnalités et notes

  • Lors de la publication d’un schéma contenant plusieurs tables, toutes les tables avec des colonnes sont publiées. Si aucune colonne n’est présente dans une table, la publication n’est pas effectuée.
  • Les commentaires sur les colonnes d’une table dans Databricks sont copiés dans les descriptions des colonnes correspondantes dans Power BI.
  • Les relations de clé étrangère sont conservées dans le jeu de données publié. Toutefois, Power BI ne prend en charge qu’un seul chemin de relation actif entre deux tables. Par conséquent, lorsque plusieurs chemins d’accès sont présents dans le schéma dans Databricks, certaines des relations correspondantes dans Power BI sont définies sur inactives. Vous pouvez modifier ultérieurement les relations actives/inactives dans la vue du modèle de données dans Power BI.
  • Un jeton d’accès personnel (PAT) est créé en votre nom pour permettre à Power BI d’accéder au modèle sémantique. Cette méthode d’authentification peut être modifiée ultérieurement dans les paramètres de source de données Power BI.

Connecter Power BI Desktop à Azure Databricks

Vous pouvez connecter Power BI Desktop à vos clusters Azure Databricks et entrepôts Databricks SQL. Vous pouvez également publier des rapports Power BI sur le service Power BI et permettre aux utilisateurs d’accéder aux données Azure Databricks sous-jacentes avec l’authentification unique (SSO), en fournissant les mêmes informations d’identification Microsoft Entra ID (anciennement Azure Active Directory) que celles qu’ils utilisent pour accéder au rapport.

Spécifications

  • Power BI Desktop 2.85.681.0 ou version ultérieure Pour utiliser des données gérées par le catalogue Unity avec Power BI, vous devez utiliser Power BI Desktop version 2.98.683.0 ou ultérieure (version d’octobre 2021).

    Notes

    Power BI Desktop nécessite Windows. Pour les autres systèmes d’exploitation, vous pouvez exécuter Power BI Desktop sur un hôte physique ou sur une machine virtuelle Windows, puis vous y connecter à partir de votre système d’exploitation.

    Si vous utilisez une version de Power BI Desktop antérieure à 2.85.681.0, vous devez également installer le pilote ODBC Databricks dans le même environnement que Power BI Desktop.

  • Un jeton d’accès personnel Azure Databricks ou les informations d’identification de votre compte Microsoft Entra ID.

    Remarque

    En guise de meilleure pratique de sécurité, quand vous vous authentifiez avec jetons d’accès personnels, Databricks recommande d’utiliser des jetons d’accès personnels appartenant à des principaux de service et non à des utilisateurs de l’espace de travail. Pour créer des jetons pour des principaux de service, consultez Gérer les jetons pour un principal de service.

  • Un cluster Azure Databricks ou un entrepôt Databricks SQL.

Connecter Power BI Desktop à Azure Databricks à l’aide de Partner Connect

Vous pouvez utiliser Partner Connect pour vous connecter en quelques clics à un cluster ou à un entrepôt SQL à partir de Power BI Desktop.

  1. Vérifiez que votre compte Azure Databricks, votre espace de travail et l’utilisateur connecté remplissent les conditions requises par Partner Connect.

  2. Dans la barre latérale, cliquez sur bouton Partner ConnectPartner Connect.

  3. Cliquez sur la vignette Power BI.

  4. Dans la boîte de dialogue Se connecter à un partenaire, pour Calcul, choisissez le nom de la ressource de calcul Azure Databricks que vous souhaitez connecter.

  5. Choisissez Télécharger le fichier de connexion.

  6. Ouvrez le fichier de connexion téléchargé pour démarrer Power BI Desktop.

  7. Dans Power BI Desktop, entrez vos informations d’authentification :

    • Jeton d’accès personnel : entrez votre jeton d’accès personnel Azure Databricks.
    • Microsoft Entra ID : cliquez sur Se connecter, puis suivez les instructions à l’écran.
    • Nom d’utilisateur/mot de passe : non applicable.
  8. Cliquez sur Connecter.

  9. Sélectionnez les données Azure Databricks à interroger dans le navigateur Power BI.

    Navigateur - Power BI

Connecter manuellement Power BI Desktop à Azure Databricks

En fonction de la méthode d’authentification choisie, suivez ces instructions pour vous connecter à un cluster ou à un entrepôt SQL avec Power BI Desktop. Les entrepôts Databricks SQL sont recommandés lors de l’utilisation de Power BI en mode DirectQuery .

Remarque

Pour vous connecter plus rapidement à Power BI Desktop, utilisez Partner Connect.

  1. Récupérez le nom d’hôte du serveur et le chemin HTTP.

  2. Démarrez Power BI Desktop.

  3. Cliquez sur Obtenir des données ou sur Fichier >Obtenir des données.

  4. Cliquez sur Get data to get started (Obtenir des données pour commencer).

  5. Recherchez Databricks, puis cliquez sur le connecteur :

    • Azure Databricks
  6. Cliquez sur Connecter.

  7. Entrez le nom d’hôte du serveur dans Server Hostname et le chemin HTTP dans HTTP Path.

  8. Sélectionnez votre mode de connectivité des données (Data Connectivity mode). Pour connaître la différence entre Import et DirectQuery, consultez Utiliser DirectQuery dans Power BI Desktop.

  9. Cliquez sur OK.

  10. Cliquez sur votre méthode d’authentification :

    • Jeton d’accès personnel : entrez votre jeton d’accès personnel Azure Databricks.
    • Microsoft Entra ID : cliquez sur Se connecter, puis suivez les instructions à l’écran.
    • Nom d’utilisateur/mot de passe : non applicable.
  11. Cliquez sur Connecter.

  12. Sélectionnez les données Azure Databricks à interroger dans le navigateur Power BI. Si le catalogue Unity Catalog est pour votre espace de travail, sélectionnez un catalogue avant de sélectionner un schéma et une table.

    Navigateur - Power BI

Utilisation d’une requête SQL personnalisée

Le connecteur Databricks fournit la source de données Databricks.Query qui permet à un utilisateur de fournir une requête SQL personnalisée.

  1. Suivez les étapes décrites dans Se connecter avec Power BI Desktop pour créer une connexion, à l’aide de l’option Importer comme mode de connectivité des données.

  2. Dans le Navigateur, cliquez avec le bouton droit sur l’élément le plus haut contenant le nom d’hôte sélectionné et le chemin HTTP, puis cliquez sur Transformer les données pour ouvrir l’éditeur Power Query.

    Cliquez sur Transformer les données dans le navigateur

  3. Dans la barre de fonctions, remplacez le nom Databricks.Catalogs de la fonction par Databricks.Query et appliquez la modification. Cela crée une fonction Power Query qui prend une requête SQL en tant que paramètre.

  4. Entrez la requête SQL souhaitée dans le champ de paramètre, puis cliquez sur Appeler. Cette opération exécute la requête et une nouvelle table est créée avec les résultats de la requête comme contenu.

Accéder à une source de données Azure Databricks à l’aide du service Power BI

Lorsque vous publiez un rapport sur le service Power BI, vous vous connectez à Azure Databricks à l’aide d’un jeton d’accès personnel. Dans le service Power BI, vous pouvez également activer l’authentification unique (SSO) pour que les utilisateurs puissent accéder aux rapports créés avec le mode de stockage DirectQuery en transmettant leurs informations d’identification Microsoft Entra ID à Azure Databricks.

  1. Publier votre rapport Power BI à partir de Power BI Desktop dans le service Power BI.

  2. Activez l’authentification unique (SSO) pour le rapport et la source de données sous-jacente.

    1. Accédez au jeu de données sous-jacent Azure Databricks du rapport dans le service Power BI, développez Informations d’identification de la source de données, puis cliquez sur Modifier les informations d’identification.
    2. Dans la boîte de dialogue de configuration, sélectionnez Les lecteurs de rapports peuvent uniquement accéder à cette source de données avec leurs propres identités Power BI avec DirectQuery, puis cliquez sur Se connecter.

    Activer l’authentification unique pour l’accès aux données Databricks

    Une fois cette option sélectionnée, l’accès à la source de données est géré par DirectQuery et par l’identité Microsoft Entra ID de l’utilisateur(-trice) qui accède au rapport. Si vous ne sélectionnez pas cette option, seul l’utilisateur qui a publié le rapport a accès à la source de données Azure Databricks.

Détection automatisée du proxy HTTP

Power BI Desktop version 2.104.941.0 et ultérieures (version de mai 2022) dispose d’une prise en charge intégrée de la détection de la configuration du proxy HTTP à l’échelle du système Windows.

Power BI Desktop peut détecter et utiliser automatiquement votre configuration de proxy HTTP à l’échelle du système Windows.

Si le serveur proxy ne fournit pas de point de distribution de listes de révocation des certificats (CDP), Power BI peut afficher le message d’erreur suivant :

Details: "ODBC: ERROR [HY000] [Microsoft][DriverSupport] (1200)
-The revocation status of the certificate or one of the certificates in the certificate chain is unknown."

Pour corriger cette erreur, effectuez les étapes suivantes :

  1. Créez le fichier C:\Program Files\Microsoft Power BI Desktop\bin\ODBC Drivers\Simba Spark ODBC Driver\microsoft.sparkodbc.ini s’il n’existe pas.

  2. Ajoutez la configuration suivante à votre fichier microsoft.sparkodbc.ini :

    [Driver]
    CheckCertRevocation=0
    

Connecteur Delta Sharing Power BI

Le connecteur Delta Sharing Power BI permet aux utilisateurs de découvrir, d’analyser et de visualiser les jeux de données partagés avec eux via le protocole ouvert Delta Sharing. Ce protocole permet l’échange sécurisé de jeux de données entre les produits et les plateformes par le biais de l’API REST et du stockage cloud.

Pour obtenir des instructions de connexion, consultez Power BI : Lire des données partagées.

Limites

  • Le connecteur Azure Databricks prend en charge les proxys web. Toutefois, les paramètres de proxy automatiques définis dans les fichiers .pac ne sont pas pris en charge.
  • Dans le connecteur Azure Databricks, la source de données Databricks.Query n’est pas prise en charge en combinaison avec le mode DirectQuery.
  • Les données qui sont chargées par le connecteur Delta Sharing doivent pouvoir être contenues dans la mémoire de votre machine. Pour cela, le connecteur utilise la limite de lignes définie précédemment.

Ressources supplémentaires

Support