Share via


Conectar o Power BI ao Azure Databricks

O Microsoft Power BI é um serviço de análise de negócios que fornece visualizações interativas com funcionalidades de business intelligence de autoatendimento, permitindo que os usuários finais criem relatórios e dashboards por conta própria sem precisar depender da equipe de tecnologia da informação ou dos administradores de banco de dados.

Ao usar o Azure Databricks como uma fonte de dados com o Power BI, você pode levar as vantagens do desempenho e da tecnologia do Azure Databricks para além de cientistas de dados e engenheiros de dados a todos os usuários empresariais.

Publicar no Power BI Online do Azure Databricks

Ao usar o Azure Databricks como uma fonte de dados com o Power BI Online, você pode criar conjuntos de dados do PowerBI a partir de tabelas ou esquemas diretamente da interface do usuário do Databricks.

Requisitos

  • Seus dados devem estar no Catálogo do Unity e sua computação (cluster) deve estar habilitada para o Catálogo do Unity. No momento, não há suporte para metastore do Hive.
  • Você deve ter uma licença premium (capacidade premium ou licença premium por usuário) do Power BI.
  • Você deve habilitar “os usuários para editar modelos de dados no serviço do Power BI (versão prévia)” nas configurações do Workspace e nas configurações do modelo de dados para editar o Modelo Semântico depois que ele for publicado. Você também pode editar o Modelo Semântico usando o Editor tabular fazendo uma conexão usando o ponto de extremidade XMLA.
  • Se você precisar habilitar a gravação XML no workspace do PowerBI, siga este link para obter instruções.
  • Se o workspace estiver em um link privado, você precisará atualizar manualmente as credenciais de fonte de dados do conjunto de dados no Power BI.

Como usar

Publicar tabelas do Azure Databricks em um conjunto de dados do Power BI

  1. Entre no workspace do Databricks e navegue até o Gerenciador de Catálogos. Selecione o esquema/tabelas a serem publicados. Não selecione em um metastore de hive ou no catálogo de exemplos.
  2. Na lista suspensa de computação, selecione o data warehouse que você deseja usar nesta publicação do Power BI.
  3. Com a tabela/esquema desejado a ser publicado aberto no Gerenciador de Catálogos, clique no botão “Usar com ferramentas de BI” no canto superior direito.
  4. Na lista suspensa que é aberta, clique na opção “Publicar no workspace do Power BI”.

Neste ponto, um menu será aberto no lado direito da janela. Siga os prompts dados pelo menu, detalhado abaixo:

  1. Clique em “Conectar-se à ao Microsoft Entra ID” para autenticar com sua conta Microsoft.
  2. No menu a seguir, selecione o workspace desejado para ser publicado na lista suspensa de “workspacesdo Power BI”. Na lista suspensa “Modo de Conjunto de Dados”, selecione DirectQuery (selecionado por padrão) ou Modo de Importação.
  3. Clique no botão azul “Publicar no Power BI” na parte inferior do menu.
  4. Aguarde até que o conjunto de dados seja publicado. Normalmente, isso leva cerca de 10 a 20 segundos.
  5. Quando o conjunto de dados for publicado, o botão azul terá um link rotulado “Abrir o Power BI”. Clique nisso para abrir seu novo conjunto de dados do Power BI em uma nova guia.

Recursos e anotações

  • Ao publicar um esquema que contém várias tabelas, todas as tabelas com colunas serão publicadas. Se nenhuma coluna estiver presente em nenhuma tabela, a publicação não será executada.
  • Os comentários em colunas de uma tabela no Databricks são copiados para as descrições das colunas correspondentes no Power BI.
  • Relações de chave estrangeira são preservadas no conjunto de dados publicado. No entanto, o Power BI dá suporte apenas a um caminho de relação ativo entre as duas tabelas. Assim, quando vários caminhos estiverem presentes no esquema no Databricks, algumas das relações correspondentes no Power BI serão definidas como inativas. Posteriormente, você poderá alterar quais relações estão ativas/inativas na exibição do modelo de dados no Power BI.
  • Um PAT (Token de Acesso Pessoal) é criado em seu nome para permitir que o Power BI acesse o modelo semântico. Esse método de autenticação pode ser alterado posteriormente nas configurações de fonte de dados do Power BI.

Conectar o Power BI Desktop ao Azure Databricks

Você pode conectar o Power BI Desktop aos clusters do Azure Databricks e aos SQL warehouses do Databricks. É possível também publicar relatórios do Power BI no serviço do Power BI e permitir que os usuários acessem os dados subjacentes do Azure Databricks usando o SSO (logon único), transmitindo as mesmas credenciais do Microsoft Entra ID (antigo Azure Active Directory) que eles usam para acessar o relatório.

Requisitos

  • Power BI Desktop 2.85.681.0 ou superior. Para usar dados gerenciados pelo Catálogo do Unity com o Power BI, use o Power BI Desktop 2.98.683.0 ou superior (versão de outubro de 2021).

    Observação

    O Power BI Desktop exige o Windows. Uma alternativa para outros sistemas operacionais é executar o Power BI Desktop em um host físico ou em uma máquina virtual baseada no Windows e se conectar a ele por meio do sistema operacional.

    Se você usar uma versão do Power BI Desktop inferior a 2.85.681.0, também precisará instalar o driver ODBC do Databricks no mesmo ambiente do Power BI Desktop.

  • Um token de acesso pessoal do Azure Databricks ou suas credenciais de conta do Microsoft Entra ID.

    Observação

    Como prática recomendada de segurança ao autenticar com tokens de acesso pessoal, o Databricks recomenda que você use tokens de acesso pessoal pertencentes a entidades de serviço em vez de usuários do workspace. Para criar tokens para entidades de serviço, consulte Gerenciar tokens para uma entidade de serviço.

  • Um cluster do Azure Databricks ou um SQL warehouse do Databricks.

Conectar o Power BI Desktop ao Azure Databricks por meio do Partner Connect

Você pode usar o Partner Connect para se conectar a um cluster ou a um SQL warehouse com o Power BI Desktop usando apenas alguns cliques.

  1. Verifique se a sua conta do Azure Databricks, seu workspace e o usuário conectado atendem aos requisitos do Partner Connect.

  2. Na barra lateral, clique em botão do Partner ConnectPartner Connect.

  3. Clique no bloco do Power BI.

  4. Na caixa de diálogo Conectar-se ao parceiro, em Computação, escolha o nome do recurso de computação do Azure Databricks que deseja conectar.

  5. Escolha Baixar arquivo de conexão.

  6. Abra o arquivo de conexão baixado, que inicia o Power BI Desktop.

  7. No Power BI Desktop, insira suas credenciais de autenticação:

    • Token de Acesso Pessoal: insira o seu token de acesso pessoal do Azure Databricks.
    • Microsoft Entra ID: clique em Entrar e siga as instruções na tela.
    • Nome de Usuário/Senha: não aplicável.
  8. Clique em Conectar.

  9. Selecione os dados do Azure Databricks a serem consultados no Navegador do Power BI.

    Navegador do Power BI

Conectar o Power BI Desktop ao Azure Databricks manualmente

Siga estas instruções, dependendo do método de autenticação escolhido, para se conectar a um cluster ou a um SQL warehouse com o Power BI Desktop. Os Databricks SQL warehouses são recomendados ao usar o Power BI no modo DirectQuery.

Observação

Para se conectar mais rapidamente com o Power BI Desktop, use o Partner Connect.

  1. Obtenha o Nome do Host do Servidor e o Caminho HTTP.

  2. Inicie o Power BI Desktop.

  3. Clique em Obter dados ou Arquivo > Obter dados.

  4. Clique em Obter dados para começar.

  5. Pesquise Databricks e clique no conector:

    • Azure Databricks
  6. Clique em Conectar.

  7. Insira o Nome do Host do Servidor e o Caminho HTTP.

  8. Selecione o Modo de conectividade de dados. Para obter informações sobre a diferença entre a Importação e o DirectQuery, confira Usar o DirectQuery no Power BI Desktop.

  9. Clique em OK.

  10. Selecione um método de autenticação:

    • Token de Acesso Pessoal: insira o seu token de acesso pessoal do Azure Databricks.
    • Microsoft Entra ID: clique em Entrar e siga as instruções na tela.
    • Nome de Usuário/Senha: não aplicável.
  11. Clique em Conectar.

  12. Selecione os dados do Azure Databricks a serem consultados no Navegador do Power BI. Se o Catálogo do Unity estiver habilitado para seu workspace, selecione um catálogo antes de selecionar um esquema e uma tabela.

    Navegador do Power BI

Usar uma consulta SQL personalizada

O conector do Databricks fornece a fonte de dados Databricks.Query que permite que um usuário forneça uma consulta SQL personalizada.

  1. Siga as etapas descritas em Conexão com o Power BI Desktop para criar uma conexão, usando Importar como o modo de conectividade de dados.

  2. No Navegador, clique com o botão direito do mouse no item mais acima que contém o nome do host selecionado e o caminho HTTP e clique em Transformar Dados para abrir o Editor do Power Query.

    Clicar em Transformar dados no Navegador

  3. Na barra de funções, substitua o nome da função Databricks.Catalogs por Databricks.Query e aplique a alteração. Isso cria uma função do Power Query que usa uma consulta SQL como parâmetro.

  4. Insira a consulta SQL desejada no campo de parâmetro e clique em Invocar. Isso executa a consulta e uma nova tabela é criada com os resultados da consulta como seu conteúdo.

Acessar uma fonte de dados do Azure Databricks usando o serviço do Power BI

Ao publicar um relatório no serviço do Power BI, você se conecta ao Azure Databricks usando um token de acesso pessoal. No serviço do Power BI, você também pode habilitar o SSO (logon único) para que os usuários possam acessar relatórios criados usando o modo de armazenamento DirectQuery passando suas credenciais do Microsoft Entra ID para o Azure Databricks.

  1. Publique seu relatório do Power BI por meio do Power BI Desktop no serviço do Power BI.

  2. Habilite o acesso de SSO (logon único) ao relatório e à fonte de dados subjacente.

    1. Acesse o conjunto de dados subjacente do Azure Databricks para o relatório no serviço do Power BI, expanda Credenciais da fonte de dados e clique em Editar credenciais.
    2. Na caixa de diálogo de configuração, selecione Os visualizadores de relatórios só podem acessar esta fonte de dados com identidades próprias do Power BI usando o DirectQuery e clique em Entrar.

    Ativar SSO para o acesso a dados do Databricks

    Com essa opção selecionada, o acesso à fonte de dados é tratado por meio do DirectQuery e gerenciado com a identidade do Microsoft Entra ID do usuário que acessa o relatório. Se você não selecionar essa opção, somente você, como o usuário que publicou o relatório, terá acesso à fonte de dados do Azure Databricks.

Detecção automatizada de proxy HTTP

Power BI Desktop versão 2.104.941.0 e superior (versão de maio de 2022) tem suporte interno para detectar configuração de proxy HTTP em todo o sistema Windows.

O Power BI Desktop pode detectar e usar automaticamente sua configuração de proxy HTTP em todo o sistema Windows.

Se o servidor proxy não fornecer um ponto de distribuição de CRL (CDP), o Power BI poderá mostrar a mensagem de erro:

Details: "ODBC: ERROR [HY000] [Microsoft][DriverSupport] (1200)
-The revocation status of the certificate or one of the certificates in the certificate chain is unknown."

Para corrigir esse erro, use as seguintes etapas:

  1. Crie o arquivo C:\Program Files\Microsoft Power BI Desktop\bin\ODBC Drivers\Simba Spark ODBC Driver\microsoft.sparkodbc.ini se ele não existir.

  2. Adicione a seguinte configuração ao arquivo microsoft.sparkodbc.ini:

    [Driver]
    CheckCertRevocation=0
    

Conector de Delta Sharing do Power BI

O conector de Delta Sharing do Power BI permite aos usuários descobrir, analisar e visualizar conjuntos de dados compartilhados com eles por meio do protocolo aberto do Delta Sharing. O protocolo permite a troca segura de conjuntos de dados em produtos e plataformas aproveitando a REST e o armazenamento em nuvem.

Para obter instruções de conexão, consulte Power BI: ler dados compartilhados.

Limitações

  • O conector do Azure Databricks dá suporte ao proxy Web. No entanto, não há suporte para configurações automáticas de proxy definidas em arquivos .pac.
  • No conector do Azure Databricks, não há suporte para a fonte de dados Databricks.Query combinada ao modo DirectQuery.
  • Os dados carregados pelo conector de Delta Sharing precisam caber na memória do computador. Para garantir isso, o conector limita o número de linhas importadas ao Limite de Linhas definido anteriormente.

Recursos adicionais

Suporte