Share via


Conectar o Tableau ao Azure Databricks

Este artigo mostra como conectar o Azure Databricks ao Tableau Desktop e inclui informações sobre outras edições do Tableau. Você pode se conectar por meio do Partner Connect ou manualmente.

Ao usar o Azure Databricks como uma fonte de dados com o Tableau, você pode fornecer análises interativas avançadas, levando as contribuições de cientistas de dados e engenheiros de dados para analistas de negócios, colocando-as em escala para grandes conjuntos de dados.

Para obter mais informações sobre como usar o Tableau Desktop para criar relatórios e visualizações, leia Tutorial: Introdução ao Tableau Desktop.

Requisitos

Conectar-se ao Tableau Desktop usando o Partner Connect

Você pode usar o Partner Connect para conectar um cluster ou um SQL warehouse ao Tableau Desktop com apenas alguns cliques.

  1. Verifique se a sua conta do Azure Databricks, seu workspace e o usuário conectado atendem a todos os requisitos do Partner Connect.
  2. Na barra lateral, clique em botão do Partner ConnectPartner Connect.
  3. Clique no bloco do Tableau.
  4. Na caixa de diálogo Conectar-se ao parceiro, em Computação, escolha o nome do recurso de computação do Azure Databricks que deseja conectar.
  5. Escolha Baixar arquivo de conexão.
  6. Abra o arquivo de conexão baixado, que inicia o Tableau Desktop.
  7. No Tableau Desktop, insira suas credenciais de autenticação e clique em Entrar:
    • Para usar um token do Microsoft Entra ID, insira o token em Nome de Usuário e seu token do Microsoft Entra ID em Senha.
    • Para usar um token de acesso pessoal do Azure Databricks, insira o token em Nome de usuário e o token de acesso pessoal em Senha.
    • Para usar suas credenciais do Microsoft Entra ID, clique em Editar Conexão, clique duas vezes no banco de dados na guia Dados e selecione a Microsoft Entra ID na lista Autenticação.
      • Para o Tableau Desktop 2021.1 e superior:

        1. Se não usar uma conta de convidado B2B do Microsoft Entra ID (antigo Azure Active Directory) nem o Azure Databricks no Azure Government, você poderá simplesmente inserir https://login.microsoftonline.com/common como ponto de extremidade do OAuth.

        Configurar autenticação

        1. Se você usar uma conta de convidado do Microsoft Entra ID B2B ou o Azure Databricks no Azure Government, entre em contato com o administrador para obter um warehouse dedicado do Microsoft Entra ID.

        Observação

        Se você não for um administrador, será exibido um erro de aprovação de administrador necessária. Peça a um administrador global, administrador de aplicativos de nuvem ou administrador de aplicativos para conceder permissões para se conectar ao Tableau e tente entrar novamente.

        Se a sua conta do Microsoft Entra ID tiver o fluxo de trabalho de consentimento do administrador habilitado, o Tableau Desktop solicitará que você solicite acesso ao Tableau. Depois que um administrador global, administrador de aplicativos de nuvem ou administrador de aplicativo aprovar a solicitação, tente entrar novamente.

Depois de se conectar com êxito ao Tableau Desktop, você poderá parar aqui. As informações restantes deste artigo abrangem informações adicionais sobre o Tableau, como a conexão manual com o Tableau Desktop, a configuração do Tableau Server no Linux, como usar o Tableau Online, bem como as melhores práticas e a solução de problemas com o Tableau.

Conectar-se ao Tableau Desktop manualmente

Siga estas instruções para se conectar a um cluster ou a um SQL warehouse com o Tableau Desktop.

Observação

Para se conectar mais rapidamente com o Tableau Desktop, use o Partner Connect.

  1. Inicie o Tableau Desktop.

  2. Clique em Arquivo > Novo.

  3. Na guia Dados, clique em Conectar-se a Dados.

  4. Na lista de conectores, clique em Databricks.

  5. Insira o Nome do Host do Servidor e o Caminho HTTP.

  6. Em Autenticação, escolha o método de autenticação, insira suas credenciais de autenticação e clique em Entrar.

    • Para usar um token do Microsoft Entra ID, selecione Token de Acesso Pessoal e insira seu token do Microsoft Entra ID em Senha.

    • Para usar um token de acesso pessoal do Azure Databricks, selecione Token de Acesso Pessoal e insira seu token de acesso pessoal em Senha.

    • Para usar suas credenciais do Microsoft Entra ID, selecione Microsoft Entra ID.

      Para o Tableau Desktop 2021.1 e superior:

      • Se não usar uma conta de convidado B2B do Microsoft Entra ID (antigo Azure Active Directory) nem o Azure Databricks no Azure Government, você poderá simplesmente inserir https://login.microsoftonline.com/common como ponto de extremidade do OAuth.

        Configurar autenticação

        • Se você usar uma conta de convidado do Microsoft Entra ID B2B ou o Azure Databricks no Azure Government, entre em contato com o administrador para obter um warehouse dedicado do Microsoft Entra ID.

      Observação

      Se você não for um administrador, será exibido um erro de aprovação de administrador necessária. Peça a um administrador global, administrador de aplicativos de nuvem ou administrador de aplicativos para conceder permissões para se conectar ao Tableau e tente entrar novamente.

      Se a sua conta do Microsoft Entra ID tiver o fluxo de trabalho de consentimento do administrador habilitado, o Tableau Desktop solicitará que você solicite acesso ao Tableau. Depois que um administrador global, administrador de aplicativos de nuvem ou administrador de aplicativo aprovar a solicitação, tente entrar novamente.

    Se o Catálogo do Unity estiver habilitado para seu workspace, defina também o catálogo padrão. Na guia Avançado, para Propriedades de conexão, adicione Catalog=<catalog-name>. Para alterar o catálogo padrão, na guia SQL Inicial, insira USE CATALOG <catalog-name>.

Depois de se conectar com êxito ao Tableau Desktop, você poderá parar aqui. As informações restantes deste artigo abrangem informações adicionais sobre o Tableau, como a configuração do Tableau Server no Linux, como usar o Tableau Online, bem como as melhores práticas e a solução de problemas com o Tableau.

Tableau Server no Linux

Edite /etc/odbcinst.ini para incluir a seguinte:

[Simba Spark ODBC Driver 64-bit]
Description=Simba Spark ODBC Driver (64-bit)
Driver=/opt/simba/spark/lib/64/libsparkodbc_sb64.so

Observação

O Tableau Server no Linux recomenda a arquitetura de processamento de 64 bits.

Publicar e atualizar uma pasta de trabalho no Tableau Online

Este artigo mostra como publicar uma pasta de trabalho por meio do Tableau Desktop no Tableau Online e mantê-la atualizada quando a fonte de dados for alterada. Você precisa ter uma pasta de trabalho no Tableau Desktop e uma conta do Tableau Online.

  1. Extraia os dados da pasta de trabalho por meio do Tableau Desktop: no Tableau Desktop, com a pasta de trabalho que deseja publicar exibida, clique em Dados ><data-source-name>> Extrair Dados.
  2. Na caixa de diálogo Extrair Dados, clique em Extrair.
  3. Navegue até um local no computador local em que deseja salvar os dados extraídos e clique em Salvar.
  4. Publique a fonte de dados da pasta de trabalho no Tableau Online: no Tableau Desktop, clique em Servidor > Publicar Fonte de Dados ><data-source-name>.
  5. Se a caixa de diálogo Entrar no Tableau Server for exibida, clique no link do Tableau Online e siga as instruções na tela para entrar no Tableau Online.
  6. Na caixa de diálogo Publicar Fonte de Dados no Tableau Online, ao lado de Atualização não Habilitada, clique no link Editar.
  7. Na caixa do submenu exibida, em Autenticação, altere Atualização não habilitada para Permitir acesso à atualização.
  8. Clique em qualquer lugar fora do submenu para ocultá-la.
  9. Selecione Atualizar pasta de trabalho para usar a fonte de dados publicada.
  10. Clique em Publicar. A fonte de dados será exibida no Tableau Online.
  11. No Tableau Online, na caixa de diálogo Publicação Concluída, clique em Agendamento e siga as instruções na tela.
  12. Publicar a pasta de trabalho no Tableau Online: no Tableau Desktop, com a pasta de trabalho que deseja publicar exibida, clique em Servidor > Publicar Pasta de Trabalho .
  13. Na caixa de diálogo Publicar Pasta de Trabalho no Tableau Online, clique em Publicar. A pasta de trabalho será exibida no Tableau Online.

O Tableau Online verificará as alterações na fonte de dados de acordo com o agendamento que você definiu e atualizará a pasta de trabalho publicada se forem detectadas alterações.

Para obter mais informações, confira o seguinte no site do Tableau:

Melhores práticas e solução de problemas

As duas ações fundamentais para otimizar as consultas do Tableau são:

  • Reduzir o número de registros consultados e visualizados em um só gráfico ou painel.
  • Reduzir o número de consultas enviadas pelo Tableau em um só gráfico ou painel.

A decisão de qual experimentar primeiro depende do painel. Se você tem vários gráficos diferentes para usuários individuais no mesmo painel, é provável que o Tableau esteja enviando muitas consultas para o Azure Databricks. Caso você tenha apenas alguns gráficos, mas eles demoram muito tempo para serem carregados, provavelmente, há muitos registros sendo retornados pelo Azure Databricks para um carregamento eficiente.

A gravação de desempenho do Tableau, disponível no Tableau Desktop e no Tableau Server, pode ajudar você a entender os pontos de gargalos de desempenho identificando os processos que causam latência quando determinado fluxo de trabalho ou painel é executado.

Habilitar a gravação de desempenho para depurar qualquer problema do Tableau

Por exemplo, se a execução da consulta for o problema, você saberá que ela tem a ver com o processo do mecanismo de dados ou a fonte de dados que você está consultando. Se o layout visual estiver sendo executado lentamente, você saberá que ele é o VizQL.

Se a gravação de desempenho indica que a latência está na execução da consulta, é provável que leva muito tempo para o Azure Databricks retornar os resultados ou para a sobreposição do ODBC/conector processar os dados em SQL para o VizQL. Quando isso ocorre, você deve analisar o que está retornando e tentar alterar o padrão analítico para ter um painel por grupo, segmento ou artigo, em vez de tentar colocar tudo em um painel e depender de Filtros Rápidos.

Se o baixo desempenho for causado pela classificação ou pelo layout visual, o problema poderá ser o número de marcas que o painel está tentando retornar. O Azure Databricks pode retornar um milhão de registros rapidamente, mas talvez o Tableau não consiga computar o layout e classificar os resultados. Se esse for um problema, agregue a consulta e faça uma busca detalhadas nos níveis inferiores. Experimente também um computador maior, pois o Tableau é restrito apenas por recursos físicos no computador em que está sendo executado.

Para ver um tutorial detalhado sobre o gravador de desempenho, confira Criar uma gravação de desempenho.

Comparação de desempenho entre o Tableau Server e o Tableau Desktop

Em geral, um fluxo de trabalho executado no Tableau Desktop não é mais rápido no Tableau Server. Um painel que não é executado no Tableau Desktop não será executado no Tableau Server. É importante manter isso em mente.

Na verdade, fazer tudo funcionar no Desktop é uma técnica de solução de problemas muito melhor, porque o Tableau Server tem mais processos a serem considerados ao solucionar problemas. E se tudo funcionar no Tableau Desktop, mas não no Tableau Server, você poderá restringir com segurança o problema aos processos do Tableau Server que não estão no Tableau Desktop.

Configuração

Por padrão, os parâmetros da URL de conexão substituem aqueles no DSN do ODBC do Simba. Há duas maneiras de personalizar as configurações do ODBC do Tableau:

  • Arquivo .tds para uma só fonte de dados:

    1. Siga as instruções descritas em Salvar fontes de dados para exportar o arquivo .tds para a fonte de dados.
    2. Localize a linha de propriedade odbc-connect-string-extras='' no arquivo .tds e defina os parâmetros. Por exemplo, para habilitar AutoReconnect e UseNativeQuery, altere a linha para odbc-connect-string-extras='AutoReconnect=1,UseNativeQuery=1'.
    3. Recarregue o arquivo .tds reconectando a conexão.

    O recurso de computação é otimizado para usar menos memória de heap para coletar resultados grandes, ou seja, ele pode fornecer mais linhas por bloco de busca do que o padrão do ODBC do Simba. Acrescente RowsFetchedPerBlock=100000' ao valor da propriedade odbc-connect-string-extras.

  • Arquivo .tdc para todas as fontes de dados:

    1. Se você nunca criou um arquivo .tdc, adicione TableauTdcExample.tdc à pasta Document/My Tableau Repository/Datasources.
    2. Adicione o arquivo a todas as instalações do Tableau Desktop dos desenvolvedores, para que ele funcione quando os painéis forem compartilhados.

Otimizar gráficos (planilhas)

Há várias otimizações táticas de gráficos que podem ajudar você a aprimorar o desempenho das suas planilhas do Tableau.

Para filtros que não são alterados com frequência e que não devem ter interação, use filtros de contexto, que aceleram o tempo de execução. Outra boa regra prática é usar instruções if/else em vez de instruções case/when nas consultas.

O Tableau pode fazer o pushdown de filtros em fontes de dados, o que pode acelerar muito as velocidades da consulta. Confira Filtragem em várias fontes de dados usando um parâmetro e Filtrar dados em várias fontes de dados para obter mais informações sobre filtros de pushdown da fonte de dados.

Será melhor evitar cálculos de tabela se você puder, pois eles precisam examinar todo o conjunto de dados. Para obter mais informações sobre cálculos de tabela, confira Transformar valores com cálculos de tabela.

Otimizar painéis

Estas são algumas dicas e exercícios de solução de problemas que você pode aplicar para aprimorar o desempenho do seu painel do Tableau.

Uma fonte comum de problemas em painéis do Tableau conectados ao Azure Databricks é o uso de filtros rápidos em painéis individuais que atendem a vários usuários, funções ou segmentos diferentes. Você pode anexar filtros rápidos globais a todos os gráficos no painel. É um ótimo recurso, mas que pode causar problemas rapidamente. Um filtro rápido global em um painel com cinco gráficos faz com que, no mínimo, dez consultas sejam enviadas para o Azure Databricks. Isso pode chegar a números maiores à medida que mais filtros são adicionados e causar grandes problemas de desempenho, pois o Spark não foi criado para lidar com muitas consultas simultâneas iniciadas no mesmo exato momento. Isso se torna mais problemático quando o cluster do Azure Databricks ou o SQL Warehouse que você está utilizando não é grande o suficiente para tratar o alto volume de consultas.

Como uma primeira etapa, recomendamos que você use a gravação de desempenho do Tableau para solucionar o que pode estar causando o problema.

Se o baixo desempenho for causado pela classificação ou pelo layout visual, o problema poderá ser o número de marcas que o painel está tentando retornar. O Azure Databricks pode retornar um milhão de registros rapidamente, mas talvez o Tableau não consiga computar o layout e classificar os resultados. Se esse for um problema, agregue a consulta e faça uma busca detalhadas nos níveis inferiores. Experimente também um computador maior, pois o Tableau é restrito apenas por recursos físicos no computador em que está sendo executado.

Para obter informações sobre a busca detalhada no Tableau, confira Fazer uma busca detalhada.

Em geral, ver muitas marcas granulares é um padrão de análise inadequado, pois não fornece insights. A busca detalhada de níveis mais altos de agregação faz mais sentido e reduz o número de registros que precisam ser processados e visualizados.

Usar ações para otimizar painéis

Para fazer uma busca detalhada do grupo até segmento e artigo para obter a mesma análise e informações que o painel disperso, você pode usar as ações do Tableau. As ações permitem que você clique em uma marca (por exemplo, um estado em um mapa) e seja enviado para outro painel que aplica filtros com base no estado em que você clica. Isso reduz a necessidade de ter muitos filtros em um painel e reduz o número de registros que precisam ser gerados, pois você pode definir uma ação para não gerar registros até obter um predicado para filtragem.

Para obter mais informações, confira Ações e Seis dicas para aprimorar o desempenho dos seus painéis.

Cache

O cache de dados é uma boa maneira de aprimorar o desempenho de planilhas ou de painéis.

Cache no Tableau

O Tableau tem quatro camadas de cache antes de voltar aos dados, independentemente de os dados estarem em uma conexão dinâmica ou uma extração:

  • Blocos: se alguém estiver carregando exatamente o mesmo painel e nada mudar, o Tableau tentará reutilizar os mesmos blocos para os gráficos. Isso é semelhante aos blocos do Google Maps.
  • Modelo: há cálculos matemáticos usados para gerar visualizações no caso de blocos que não podem ser usados. O Tableau Server tenta usar os mesmos modelos.
  • Resumo: os resultados agregados das consultas também são armazenados. Esse é o terceiro nível de “defesa”. Se uma consulta retornar Sum(Sales), Count(orders) e Sum(Cost) em uma consulta anterior e uma consulta futura quiser apenas Sum(Sales), o Tableau vai capturar esse resultado e usá-lo.
  • Cache nativo: se a consulta for exatamente igual à outra, o Tableau usará os mesmos resultados. Este é o último nível de cache. Se isso falhar, o Tableau voltará aos dados.

Frequência de cache no Tableau

O Tableau tem configurações administrativas para cache com mais ou menos frequência. Se o servidor estiver definido para ser Atualizado com Menos Frequência, o Tableau manterá os dados no cache por até 12 horas. Se ele estiver definido para ser Atualizado com Mais Frequência, o Tableau voltará aos dados em cada atualização de página.

Os clientes que têm o mesmo painel sendo usados repetidamente (por exemplo, “Relatórios de pipeline de segunda-feira de manhã”) devem estar em um servidor definidos para Atualizar com Menos Frequência para que todos os painéis usem o mesmo cache.

Aquecimento de cache no Tableau

No Tableau, você pode aquecer o cache definindo uma assinatura para o painel a ser enviada antes de você desejar que o painel seja exibido. Isso ocorre porque o painel precisa ser renderizado para gerar a imagem para o email de assinatura. Confira Como aquecer o cache do Tableau Server usando assinaturas.

Tableau Desktop: o erro The drivers... are not properly installed é exibido

Problema: quando você tenta conectar o Tableau Desktop ao Databricks, o Tableau exibe uma mensagem de erro na caixa de diálogo de conexão com um link para a página de download do driver, em que você pode encontrar links do driver e instruções de instalação.

Causa: a instalação do Tableau Desktop não está executando um driver compatível.

Resolução: baixe o driver ODBC do Databricks versão 2.6.15 ou superior.

Confira também: Erro “Os drivers… não estão instalados corretamente” no site do Tableau.

Recursos adicionais