Conectar-se ao Azure Databricks do Python ou R

Neste artigo, você aprenderá a usar o driver ODBC Databricks para conectar o Azure Databricks com linguagem R, Python. Uma vez estabelecida a conexão, você pode acessar os dados no Azure Databricks dos clientes de R, Python. Você também pode usar os clientes para analisar mais profundamente os dados.

Pré-requisitos

  • Você deve ter um workspace do Azure Databricks, um cluster Spark e dados de exemplo associados ao seu cluster. Se você ainda não tiver esses pré-requisitos, conclua o início rápido em Introdução.

  • Baixar o driver ODBC Databricks da Página de download do driver de Databricks. Instale a versão de 64 bits do driver.

  • Configure um token de acesso pessoal no Databricks. Para obter instruções, consulte o Gerenciamento de Token.

Definir um DSN

Um nome de fonte de dados (DSN) contém as informações sobre uma fonte de dados específica. Um driver ODBC precisa desse DSN para se conectar a uma fonte de dados. Nesta seção, você configura um DSN que pode ser usado com o driver ODBC Databricks para se conectar ao Azure Databricks de clientes como o Python ou R.

  1. No workspace do Azure Databricks, navegue até o cluster do Databricks.

    Open Databricks cluster

  2. Sob o guia Configuração, clique no guia JDBC/ODBC e copie os valores para o Nome do host do servidor e Caminho HTTP. Você precisa desses valores para concluir as etapas neste artigo.

    Get Databricks configuration

  3. No computador, inicie o aplicativo Fontes de dados ODBC de 64 bits.

    Launch ODBC Data Sources app

  4. Sob o guia DSN do usuário, clique em Adicionar. Na caixa de diálogo Criar Nova Fonte de Dados, selecione Driver ODBC do Simba Spark e clique em Concluir.

    Add ODBC data source

  5. Na caixa de diálogo Driver ODBC Simba Spark, forneça os valores a seguir:

    Configure DSN

    A tabela a seguir fornece informações sobre os valores a fornecer na caixa de diálogo.

    Campo Valor
    Nome da fonte de dados Forneça um nome para a fonte de dados.
    Host(s) Forneça o valor que você copiou do workspace do Databricks para nome do host do servidor.
    Porta Inserir 443.
    Mecanismo de>Autenticação Selecione Nome de usuário e senha.
    Nome de usuário Insira o token.
    Senha Forneça o valor do token que você copiou do workspace do Databricks.

    Execute as seguintes etapas adicionais na caixa de diálogo de configuração de DSN.

    • Clique em Opções de HTTP. Na caixa de diálogo que é aberta, cole o valor para o Caminho de HTTP que você copiou do workspace do Databricks. Clique em OK.
    • Clique nas Opções do SSL. Na caixa de diálogo que é aberta, selecione a caixa de seleção Habilitar SSL. Clique em OK.
    • Clique em Testar para testar a conexão no Databricks do Azure. Clique em OK para salvar a configuração.
    • Na caixa de diálogo Administrador de Fonte de Dados de ODBC, clique em OK.

Agora você tem o seu DSN configurado. Nas próximas seções, você deve usar esse DSN para se conectar ao Azure Databricks do Python ou R.

Conecte-se do R

Observação

Esta seção fornece informações sobre como integrar um cliente do R Studio em execução na área de trabalho com o Azure Databricks. Para obter instruções sobre como usar o Studio R no próprio cluster do Azure Databricks, consulte R Studio no Azure Databricks.

Nesta seção, você deve usar uma linguagem R IDE para os dados de referência disponíveis no Azure Databricks. Antes de começar, você deve ter os itens a seguir instalados no seu computador.

  • Um IDE para a linguagem R. Este artigo usa RStudio para área de trabalho. Você pode instalá-lo a partir do download do Studio R.
  • Se você usa o RStudio para área de trabalho como seu IDE, instale também o Microsoft R Client https://aka.ms/rclient/.

Abra o RStudio e siga as etapas a seguir:

  • Referência ao pacote RODBC. Isso permite que você se conecte ao Azure Databricks usando o DSN que você criou anteriormente.
  • Estabeleça uma conexão usando o DSN.
  • Execute uma consulta SQL nos dados no Azure Databricks. No snippet de código a seguir, radio_sample_data é uma tabela que já existe no Azure Databricks.
  • Execute algumas operações na consulta para verificar a saída.

O snippet de código a seguir executa essas tarefas:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Conecte-se do Python

Nesta seção, você deve usar um IDE Python (como IDLE) para os dados de referência disponíveis no Azure Databricks. Antes de começar, você precisará atender aos seguintes pré-requisitos:

  • Instalar o Python a partir daqui. Instalar o Python deste link também instala IDLE.

  • A partir de um prompt de comando no computador, instale o pacote pyodbc. Execute o comando a seguir:

    pip install pyodbc
    

Abra o IDLE e siga as etapas a seguir:

  • Importar o pacote pyodbc. Isso permite que você se conecte ao Azure Databricks usando o DSN que você criou anteriormente.
  • Estabeleça uma conexão usando o DSN que você criou anteriormente.
  • Execute uma consulta SQL usando a conexão criada por você. No snippet de código a seguir, radio_sample_data é uma tabela que já existe no Azure Databricks.
  • Execute algumas operações na consulta para verificar a saída.

O snippet de código a seguir executa essas tarefas:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Próximas etapas