Compartilhar via


Integrar o OneLake ao Azure Databricks

Esse cenário mostra como se conectar ao OneLake por meio do Azure Databricks. Depois de concluir este tutorial, você poderá ler e gravar em um Lakehouse do Microsoft Fabric a partir do workspace do Azure Databricks.

Pré-requisitos

Antes de se conectar, você deve ter:

  • Um workspace do Fabric e um lakehouse.
  • Um workspace premium do Azure Databricks. Somente workspaces premium do Azure Databricks dão suporte à passagem de credencial do Microsoft Entra, necessário para esse cenário.

Configurar o workspace do Azure Databricks

  1. Abra o workspace do Azure Databricks e selecione Criar>Cluster.

  2. Para autenticar no OneLake com sua identidade do Microsoft Entra, você deve habilitar a passagem de credencial do Azure Data Lake Storage (ADLS) em seu cluster nas Opções Avançadas.

    Screenshot showing where to select Create cluster in the Advanced options screen.

    Observação

    Você também pode conectar o Databricks ao OneLake usando uma entidade de serviço. Para obter mais informações sobre como autenticar o Azure Databricks usando uma entidade de serviço, consulte Gerenciar entidade de serviço.

  3. Crie o cluster com os seus parâmetros de preferência. Para obter mais informações sobre como criar um cluster do Databricks, consulte Configurar clusters – Azure Databricks.

  4. Abra um notebook e conecte-o ao cluster recém-criado.

Criar notebook

  1. Navegue até o Lakehouse do Fabric e copie o caminho do Sistema de Arquivos de Blobs (ABFS) do Azure para o lakehouse. Você pode encontrá-lo no painel Propriedades.

    Observação

    O Azure Databricks só dá suporte ao driver do Azure Blob Filesystem (ABFS) ao ler e gravar no ADLS Gen2 e no OneLake: abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/.

  2. Salve o caminho para o lakehouse no notebook do Databricks. Esse lakehouse é onde você gravará seus dados processados mais tarde:

    oneLakePath = 'abfss://myWorkspace@onelake.dfs.fabric.microsoft.com/myLakehouse.lakehouse/Files/'
    
  3. Carregue dados de um conjunto de dados público do Databricks em um dataframe. Você também pode ler um arquivo de outro lugar no Fabric ou escolher um arquivo de outra conta do ADLS Gen2 que você já possui.

    yellowTaxiDF = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")
    
  4. Filtre, transforme ou prepare seus dados. Para esse cenário, você pode cortar seu conjunto de dados para carregamento mais rápido, unir a outros conjuntos de dados ou filtrar para resultados específicos.

    filteredTaxiDF = yellowTaxiDF.where(yellowTaxiDF.fare_amount<4).where(yellowTaxiDF.passenger_count==4)
    display(filteredTaxiDF)
    
  5. Grave seu dataframe filtrado no Lakehouse do Fabric usando o caminho do OneLake.

    filteredTaxiDF.write.format("csv").option("header", "true").mode("overwrite").csv(oneLakePath)
    
  6. Teste se seus dados foram gravados com sucesso lendo o arquivo recém-carregado.

    lakehouseRead = spark.read.format('csv').option("header", "true").load(oneLakePath)
    display(lakehouseRead.limit(10))
    

Parabéns. Agora você pode ler e gravar dados no Fabric usando o Azure Databricks.