Use um notebook para carregar dados em seu Lakehouse

Artigo
12/06/2023

Neste tutorial, saiba como ler/gravar dados em seu Lakehouse com um notebook. A API do Spark e a API do Pandas são compatíveis para atingir esse objetivo.

Carregar dados com uma API do Apache Spark

Na célula de código do notebook, use o exemplo de código a seguir para ler os dados da origem e carregá-los em Arquivos, Tabelas ou em ambas as seções do seu Lakehouse.

Para especificar o local de onde ler, você pode usar o caminho relativo se os dados forem do Lakehouse padrão do notebook atual, ou pode usar o caminho ABFS absoluto se os dados forem de outro Lakehouse. você pode copiar esse caminho no menu de contexto dos dados

Copiar caminho ABFS : isso retorna o caminho absoluto do arquivo

Copiar caminho relativo para o Spark : isso retorna o caminho relativo do arquivo no Lakehouse padrão

df = spark.read.parquet("location to read from") 

# Keep it if you want to save dataframe as CSV files to Files section of the default Lakehouse

df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)

# Keep it if you want to save dataframe as Parquet files to Files section of the default Lakehouse

df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)

# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default Lakehouse

df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)

# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table

df.write.mode("append").format("delta").saveAsTable(delta_table_name)

Carregue dados com uma API do Pandas

Para dar suporte à API do Pandas, o Lakehouse padrão será montado automaticamente no notebook. O ponto de montagem é "/lakehouse/default/". Você pode usar esse ponto de montagem para ler/gravar dados de/para o Lakehouse padrão. A opção "Copiar Caminho da API de Arquivo" do menu de contexto retornará o caminho da API de Arquivo desse ponto de montagem. O caminho retornado da opção Copiar caminho ABFS também funciona para a API do Pandas.

Copiar Caminho da API de Arquivo :Isso retorna o caminho sob o ponto de montagem do Lakehouse padrão

# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point 

import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")

# Keep it if you want to read parquet file with Pandas from the absolute abfss path 

import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")

Dica

Para a API do Spark, use a opção Copiar caminho ABFS ou Copiar caminho relativo para o Spark para obter o caminho do arquivo. Para a API do Pandas, use a opção Copiar caminho ABFS ou Copiar caminho da API de Arquivo para obter o caminho do arquivo.

A maneira mais rápida de fazer com que o código funcione com a API do Spark ou a API do Pandas é usar a opção Carregar dados e selecionar a API que você deseja usar. O código será gerado automaticamente em uma nova célula de código do notebook.

Explorar os dados em seu lakehouse com um notebook

Compartilhar via

Use um notebook para carregar dados em seu Lakehouse

Carregar dados com uma API do Apache Spark

Carregue dados com uma API do Pandas

Comentários

Comentários

Recursos adicionais

Compartilhar via

Use um notebook para carregar dados em seu Lakehouse

Carregar dados com uma API do Apache Spark

Carregue dados com uma API do Pandas

Conteúdo relacionado

Comentários

Comentários

Recursos adicionais