Use um notebook para carregar dados em seu Lakehouse
Neste tutorial, saiba como ler/gravar dados em seu Lakehouse com um notebook. A API do Spark e a API do Pandas são compatíveis para atingir esse objetivo.
Carregar dados com uma API do Apache Spark
Na célula de código do notebook, use o exemplo de código a seguir para ler os dados da origem e carregá-los em Arquivos, Tabelas ou em ambas as seções do seu Lakehouse.
Para especificar o local de onde ler, você pode usar o caminho relativo se os dados forem do Lakehouse padrão do notebook atual, ou pode usar o caminho ABFS absoluto se os dados forem de outro Lakehouse. você pode copiar esse caminho no menu de contexto dos dados
Copiar caminho ABFS : isso retorna o caminho absoluto do arquivo
Copiar caminho relativo para o Spark : isso retorna o caminho relativo do arquivo no Lakehouse padrão
df = spark.read.parquet("location to read from")
# Keep it if you want to save dataframe as CSV files to Files section of the default Lakehouse
df.write.mode("overwrite").format("csv").save("Files/ " + csv_table_name)
# Keep it if you want to save dataframe as Parquet files to Files section of the default Lakehouse
df.write.mode("overwrite").format("parquet").save("Files/" + parquet_table_name)
# Keep it if you want to save dataframe as a delta lake, parquet table to Tables section of the default Lakehouse
df.write.mode("overwrite").format("delta").saveAsTable(delta_table_name)
# Keep it if you want to save the dataframe as a delta lake, appending the data to an existing table
df.write.mode("append").format("delta").saveAsTable(delta_table_name)
Carregue dados com uma API do Pandas
Para dar suporte à API do Pandas, o Lakehouse padrão será montado automaticamente no notebook. O ponto de montagem é "/lakehouse/default/". Você pode usar esse ponto de montagem para ler/gravar dados de/para o Lakehouse padrão. A opção "Copiar Caminho da API de Arquivo" do menu de contexto retornará o caminho da API de Arquivo desse ponto de montagem. O caminho retornado da opção Copiar caminho ABFS também funciona para a API do Pandas.
Copiar Caminho da API de Arquivo :Isso retorna o caminho sob o ponto de montagem do Lakehouse padrão
# Keep it if you want to read parquet file with Pandas from the default lakehouse mount point
import pandas as pd
df = pd.read_parquet("/lakehouse/default/Files/sample.parquet")
# Keep it if you want to read parquet file with Pandas from the absolute abfss path
import pandas as pd
df = pd.read_parquet("abfss://DevExpBuildDemo@msit-onelake.dfs.fabric.microsoft.com/Marketing_LH.Lakehouse/Files/sample.parquet")
Dica
Para a API do Spark, use a opção Copiar caminho ABFS ou Copiar caminho relativo para o Spark para obter o caminho do arquivo. Para a API do Pandas, use a opção Copiar caminho ABFS ou Copiar caminho da API de Arquivo para obter o caminho do arquivo.
A maneira mais rápida de fazer com que o código funcione com a API do Spark ou a API do Pandas é usar a opção Carregar dados e selecionar a API que você deseja usar. O código será gerado automaticamente em uma nova célula de código do notebook.
Conteúdo relacionado
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de