Introdução à importação, leitura e modificação de dados

Este artigo descreve como importar dados em Azure Databricks usando o UI, ler dados importados usando as APIs spark e locais, e modificar dados importados usando comandos do Databricks File System (DBFS).

Importar dados

Se tiver pequenos ficheiros de dados na sua máquina local que pretende analisar com a Azure Databricks, pode importá-los para o DBFS utilizando a UI.

Nota

Esta funcionalidade pode ser desativada pelos utilizadores administrativos. Para ativar ou desativar esta definição, consulte Gerir o upload de dados.

Existem duas formas de enviar dados para a DBFS com a UI:

  • Faça o upload de ficheiros para a Loja de Ficheiros no UI de dados de upload.

    Carregar dados

  • Faça o upload de dados para uma tabela com a UI da tabela Create,que também é acessível através da caixa de dados de importância & explore na página de aterragem.

    Importar e explorar dados

Os ficheiros importados para a DBFS utilizando estes métodos são armazenados na FileStore.

Para ambientes de produção, recomendamos que carreque explicitamente ficheiros em DBFS utilizando os utilitários do sistema de ficheiros DBFS CLI, DBFS API, Databricks (dbutils.fs).

Também pode utilizar uma grande variedade de fontes de dados para aceder aos dados.

Leia os dados sobre os nosmos de cluster usando APIs de faísca

Você leu dados importados para DBFS em Apache Spark DataFrames usando APIs spark. Por exemplo, se importar um ficheiro CSV, pode ler os dados usando um destes exemplos.

Dica

Para facilitar o acesso, recomendamos que crie uma mesa. Consulte bases de dados e tabelas para obter mais informações.

Python

sparkDF = spark.read.csv('/FileStore/tables/state_income-9f7c5.csv', header="true", inferSchema="true")

R

sparkDF <- read.df(source = "csv", path = "/FileStore/tables/state_income-9f7c5.csv", header="true", inferSchema = "true")

Scala

val sparkDF = spark.read.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("/FileStore/tables/state_income-9f7c5.csv")

Leia os dados sobre os nódoas de cluster usando APIs locais

Também pode ler dados importados para a DBFS em programas em execução no nó do controlador Spark utilizando APIs de ficheiro local. Por exemplo:

Python

pandas_df = pd.read_csv("/dbfs/FileStore/tables/state_income-9f7c5.csv", header='infer')

R

df = read.csv("/dbfs/FileStore/tables/state_income-9f7c5.csv", header = TRUE)

Modificar dados carregados

Não é possível editar dados importados diretamente dentro dos dados Azure Databricks, mas pode substituir um ficheiro de dados utilizando as APIs spark,o DBFS CLI, DBFS APIe os utilitários do sistema de ficheiros Databricks (dbutils.fs).

Para eliminar dados da DBFS, utilize as mesmas APIs e ferramentas. Por exemplo, pode utilizar o comando Databricks Utilities dbutils.fs.rm :

dbutils.fs.rm("dbfs:/FileStore/tables/state_income-9f7c5.csv", true)

Aviso

Os dados eliminados não podem ser recuperados.