Opções de formato de dados

Artigo
03/01/2024

O Azure Databricks tem ligações de palavras-chave incorporadas para todos os formatos de dados suportados nativamente pelo Apache Spark. O Azure Databricks usa o Delta Lake como o protocolo padrão para ler e gravar dados e tabelas, enquanto o Apache Spark usa o Parquet.

Estes artigos fornecem uma visão geral de muitas das opções e configurações disponíveis quando você consulta dados no Azure Databricks.

Os seguintes formatos de dados têm configurações de palavra-chave incorporadas no Apache Spark DataFrames e SQL:

O Azure Databricks também fornece uma palavra-chave personalizada para carregar experimentos MLflow.

Formatos de dados com considerações especiais

Alguns formatos de dados requerem configuração adicional ou considerações especiais para uso:

O Databricks recomenda o carregamento de imagens como binary dados.
As tabelas do Hive são suportadas nativamente pelo Apache Spark, mas requerem configuração no Azure Databricks.
O Azure Databricks pode ler diretamente arquivos compactados em muitos formatos de arquivo. Você também pode descompactar arquivos compactados no Azure Databricks, se necessário.
LZO requer uma instalação de codec.

Para obter mais informações sobre origens de dados do Apache Spark, veja Funções Genéricas de Carregar/Guardar e Opções Genéricas de Origem de Ficheiro.

Opções de formato de dados

Formatos de dados com considerações especiais

Recursos adicionais