Opções de formato de dados

O Azure Databricks tem ligações de palavras-chave incorporadas para todos os formatos de dados suportados nativamente pelo Apache Spark. O Azure Databricks usa o Delta Lake como o protocolo padrão para ler e gravar dados e tabelas, enquanto o Apache Spark usa o Parquet.

Estes artigos fornecem uma visão geral de muitas das opções e configurações disponíveis quando você consulta dados no Azure Databricks.

Os seguintes formatos de dados têm configurações de palavra-chave incorporadas no Apache Spark DataFrames e SQL:

O Azure Databricks também fornece uma palavra-chave personalizada para carregar experimentos MLflow.

Formatos de dados com considerações especiais

Alguns formatos de dados requerem configuração adicional ou considerações especiais para uso:

  • O Databricks recomenda o carregamento de imagens como binary dados.
  • As tabelas do Hive são suportadas nativamente pelo Apache Spark, mas requerem configuração no Azure Databricks.
  • O Azure Databricks pode ler diretamente arquivos compactados em muitos formatos de arquivo. Você também pode descompactar arquivos compactados no Azure Databricks, se necessário.
  • LZO requer uma instalação de codec.

Para obter mais informações sobre origens de dados do Apache Spark, veja Funções Genéricas de Carregar/Guardar e Opções Genéricas de Origem de Ficheiro.