Compartilhar via


Opções de formato de arquivo

O Azure Databricks tem associações de palavra-chave internas para todos os formatos de dados com suporte nativo do Apache Spark. O Azure Databricks usa o Delta Lake como o protocolo padrão para ler e gravar dados e tabelas, enquanto o Apache Spark usa o Parquet.

Esses artigos fornecem uma visão geral de muitas das opções e configurações disponíveis ao consultar dados no Azure Databricks.

Os formatos de dados a seguir têm configurações de palavra-chave internas no DataFrames e SQL do Apache Spark:

O Azure Databricks também fornece uma palavra-chave personalizada para carregar experimentos do MLflow.

Formatos de dados com considerações especiais

Alguns formatos de dados requerem configuração adicional ou considerações especiais para uso:

  • O Databricks recomenda o carregamento de imagens como dados binary.
  • As tabelas do Hive têm suporte nativo pelo Apache Spark, mas exigem configuração no Azure Databricks.
  • O Azure Databricks pode ler diretamente arquivos compactados em muitos formatos de arquivo. Você também pode descompactar arquivos compactados no Azure Databricks, se necessário.
  • O LZO requer uma instalação codec.

Para obter mais informações sobre fontes de dados do Apache Spark, confira Funções genéricas para carregar/salvar e Opções de fontes de arquivo genéricas.