Share via


Opciones de formato de datos

Azure Databricks tiene enlaces de palabras clave integrados para todos los formatos de datos compatibles de forma nativa con Apache Spark. Azure Databricks usa Delta Lake como protocolo predeterminado para leer y escribir datos y tablas, mientras que Apache Spark usa Parquet.

En estos artículos se proporciona información general sobre muchas de las opciones y configuraciones disponibles al consultar datos en Azure Databricks.

Los formatos de datos siguientes tienen configuraciones de palabras clave integradas en dataframes de Apache Spark y SQL:

Azure Databricks también proporciona una palabra clave personalizada para cargar experimentos de MLflow.

Formatos de datos con consideraciones especiales

Algunos formatos de datos necesitan configuración adicional o consideraciones especiales para su uso:

  • Databricks recomienda cargar las imágenes como binary datos.
  • Las tablas de Hive son compatibles de forma nativa con Apache Spark, pero requieren configuración en Azure Databricks.
  • Azure Databricks puede leer directamente archivos comprimidos en muchos formatos de archivo. También puede descomprimir archivos comprimidos en Azure Databricks si es necesario.
  • LZO requiere la instalación de un códec.

Para más información sobre los orígenes de datos de Apache Spark, consulte los artículos sobre funciones genéricas de carga/guardado y opciones genéricas de origen de archivo.