Condividi tramite


Opzioni di formato dati

Azure Databricks include associazioni di parole chiave predefinite per tutti i formati di dati supportati in modo nativo da Apache Spark. Azure Databricks usa Delta Lake come protocollo predefinito per la lettura e la scrittura di dati e tabelle, mentre Apache Spark usa Parquet.

Questi articoli offrono una panoramica di molte delle opzioni e delle configurazioni disponibili quando si eseguono query sui dati in Azure Databricks.

I formati di dati seguenti hanno configurazioni di parole chiave predefinite in dataframe Apache Spark e SQL:

Azure Databricks fornisce anche una parola chiave personalizzata per il caricamento di esperimenti MLflow.

Formati di dati con considerazioni speciali

Alcuni formati di dati richiedono una configurazione aggiuntiva o considerazioni speciali per l'uso:

  • Databricks consiglia di caricare le immagini come binary dati.
  • Le tabelle Hive sono supportate in modo nativo da Apache Spark, ma richiedono la configurazione in Azure Databricks.
  • Azure Databricks può leggere direttamente i file compressi in molti formati di file. Se necessario, è anche possibile decomprimere i file compressi in Azure Databricks.
  • LZO richiede un'installazione codec.

Per altre informazioni sulle origini dati Apache Spark, vedere l'articolo sulle funzioni generiche di caricamento/salvataggio e quello sulle opzioni generiche per le origini file.