Datenformatoptionen

Azure Databricks verfügt über integrierte Schlüsselwortbindungen für alle Datenformate, die nativ von Apache Spark unterstützt werden. Azure Databricks verwendet Delta Lake als Standardprotokoll zum Lesen und Schreiben von Daten und Tabellen, während Apache Spark Parquet verwendet.

Diese Artikel bieten eine Übersicht über viele der Optionen und Konfigurationen, die für Abfragen von Daten in Azure Databricks verfügbar sind.

Die folgenden Datenformate verfügen alle über integrierte Schlüsselwortkonfigurationen in Apache Spark-DataFrames und SQL:

Azure Databricks bietet außerdem ein benutzerdefiniertes Schlüsselwort zum Laden von MLflow-Experimenten.

Datenformate mit besonderen Überlegungen

Einige Datenformate erfordern ggf. eine zusätzliche Konfiguration oder besondere Überlegungen für ihre Verwendung:

  • Databricks empfiehlt das Laden von Bildern als binary-Daten.
  • Hive-Tabellen werden ebenfalls nativ von Apache Spark unterstützt, müssen jedoch in Azure Databricks konfiguriert werden.
  • Azure Databricks kann komprimierte Dateien in vielen Dateiformaten direkt lesen. Sie können bei Bedarf komprimierte Dateien auch auf Azure Databricks entzippen.
  • LZO erfordert eine Codecinstallation.

Weitere Informationen zu Apache Spark-Datenquellen finden Sie unter Generische Funktionen zum Laden/Speichern und Generische Optionen für Dateiquellen.