Share via


Opties voor gegevensindeling

Azure Databricks heeft ingebouwde trefwoordbindingen voor alle gegevensindelingen die systeemeigen worden ondersteund door Apache Spark. Azure Databricks maakt gebruik van Delta Lake als het standaardprotocol voor het lezen en schrijven van gegevens en tabellen, terwijl Apache Spark Parquet gebruikt.

Deze artikelen bieden een overzicht van veel van de opties en configuraties die beschikbaar zijn wanneer u query's uitvoert op gegevens in Azure Databricks.

De volgende gegevensindelingen hebben ingebouwde trefwoordconfiguraties in Apache Spark DataFrames en SQL:

Azure Databricks biedt ook een aangepast trefwoord voor het laden van MLflow-experimenten.

Gegevensindelingen met speciale overwegingen

Voor sommige gegevensindelingen zijn aanvullende configuratie- of speciale overwegingen vereist voor gebruik:

  • Databricks raadt aan om afbeeldingen als gegevens te binary laden.
  • Hive-tabellen worden systeemeigen ondersteund door Apache Spark, maar vereisen configuratie in Azure Databricks.
  • Azure Databricks kan gecomprimeerde bestanden in veel bestandsindelingen rechtstreeks lezen. U kunt gecomprimeerde bestanden ook uitpakken in Azure Databricks, indien nodig.
  • LZO vereist een codec-installatie.

Raadpleeg Algemene functies voor laden/opslaan en Algemene opties voor bestandsbronnen voor meer informatie over Apache Spark-gegevensbronnen.