Opcje formatowania danych

Usługa Azure Databricks ma wbudowane powiązania słów kluczowych dla wszystkich formatów danych natywnie obsługiwanych przez platformę Apache Spark. Usługa Azure Databricks używa usługi Delta Lake jako domyślnego protokołu do odczytywania i zapisywania danych i tabel, natomiast platforma Apache Spark używa języka Parquet.

Te artykuły zawierają omówienie wielu opcji i konfiguracji dostępnych podczas wykonywania zapytań dotyczących danych w usłudze Azure Databricks.

Następujące formaty danych mają wbudowane konfiguracje słów kluczowych w ramkach danych platformy Apache Spark i języku SQL:

Usługa Azure Databricks udostępnia również niestandardowe słowo kluczowe do ładowania eksperymentów MLflow.

Formaty danych ze specjalnymi zagadnieniami

Niektóre formaty danych wymagają dodatkowej konfiguracji lub specjalnych zagadnień do użycia:

  • Usługa Databricks zaleca ładowanie obrazów jako binary danych.
  • Tabele hive są natywnie obsługiwane przez platformę Apache Spark, ale wymagają konfiguracji w usłudze Azure Databricks.
  • Usługa Azure Databricks może bezpośrednio odczytywać skompresowane pliki w wielu formatach plików. W razie potrzeby możesz również rozpakować skompresowane pliki w usłudze Azure Databricks.
  • Funkcja LZO wymaga instalacji kodera.

Aby uzyskać więcej informacji na temat źródeł danych platformy Apache Spark, zobacz Funkcje ogólne ładowania/zapisywania i Opcje ogólne źródła pliku.