Zdroje dat
Tato část popisuje zdroje dat Apache Spark, které můžete použít v Azure Databricks. Pro mnohé z nich je k dispozici poznámkový blok, který ukazuje, jak použít zdroj dat ke čtení a zápisu dat.
Následující zdroje dat jsou buď přímo podporované v modulu Databricks Runtime, nebo pro přístup k nim stačí jednoduché příkazy prostředí:
- Soubor Avro
- Binární soubor
- Soubor CSV
- Tabulka Hive
- Image
- Soubor JSON
- Komprimovaný soubor LZO
- Experiment MLflow
- Soubor Parquet
- Soubor XML
- Soubory ZIP
Další informace o zdrojích dat Apache Sparku najdete v tématech věnovaných obecným funkcím pro načítání a ukládání a generickým možnostem zdrojů souborů.
Následující úložiště jako zdroje dat vyžadují, abyste nakonfigurovali připojení k úložišti. Část z nich také vyžaduje, abyste vytvořili knihovnu Azure Databricks a nainstalovali ji do clusteru: