Veri kaynakları
Bu bölümde Azure Databricks'te kullanabileceğiniz Apache Spark veri kaynakları açıklanmaktadır. Birçok makalede veri kaynağını veri okuma ve yazma için kullanmayı gösteren bir not defteri bulunur.
Aşağıdaki veri kaynakları, Databricks Runtime tarafından doğrudan desteklenir ya da bunlara erişim basit kabuk komutları ile etkinleştirilebilir:
- Avro dosyası
- İkili dosya
- CSV dosyası
- Hive tablosu
- Görüntü
- JSON dosyası
- LZO ile sıkıştırılmış dosya
- MLflow denemesi
- Parquet dosyası
- XML dosyası
- Zip dosyaları
Apache Spark veri kaynakları hakkında daha fazla bilgi için bkz. Genel Yükleme/Kaydetme İşlevleri ve Genel Veri Kaynağı Seçenekleri.
Aşağıdaki depolama veri kaynakları, depolama bağlantısını yapılandırmanızı gerektirir. Ayrıca bazıları bir Azure Databricks kitaplığı oluşturmanızı ve bir kümeye yüklemenizi de gerektirir:
- Azure Blob Depolama
- Azure Data Lake Storage Gen1
- Azure Data Lake Storage 2. Nesil
- Azure Cosmos DB
- Azure Synapse Analytics
- Cassandra
- Couchbase
- ElasticSearch
- MongoDB
- Neo4j
- Redis
- Riak Zaman Serisi
- Snowflake
- SQL JDBC kullanarak veritabanlarını kullanma
- Apache Spark bağlayıcısını kullanan SQL Veritabanları