Veri biçimi seçenekleri

Makale
03/01/2024

Azure Databricks, Apache Spark tarafından yerel olarak desteklenen tüm veri biçimleri için yerleşik anahtar sözcük bağlamalarına sahiptir. Azure Databricks verileri ve tabloları okumak ve yazmak için varsayılan protokol olarak Delta Lake'i, Apache Spark ise Parquet'i kullanır.

Bu makaleler, Azure Databricks'te verileri sorguladığınızda kullanılabilen birçok seçenek ve yapılandırmaya genel bir bakış sağlar.

Aşağıdaki veri biçimlerinde Apache Spark DataFrames ve SQL'de yerleşik anahtar sözcük yapılandırmaları vardır:

Azure Databricks ayrıca MLflow denemelerini yüklemek için özel bir anahtar sözcük sağlar.

Dikkat edilmesi gereken özel noktalara sahip veri biçimleri

Bazı veri biçimleri için ek yapılandırma veya özel kullanım konuları gerekir:

Databricks görüntülerin veri olarak binary yüklenmesini önerir.
Hive tabloları Apache Spark tarafından yerel olarak desteklenir, ancak Azure Databricks'te yapılandırma gerektirir.
Azure Databricks, sıkıştırılmış dosyaları birçok dosya biçiminde doğrudan okuyabilir. Gerekirse Azure Databricks'te sıkıştırılmış dosyaların sıkıştırmasını da açabilirsiniz.
LZO bir codec yüklemesi gerektirir.

Apache Spark veri kaynakları hakkında daha fazla bilgi için bkz. Genel Yükleme/Kaydetme İşlevleri ve Genel Veri Kaynağı Seçenekleri.

Veri biçimi seçenekleri

Dikkat edilmesi gereken özel noktalara sahip veri biçimleri

Ek kaynaklar