Share via


Apache Spark DataFrames kullanarak Delta Paylaşımı paylaşılan tablolarını okuma

Bu makalede, Delta Sharing kullanılarak paylaşılan verileri sorgulamak için Apache Spark kullanımına yönelik söz dizimi örnekleri sağlanır. deltasharing DataFrame işlemleri için biçim seçeneği olarak anahtar sözcüğünü kullanın.

Paylaşılan verileri sorgulamaya yönelik diğer seçenekler

Meta veri deposunda kayıtlı Delta Sharing kataloglarında paylaşılan tablo adlarını kullanan sorgular da oluşturabilirsiniz. Örneğin, aşağıdaki örneklerde verilmiştir:

SQL

SELECT * FROM shared_table_name

Python

spark.read.table("shared_table_name")

Azure Databricks'te Delta Paylaşımını yapılandırma ve paylaşılan tablo adlarını kullanarak verileri sorgulama hakkında daha fazla bilgi için bkz. Databricks-to-Databricks Delta Sharing kullanarak paylaşılan verileri okuma (alıcılar için).

Paylaşılan tablolardaki kayıtları artımlı olarak işlemek için Yapılandırılmış Akış'ı kullanabilirsiniz. Yapılandırılmış Akış'ı kullanmak için tablo için geçmiş paylaşımını etkinleştirmeniz gerekir. Bkz. ALTER SHARE. Geçmiş paylaşımı için Databricks Runtime 12.2 LTS veya üzeri gerekir.

Paylaşılan tabloda kaynak Delta tablosunda değişiklik veri akışı etkinleştirildiyse ve paylaşımda geçmiş etkinleştirildiyse, Değişiklik veri akışını, Yapılandırılmış Akış veya toplu işlemlerle delta paylaşımını okurken kullanabilirsiniz. Bkz . Azure Databricks'te Delta Lake değişiklik veri akışını kullanma.

Delta Sharing biçim anahtar sözcüğüyle okuma

Anahtar deltasharing sözcüğü, aşağıdaki örnekte gösterildiği gibi Apache Spark DataFrame okuma işlemleri için desteklenir:

df = (spark.read
  .format("deltasharing")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Delta Sharing paylaşılan tabloları için değişiklik veri akışını okuma

Geçmiş paylaşılan ve değişiklik veri akışı etkinleştirilmiş tablolar için Apache Spark DataFrames kullanarak değişiklik veri akışı kayıtlarını okuyabilirsiniz. Geçmiş paylaşımı için Databricks Runtime 12.2 LTS veya üzeri gerekir.

df = (spark.read
  .format("deltasharing")
  .option("readChangeFeed", "true")
  .option("startingTimestamp", "2021-04-21 05:45:46")
  .option("endingTimestamp", "2021-05-21 12:00:00")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Yapılandırılmış Akış kullanarak Delta Sharing paylaşılan tablolarını okuma

Geçmişi paylaşılan tablolar için, paylaşılan tabloyu Yapılandırılmış Akış için kaynak olarak kullanabilirsiniz. Geçmiş paylaşımı için Databricks Runtime 12.2 LTS veya üzeri gerekir.

streaming_df = (spark.readStream
  .format("deltasharing")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

# If CDF is enabled on the source table
streaming_cdf_df = (spark.readStream
  .format("deltasharing")
  .option("readChangeFeed", "true")
  .option("startingTimestamp", "2021-04-21 05:45:46")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)