Azure Databricks'te düşük karıştırmalı birleştirme
Not
Databricks Runtime 10.4 lTS ve üzeri ile Databricks Runtime 9.1 LTS'de Genel Önizleme'de genel olarak karışık birleştirme (GA) kullanılabilir. Databricks, Önizleme müşterilerinin Databricks Runtime 10.4 LTS veya üzerine geçişini önerir.
MERGE komutu, Delta Lake tablosundan eşzamanlı güncelleştirmeler, eklemeler ve silme işlemleri gerçekleştirmek için kullanılır. Azure Databricks, karıştırma işlemlerinin MERGE
sayısını azaltarak yaygın iş yükleri için performansı önemli ölçüde geliştiren iyileştirilmiş bir uygulamasına sahiptir.
Databricks düşük karıştırmalı birleştirme, değiştirilmemiş satırları değiştirilen satırlarla birlikte işlemek yerine ayrı ve daha kolay bir işleme modunda işleyerek daha iyi performans sağlar. Sonuç olarak karıştırılan veri miktarı önemli ölçüde azaltılır ve performansın artmasına yol açar. Düşük karıştırmalı birleştirme, bir işlemi gerçekleştirdikten sonra kullanıcıların ZORDER BY'ı IYILEŞTIR komutunu yeniden çalıştırma gereksinimini MERGE
de azaltır.
İyileştirilmiş performans
Birçok MERGE
iş yükü, bir tablodaki yalnızca nispeten az sayıda satırı güncelleştirir. Ancak Delta tabloları yalnızca dosya başına güncelleştirilir. Komutun MERGE
belirli bir dosyada depolanan az sayıda satırı güncelleştirmesi veya silmesi gerektiğinde, bu satırlar değiştirilmemiş olsa bile aynı dosyada depolanan kalan tüm satırları da işlemeli ve yeniden yazmalıdır. Düşük karıştırmalı birleştirme, değiştirilmemiş satırların işlenmesini iyileştirir. Daha önce, değiştirilen satırlarla aynı şekilde işleniyordu ve bunlar birden çok karıştırma aşamasından ve pahalı hesaplamalardan geçirildi. Düşük karıştırmalı birleştirmede, değiştirilmemiş satırlar bunun yerine karıştırma, pahalı işleme veya başka ek yük olmadan işlenir.
İyileştirilmiş veri düzeni
Düşük karıştırma birleştirme, daha hızlı çalıştırılmasının yanı sıra sonraki işlemlerde de avantaj sağlar. Önceki MERGE
uygulama, değiştirilmemiş verilerin veri düzeninin tamamen değiştirilmesine neden oldu ve sonraki işlemlerde performansın düşmesine neden oldu. Düşük karıştırmalı birleştirme, en iyi efor temelinde Z düzeni iyileştirme dahil olmak üzere değiştirilmemiş kayıtların mevcut veri düzenini korumaya çalışır. Bu nedenle, karışık birleştirmenin düşük olduğu bir Delta tablosundaki işlemlerin performansı bir veya daha fazla MERGE
komut çalıştırıldıktan sonra daha yavaş düşer.
Not
Düşük karıştırmalı birleştirme, değiştirilmeyen mevcut verilerde veri düzenini korumaya çalışır. Güncelleştirilmiş veya yeni eklenen verilerin veri düzeni en iyi durumda olmayabilir, bu nedenle zorDER BY komutlarını veya OPTIMIZE ET komutlarını çalıştırmak OPTIMIZE
yine de gerekebilir.
Kullanılabilirlik
Databricks Runtime 10.4 ve üzerinde düşük karıştırma birleştirmesi varsayılan olarak etkindir. Önceki desteklenen Databricks Runtime sürümlerinde yapılandırma spark.databricks.delta.merge.enableLowShuffle
true
olarak ayarlanarak etkinleştirilebilir. Bu bayrağın Databricks Runtime 10.4 ve üzerinde hiçbir etkisi yoktur.