Azure Databricks'te düşük karıştırmalı birleştirme

Not

Databricks Runtime 10.4 lTS ve üzeri ile Databricks Runtime 9.1 LTS'de Genel Önizleme'de genel olarak karışık birleştirme (GA) kullanılabilir. Databricks, Önizleme müşterilerinin Databricks Runtime 10.4 LTS veya üzerine geçişini önerir.

MERGE komutu, Delta Lake tablosundan eşzamanlı güncelleştirmeler, eklemeler ve silme işlemleri gerçekleştirmek için kullanılır. Azure Databricks, karıştırma işlemlerinin MERGE sayısını azaltarak yaygın iş yükleri için performansı önemli ölçüde geliştiren iyileştirilmiş bir uygulamasına sahiptir.

Databricks düşük karıştırmalı birleştirme, değiştirilmemiş satırları değiştirilen satırlarla birlikte işlemek yerine ayrı ve daha kolay bir işleme modunda işleyerek daha iyi performans sağlar. Sonuç olarak karıştırılan veri miktarı önemli ölçüde azaltılır ve performansın artmasına yol açar. Düşük karıştırmalı birleştirme, bir işlemi gerçekleştirdikten sonra kullanıcıların ZORDER BY'ı IYILEŞTIR komutunu yeniden çalıştırma gereksinimini MERGE de azaltır.

İyileştirilmiş performans

Birçok MERGE iş yükü, bir tablodaki yalnızca nispeten az sayıda satırı güncelleştirir. Ancak Delta tabloları yalnızca dosya başına güncelleştirilir. Komutun MERGE belirli bir dosyada depolanan az sayıda satırı güncelleştirmesi veya silmesi gerektiğinde, bu satırlar değiştirilmemiş olsa bile aynı dosyada depolanan kalan tüm satırları da işlemeli ve yeniden yazmalıdır. Düşük karıştırmalı birleştirme, değiştirilmemiş satırların işlenmesini iyileştirir. Daha önce, değiştirilen satırlarla aynı şekilde işleniyordu ve bunlar birden çok karıştırma aşamasından ve pahalı hesaplamalardan geçirildi. Düşük karıştırmalı birleştirmede, değiştirilmemiş satırlar bunun yerine karıştırma, pahalı işleme veya başka ek yük olmadan işlenir.

İyileştirilmiş veri düzeni

Düşük karıştırma birleştirme, daha hızlı çalıştırılmasının yanı sıra sonraki işlemlerde de avantaj sağlar. Önceki MERGE uygulama, değiştirilmemiş verilerin veri düzeninin tamamen değiştirilmesine neden oldu ve sonraki işlemlerde performansın düşmesine neden oldu. Düşük karıştırmalı birleştirme, en iyi efor temelinde Z düzeni iyileştirme dahil olmak üzere değiştirilmemiş kayıtların mevcut veri düzenini korumaya çalışır. Bu nedenle, karışık birleştirmenin düşük olduğu bir Delta tablosundaki işlemlerin performansı bir veya daha fazla MERGE komut çalıştırıldıktan sonra daha yavaş düşer.

Not

Düşük karıştırmalı birleştirme, değiştirilmeyen mevcut verilerde veri düzenini korumaya çalışır. Güncelleştirilmiş veya yeni eklenen verilerin veri düzeni en iyi durumda olmayabilir, bu nedenle zorDER BY komutlarını veya OPTIMIZE ET komutlarını çalıştırmak OPTIMIZE yine de gerekebilir.

Kullanılabilirlik

Databricks Runtime 10.4 ve üzerinde düşük karıştırma birleştirmesi varsayılan olarak etkindir. Önceki desteklenen Databricks Runtime sürümlerinde yapılandırma spark.databricks.delta.merge.enableLowShuffletrueolarak ayarlanarak etkinleştirilebilir. Bu bayrağın Databricks Runtime 10.4 ve üzerinde hiçbir etkisi yoktur.