Azure Databricks'te iyileştirme önerileri

Azure Databricks, lakehouse üzerinde büyük ölçekli ETL işlemeden geçici ve etkileşimli sorgulara kadar çeşitli iş yüklerini destekleyen birçok iyileştirme sağlar. Bu iyileştirmelerin çoğu otomatik olarak gerçekleşir. Avantajlarını yalnızca Azure Databricks kullanarak elde edersiniz. Ayrıca Databricks Runtime özelliklerinin çoğu, Azure Databricks'te tablo oluşturmak için kullanılan varsayılan depolama katmanı olan Delta Lake'i gerektirir.

Azure Databricks, çoğu iş yükünü en iyi duruma getiren varsayılan değerleri yapılandırıyor. Ancak bazı durumlarda yapılandırma ayarlarının değiştirilmesi performansı artırır.

Databricks Runtime performans geliştirmeleri

Not

En yeni performans geliştirmelerinden yararlanmak için en son Databricks Runtime'ı kullanın. Burada belgelenen tüm davranışlar Databricks Runtime 10.4 LTS ve üzerinde varsayılan olarak etkindir.

  • Disk önbelleğe alma işlemi, verileri işlem kümelerine bağlı disk birimlerine yükleyerek Parquet veri dosyalarında yinelenen okumaları hızlandırır.
  • Dinamik dosya ayıklama, sorgu önkoşullarıyla eşleşen veri dosyaları içermeyen dizinleri atlayarak sorgu performansını artırır.
  • Karışık birleştirmenin düşük olması, işlemler tarafından MERGE yeniden yazılan veri dosyalarının sayısını azaltır ve kümeleri geri kazanma ZORDER gereksinimini azaltır.
  • Apache Spark 3.0, birçok işlem için gelişmiş performans sağlayan uyarlamalı sorgu yürütme özelliğine sahip oldu.

Gelişmiş performans için Databricks önerileri

Kabul etme davranışları

  • Azure Databricks varsayılan olarak bir yazma serileştirilebilir yalıtım garantisi sağlar; Yalıtım düzeyini seri hale getirilebilir olarak değiştirmek eşzamanlı işlemler için aktarım hızını azaltabilir, ancak okuma seri hale getirilebilirlik gerektiğinde gerekli olabilir.
  • Belirli bir koşulla eşleşen kayıtlar içermeyen veri dosyalarını tarama olasılığını azaltmak için bloom filtre dizinlerini kullanabilirsiniz.