Azure Databricks'te iyileştirme önerileri
Azure Databricks, lakehouse üzerinde büyük ölçekli ETL işlemeden geçici ve etkileşimli sorgulara kadar çeşitli iş yüklerini destekleyen birçok iyileştirme sağlar. Bu iyileştirmelerin çoğu otomatik olarak gerçekleşir. Avantajlarını yalnızca Azure Databricks kullanarak elde edersiniz. Ayrıca Databricks Runtime özelliklerinin çoğu, Azure Databricks'te tablo oluşturmak için kullanılan varsayılan depolama katmanı olan Delta Lake'i gerektirir.
Azure Databricks, çoğu iş yükünü en iyi duruma getiren varsayılan değerleri yapılandırıyor. Ancak bazı durumlarda yapılandırma ayarlarının değiştirilmesi performansı artırır.
Databricks Runtime performans geliştirmeleri
Not
En yeni performans geliştirmelerinden yararlanmak için en son Databricks Runtime'ı kullanın. Burada belgelenen tüm davranışlar Databricks Runtime 10.4 LTS ve üzerinde varsayılan olarak etkindir.
- Disk önbelleğe alma işlemi, verileri işlem kümelerine bağlı disk birimlerine yükleyerek Parquet veri dosyalarında yinelenen okumaları hızlandırır.
- Dinamik dosya ayıklama, sorgu önkoşullarıyla eşleşen veri dosyaları içermeyen dizinleri atlayarak sorgu performansını artırır.
- Karışık birleştirmenin düşük olması, işlemler tarafından
MERGE
yeniden yazılan veri dosyalarının sayısını azaltır ve kümeleri geri kazanmaZORDER
gereksinimini azaltır. - Apache Spark 3.0, birçok işlem için gelişmiş performans sağlayan uyarlamalı sorgu yürütme özelliğine sahip oldu.
Gelişmiş performans için Databricks önerileri
- Kaynak veri kümelerinin derin veya sığ kopyalarını oluşturmak için Azure Databricks'te tabloları kopyalayabilirsiniz .
- Maliyet tabanlı iyileştirici, tablo istatistiklerinden yararlanarak sorgu performansını hızlandırır.
- Spark SQL'i kullanarak dizeleri ayrıştırmadan yarı yapılandırılmış JSON verileriyle etkileşim kurabilirsiniz.
- Daha yüksek sıralı işlevler , ortak Spark işleçleri olmayan birçok işlem için yerleşik, iyileştirilmiş performans sağlar. Daha yüksek sıralı işlevler, kullanıcı tanımlı işlevlere göre performans avantajı sağlar.
- Azure Databricks diziler, yapılar ve JSON dizeleri dahil olmak üzere karmaşık veri türleriyle çalışmak için bir dizi yerleşik işleç ve özel söz dizimi sağlar.
- Aralıklar içeren veya alt veri dengesizliği olan birleştirmeler için ayarları el ile ayarlayabilirsiniz.
Kabul etme davranışları
- Azure Databricks varsayılan olarak bir yazma serileştirilebilir yalıtım garantisi sağlar; Yalıtım düzeyini seri hale getirilebilir olarak değiştirmek eşzamanlı işlemler için aktarım hızını azaltabilir, ancak okuma seri hale getirilebilirlik gerektiğinde gerekli olabilir.
- Belirli bir koşulla eşleşen kayıtlar içermeyen veri dosyalarını tarama olasılığını azaltmak için bloom filtre dizinlerini kullanabilirsiniz.