Azure Databricks'te iyileştirme önerileri

Makale
04/15/2024

Azure Databricks, lakehouse üzerinde büyük ölçekli ETL işlemeden geçici ve etkileşimli sorgulara kadar çeşitli iş yüklerini destekleyen birçok iyileştirme sağlar. Bu iyileştirmelerin çoğu otomatik olarak gerçekleşir. Avantajlarını yalnızca Azure Databricks kullanarak elde edersiniz. Ayrıca Databricks Runtime özelliklerinin çoğu, Azure Databricks'te tablo oluşturmak için kullanılan varsayılan depolama katmanı olan Delta Lake'i gerektirir.

Azure Databricks, çoğu iş yükünü en iyi duruma getiren varsayılan değerleri yapılandırıyor. Ancak bazı durumlarda yapılandırma ayarlarının değiştirilmesi performansı artırır.

Databricks Runtime performans geliştirmeleri

Not

En yeni performans geliştirmelerinden yararlanmak için en son Databricks Runtime'ı kullanın. Burada belgelenen tüm davranışlar Databricks Runtime 10.4 LTS ve üzerinde varsayılan olarak etkindir.

Disk önbelleğe alma işlemi, verileri işlem kümelerine bağlı disk birimlerine yükleyerek Parquet veri dosyalarında yinelenen okumaları hızlandırır.
Dinamik dosya ayıklama, sorgu önkoşullarıyla eşleşen veri dosyaları içermeyen dizinleri atlayarak sorgu performansını artırır.
Karışık birleştirmenin düşük olması, işlemler tarafından MERGE yeniden yazılan veri dosyalarının sayısını azaltır ve kümeleri geri kazanma ZORDER gereksinimini azaltır.
Apache Spark 3.0, birçok işlem için gelişmiş performans sağlayan uyarlamalı sorgu yürütme özelliğine sahip oldu.

Gelişmiş performans için Databricks önerileri

Kaynak veri kümelerinin derin veya sığ kopyalarını oluşturmak için Azure Databricks'te tabloları kopyalayabilirsiniz .
Maliyet tabanlı iyileştirici, tablo istatistiklerinden yararlanarak sorgu performansını hızlandırır.
Spark SQL'i kullanarak dizeleri ayrıştırmadan yarı yapılandırılmış JSON verileriyle etkileşim kurabilirsiniz.
Daha yüksek sıralı işlevler , ortak Spark işleçleri olmayan birçok işlem için yerleşik, iyileştirilmiş performans sağlar. Daha yüksek sıralı işlevler, kullanıcı tanımlı işlevlere göre performans avantajı sağlar.
Azure Databricks diziler, yapılar ve JSON dizeleri dahil olmak üzere karmaşık veri türleriyle çalışmak için bir dizi yerleşik işleç ve özel söz dizimi sağlar.
Aralıklar içeren veya alt veri dengesizliği olan birleştirmeler için ayarları el ile ayarlayabilirsiniz.

Kabul etme davranışları

Azure Databricks varsayılan olarak bir yazma serileştirilebilir yalıtım garantisi sağlar; Yalıtım düzeyini seri hale getirilebilir olarak değiştirmek eşzamanlı işlemler için aktarım hızını azaltabilir, ancak okuma seri hale getirilebilirlik gerektiğinde gerekli olabilir.
Belirli bir koşulla eşleşen kayıtlar içermeyen veri dosyalarını tarama olasılığını azaltmak için bloom filtre dizinlerini kullanabilirsiniz.

Azure Databricks'te iyileştirme önerileri

Databricks Runtime performans geliştirmeleri

Gelişmiş performans için Databricks önerileri

Kabul etme davranışları

Ek kaynaklar