Tahmine dayalı G/Ç nedir?

Tahmine dayalı G/Ç, veri etkileşimleri için performansı geliştiren bir Azure Databricks iyileştirmeleri koleksiyonudur. Tahmine dayalı G/Ç özellikleri aşağıdaki kategorilerde gruplandırılır:

  • Hızlandırılmış okumalar, verileri taramak ve okumak için gereken süreyi azaltır.
  • Hızlandırılmış güncelleştirmeler, güncelleştirmeler, silmeler ve birleştirmeler sırasında yeniden yazılması gereken veri miktarını azaltır.

Tahmine dayalı G/Ç, Azure Databricks'te Foton altyapısına özeldir.

Okumaları hızlandırmak için tahmine dayalı G/Ç kullanma

Tahmine dayalı G/Ç, desteklenen işlem türlerinde tüm işlemler için veri tarama ve filtreleme performansını hızlandırmak için kullanılır.

Önemli

Tahmine dayalı G/Ç okumaları sunucusuz ve profesyonel SQL ambarları türleri ve Databricks Runtime 11.3 LTS ve üzerini çalıştıran Foton hızlandırılmış kümeler tarafından desteklenir.

Tahmine dayalı G/Ç, aşağıdakileri yapmak için derin öğrenme teknikleri uygulayarak tarama performansını artırır:

  • Verileri okumak için en verimli erişim desenini belirleyin ve yalnızca gerçekten gerekli olan verileri tarayın.
  • Sorgu sonuçları oluşturmak için gerekli olmayan sütun ve satırların kodunu çözmeyi kaldırın.
  • Bir satırla eşleşen seçmeli sorgulardaki arama ölçütlerinin olasılıklarını hesaplayın. Sorgular çalıştırılırken, bir sonraki eşleşen satırın nerede gerçekleşeceğini tahmin etmek ve bu verileri yalnızca bulut depolama alanından okumak için bu olasılıkları kullanırız.

Güncelleştirmeleri hızlandırmak için tahmine dayalı G/Ç kullanma

Güncelleştirmeler için tahmine dayalı G/Ç, aşağıdaki Foton özellikli işlem türleri kullanılarak silme vektörleri etkinleştirilmiş tüm tablolar için otomatik olarak kullanılır:

  • Sunucusuz SQL ambarları.
  • Pro SQL ambarları.
  • Databricks Runtime 14.0 ve üzerini çalıştıran kümeler.

Not

Güncelleştirmeler için tahmine dayalı G/Ç desteği Databricks Runtime 12.2 LTS ve üzeri sürümlerde mevcuttur, ancak Databricks en iyi performans için 14.0 ve üzerini kullanmanızı önerir.

Bkz . Silme vektörleri nedir?.

Önemli

Çalışma alanı yönetici ayarı, silme vektörlerinin yeni Delta tabloları için otomatik olarak etkinleştirilip etkinleştirilmediğini denetler. Bkz. Silme vektörlerini otomatik olarak etkinleştirme.

Delta Lake tablosu özelliğini ayarlayarak Delta Lake tablosunda silme vektörleri desteğini etkinleştirebilirsiniz. Silme vektörlerini tablo oluşturma sırasında etkinleştirir veya aşağıdaki örneklerde olduğu gibi var olan bir tabloyu değiştirirsiniz:

CREATE TABLE <table-name> [options] TBLPROPERTIES ('delta.enableDeletionVectors' = true);

ALTER TABLE <table-name> SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);

Uyarı

Silme vektörlerini etkinleştirdiğinizde, tablo protokolü sürümü yükseltilir. Yükseltmeden sonra tablo, silme vektörlerini desteklemeyen Delta Lake istemcileri tarafından okunamaz. Bkz. Azure Databricks Delta Lake özellik uyumluluğunu nasıl yönetir?.

Silme vektörlerini destekleyen istemcilerin listesi için bkz . Delta istemcileri ile uyumluluk.

Databricks Runtime 14.1 ve üzeri sürümlerin silme vektörleri tablosu özelliğini bırakarak diğer Delta istemcileriyle uyumluluğu etkinleştirebilirsiniz. Bkz . Delta tablosu özelliklerini bırakma.

Tahmine dayalı G/Ç, Delta tablolarında veri değişikliği sırasında tam dosya yeniden yazma sıklığını azaltarak güncelleştirmeleri hızlandırmak için silme vektörlerinden yararlanır. Tahmine dayalı G/Ç , MERGEve UPDATE işlemlerini iyileştirirDELETE.

Herhangi bir kayıt güncelleştirildiğinde veya silindiğinde veri dosyasındaki tüm kayıtları yeniden yazmak yerine tahmine dayalı G/Ç, kayıtların hedef veri dosyalarından kaldırıldığını belirtmek için silme vektörlerini kullanır. Ek veri dosyaları güncelleştirmeleri göstermek için kullanılır.

Tablodaki sonraki okumalar, en son tablo sürümüne not edilen değişiklikleri uygulayarak geçerli tablo durumunu çözer.

Önemli

Tahmine dayalı G/Ç güncelleştirmeleri tüm sınırlamaları silme vektörleriyle paylaşır. Databricks Runtime 12.2 LTS ve sonraki bir sürümü için aşağıdaki sınırlamalar vardır:

  • Silme vektörlerinin etkinleştirildiği tablolarda Delta Paylaşımı desteklenmez.
  • Silme vektörlerinin bulunduğu bir tablo için bildirim dosyası oluşturamazsınız. Bir bildirim oluşturmak için komutunu çalıştırın REORG TABLE ... APPLY (PURGE) ve hiçbir eşzamanlı yazma işleminin çalışmadığından emin olun.
  • Silme vektörleri etkin bir tablo için artımlı bildirim dosyaları oluşturamazsınız.