إنشاء فهرس عامل تصفية BLOOM

ينطبق على:التحقق تم وضع علامة نعم على التحقق من Databricks SQL الذي تم وضع علامة عليه نعم Databricks Runtime

إنشاء فهرس عامل تصفية Bloom للبيانات الجديدة أو إعادة كتابتها؛ لا يقوم بإنشاء عوامل تصفية Bloom للبيانات الموجودة. يفشل الأمر إذا كان اسم الجدول أو أحد الأعمدة غير موجود. إذا تم تمكين تصفية Bloom لعمود، يتم استبدال خيارات تصفية Bloom الحالية بالخيارات الجديدة.

بناء الجمله

CREATE BLOOMFILTER INDEX
ON [TABLE] table_name
FOR COLUMNS( { columnName1 [ options ] } [, ...] )
[ options ]

options
  OPTIONS ( { key1 [ = ] val1 } [, ...] )

معلمات

على الرغم من أنه من غير الممكن إنشاء فهرس عامل تصفية Bloom للبيانات المكتوبة بالفعل، يقوم الأمر OPTIMIZE بتحديث عوامل تصفية Bloom للبيانات التي تتم إعادة تنظيمها. لذلك، يمكنك إعادة تعبئة عامل تصفية Bloom عن طريق التشغيل OPTIMIZE على جدول:

  • إذا لم تكن قد قمت بتحسين الجدول مسبقا.
  • بحجم ملف مختلف، يتطلب إعادة كتابة ملفات البيانات.
  • ZORDER مع (أو مختلف ZORDER، إذا كان موجودا بالفعل)، مما يتطلب إعادة كتابة ملفات البيانات.

يمكنك ضبط عامل تصفية Bloom عن طريق تحديد الخيارات على مستوى العمود أو على مستوى الجدول:

  • fpp: احتمال إيجابي خاطئ. المعدل الإيجابي الخاطئ المطلوب لكل عامل تصفية بلوم مكتوب. يؤثر هذا على عدد البتات اللازمة لوضع عنصر واحد في عامل تصفية Bloom ويؤثر على حجم عامل تصفية Bloom. يجب أن تكون القيمة أكبر من 0 وأصغر من أو تساوي 1. القيمة الافتراضية هي 0.1 التي تتطلب 5 بت لكل عنصر.
  • numItems: عدد العناصر المميزة التي يمكن أن يحتوي عليها الملف. هذا الإعداد مهم لجودة التصفية لأنه يؤثر على إجمالي عدد البتات المستخدمة في عامل تصفية Bloom (عدد العناصر - عدد البتات لكل عنصر). إذا كان هذا الإعداد غير صحيح، فإن عامل تصفية Bloom إما يتم ملؤه بشكل متفرق جدا، أو يضيع مساحة القرص ويبطئ الاستعلامات التي يجب تنزيل هذا الملف، أو أنه ممتلئ جدا وأقل دقة (FPP أعلى). يجب أن تكون القيمة أكبر من 0. الافتراضي هو 1 مليون عنصر.
  • maxExpectedFpp: الحد الأقصى للاحتمالات الإيجابية الخاطئة المتوقعة التي تتم عندها كتابة عامل تصفية Bloom على القرص. إذا كان FPP المتوقع أكبر من هذا الحد، فإن اختيارية عامل تصفية Bloom منخفضة جدا؛ الوقت والموارد التي يستغرقها استخدام عامل تصفية Bloom تفوق فائدتها. يجب أن تكون القيمة بين 0 و1. الافتراضي هو 1.0 (معطل).

تلعب هذه الخيارات دورا فقط عند كتابة البيانات. يمكنك تكوين هذه الخصائص على مستويات هرمية مختلفة: عملية الكتابة ومستوى الجدول ومستوى العمود. يكون لمستوى العمود الأسبقية على مستويات الجدول والتشغيل، ومستوى الجدول له الأسبقية على مستوى العملية.

راجع فهارس عامل تصفية Bloom.