ブルームフィルターのインデックス

[アーティクル]
04/25/2024

Note

Photon 対応コンピューティングと Databricks Runtime 12.2 以上を使用する場合は、予測 I/O が、ブルームフィルターよりも読み取りパフォーマンスが優れています。「予測 I/O とは」を参照してください。

Databricks Runtime 13.3 以上での Databricks では、Delta テーブルレイアウトにクラスタリングを使用することを推奨しています。「Delta テーブルに Liquid Clustering クラスタリングを使用する」を参照してください。

Databricks では、それらの機能をサポートしていないコンピューティングを使用する場合にのみ、ブルームフィルターを使用することをお勧めします。

ブルームフィルターのインデックスは、選択した列 (特に任意のテキストを含むフィールド) でデータをスキップできるようにする、スペース効率の高いデータ構造です。

ブルームフィルターのインデックスのしくみ

Azure Databricks のブルームフィルターのインデックスは、各データファイルのデータスキップインデックスで構成されています。ブルームフィルターのインデックスを使用して、列の値がファイル内に明らかに存在 "しない" か、ファイル内に存在 "する可能性がある" かを判断できます。 Azure Databricks は、ファイルを読み取る前にインデックスファイルをチェックします。そして、ファイルがデータフィルターと一致する可能性があることをインデックスが示している場合にのみ、ファイルが読み取られます。

ブルームフィルターでは、入力データ型が byte、short、int、long、float、double、date、timestamp、string の列がサポートされます。 null 値はブルームフィルターに追加されないので、null 値関連のフィルターではデータファイルを読み取る必要があります。 Azure Databricks では、and、or、in、equals、equalsnullsafe の各データソースフィルターがサポートされています。入れ子になった列では、ブルームフィルターは "サポートされていません"。

構成と参照

ブルームフィルターを有効にするには、次の構文を使用します。

CREATE BLOOMFILTER INDEX
ON TABLE table_name
FOR COLUMNS(column_name OPTIONS (fpp=0.1, numItems=5000))

構文の詳細については、「CREATE BLOOM FILTER INDEX」と「DROP BLOOM FILTER INDEX」を参照してください。

ブルームフィルター操作を無効にするには、セッションレベル spark.databricks.io.skipping.bloomFilter.enabled の構成を false に設定します。

ブルームフィルターのインデックスの一覧を表示する

インデックスの一覧を表示するには、次を実行します。

spark.table("<table-with-indexes>").schema.foreach(field => println(s"${field.name}: metadata=${field.metadata}"))

次に例を示します。

インデックスを表示

ブルーム フィルターのインデックス

ブルーム フィルターのインデックスのしくみ

構成と参照

ブルーム フィルターのインデックスの一覧を表示する

その他のリソース

ブルームフィルターのインデックス

ブルームフィルターのインデックスのしくみ

ブルームフィルターのインデックスの一覧を表示する