BLOOM SZŰRŐINDEX LÉTREHOZÁSA

A következőre vonatkozik:check marked yes Databricks SQL check marked yes Databricks Runtime

Bloom-szűrőindexet hoz létre az új vagy újraírt adatokhoz; Nem hoz létre Bloom-szűrőket a meglévő adatokhoz. A parancs meghiúsul, ha a tábla neve vagy az oszlopok egyike nem létezik. Ha a Bloom-szűrés engedélyezve van egy oszlopban, a meglévő Bloom szűrőbeállításokat az új beállítások váltják fel.

Szintaxis

CREATE BLOOMFILTER INDEX
ON [TABLE] table_name
FOR COLUMNS( { columnName1 [ options ] } [, ...] )
[ options ]

options
  OPTIONS ( { key1 [ = ] val1 } [, ...] )

Paraméterek

Bár nem lehet bloom szűrőindexet létrehozni a már megírt adatokhoz, az OPTIMIZE parancs frissíti az átszervezett adatok Bloom-szűrőit. Ezért a Bloom-szűrőt egy táblán való futtatással OPTIMIZE lehet visszatölteni:

  • Ha korábban még nem optimalizálta a táblát.
  • Eltérő fájlméret esetén az adatfájlok újraírására van szükség.
  • ZORDER Ha egy (vagy egy másik ZORDER, ha már van ilyen), az adatfájlok újraírását igényli.

A Bloom szűrőt úgy hangolhatja, hogy oszlopszinten vagy táblázatszinten adja meg a beállításokat:

  • fpp: Hamis pozitív valószínűség. A kívánt hamis pozitív arány írott Bloom-szűrőnként. Ez befolyásolja az egyetlen elem Bloom szűrőbe helyezéséhez szükséges bitek számát, és befolyásolja a Bloom szűrő méretét. Az értéknek 0-nál nagyobbnak és 1-nél kisebbnek kell lennie. Az alapértelmezett érték 0,1, amelyhez elemenként 5 bit szükséges.
  • numItems: A fájlban található különböző elemek száma. Ez a beállítás fontos a szűrés minősége szempontjából, mivel befolyásolja a Bloom szűrőben használt bitek teljes számát (elemek száma – bitek száma elemenként). Ha ez a beállítás helytelen, a Bloom szűrő vagy nagyon ritkán van feltöltve, lemezterületet spórol, és lelassítja a fájl letöltését igénylő lekérdezéseket, vagy túl tele van, és kevésbé pontos (magasabb FPP). Az értéknek 0-nál nagyobbnak kell lennie. Az alapértelmezett érték 1 millió elem.
  • maxExpectedFpp: A várt legnagyobb hamis pozitív valószínűség, amelynél a Bloom-szűrő lemezre van írva. Ha a várt FPP nagyobb ennél a küszöbértéknél, a Bloom szűrő szelektivitása túl alacsony; a Bloom szűrő használatához szükséges idő és erőforrások meghaladja a hasznosságát. Az értéknek 0 és 1 között kell lennie. Az alapértelmezett érték az 1.0 (letiltva).

Ezek a beállítások csak az adatok írásakor játszanak szerepet. Ezeket a tulajdonságokat különböző hierarchikus szinteken konfigurálhatja: írási művelet, táblaszint és oszlopszint. Az oszlopszint elsőbbséget élvez a táblával és a műveleti szinttel szemben, a táblaszint pedig elsőbbséget élvez a műveleti szinttel szemben.

Lásd: Bloom szűrőindexek.