count_min_sketch-Aggregatfunktion

Gilt für:durch Häkchen mit „Ja“ markiert Databricks SQL durch Häkchen mit „Ja“ markiert Databricks Runtime

Die Funktion gibt eine „count_min_sketch“-Aggregation aller Werte in der Gruppe in column mit epsilon, confidence und seed zurück.

In Databricks SQL und Databricks Runtime 13.3 LTS und höher unterstützt diese Funktion den Aufruf benannter Parameter.

Syntax

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

Diese Funktion kann auch mithilfe der OVER-Klausel als Fensterfunktion aufgerufen werden.

Argumente

  • column: Ein Ausdruck, der in einen integralen numerischen Ausdruck, STRING oder BINARY, ausgewertet wird.
  • epsilon: Ein DOUBLE-Literal größer als 0, das den relativen Fehler beschreibt
  • confidence: Ein DOUBLE-Literal größer als 0 und kleiner als 1
  • seed: Ein INTEGER-Literal.
  • cond: Ein optionaler boolescher Ausdruck, der die für die Aggregation verwendeten Zeilen filtert.

Gibt zurück

Ein BINARY.

Bei der „count_min_sketch“-Aggregation handelt es sich um eine probabilistische Datenstruktur, die für die Abschätzung der Kardinalität unter Verwendung eines sublinearen Raums verwendet wird.

Wenn DISTINCT angegeben wird, wird die Funktion nur für eine eindeutige Menge von expr-Werten ausgeführt.

Beispiele

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000