`count_min_sketch`-Aggregatfunktion

Artikel
04/25/2024

Gilt für: durch Häkchen mit „Ja“ markiert Databricks SQL Databricks Runtime

Die Funktion gibt eine „count_min_sketch“-Aggregation aller Werte in der Gruppe in column mit epsilon, confidence und seed zurück.

In Databricks SQL und Databricks Runtime 13.3 LTS und höher unterstützt diese Funktion den Aufruf benannter Parameter.

Syntax

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

Diese Funktion kann auch mithilfe der OVER-Klausel als Fensterfunktion aufgerufen werden.

Argumente

column: Ein Ausdruck, der in einen integralen numerischen Ausdruck, STRING oder BINARY, ausgewertet wird.
epsilon: Ein DOUBLE-Literal größer als 0, das den relativen Fehler beschreibt
confidence: Ein DOUBLE-Literal größer als 0 und kleiner als 1
seed: Ein INTEGER-Literal.
cond: Ein optionaler boolescher Ausdruck, der die für die Aggregation verwendeten Zeilen filtert.

Gibt zurück

Ein BINARY.

Bei der „count_min_sketch“-Aggregation handelt es sich um eine probabilistische Datenstruktur, die für die Abschätzung der Kardinalität unter Verwendung eines sublinearen Raums verwendet wird.

Wenn DISTINCT angegeben wird, wird die Funktion nur für eine eindeutige Menge von expr-Werten ausgeführt.

Beispiele

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000

Fensterfunktionen

count_min_sketch-Aggregatfunktion

Syntax

Argumente

Gibt zurück

Beispiele

Verwandte Themen

Zusätzliche Ressourcen

`count_min_sketch`-Aggregatfunktion