Partager via


Fonction d’agrégation count_min_sketch

S’applique à :case marquée oui Databricks SQL case marquée oui Databricks Runtime

Retourne la valeur count_min sketch de toutes les valeurs du groupe dans column avec epsilon, confidence et seed.

Dans Databricks SQL et Databricks Runtime 13.3 LTS et versions ultérieures, cette fonction prend en charge l’appel de paramètre nommé.

Syntaxe

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

Cette fonction peut également être appelée en tant que fonction de fenêtre à l’aide de la clause OVER.

Arguments

  • column : Une expression qui s'évalue à un nombre entier, STRING, ou BINARY.
  • epsilon : Un DOUBLE littéral supérieur à 0 décrivant l'erreur relative.
  • confidence : Un DOUBLE littéral supérieur à 0 et inférieur à 1.
  • seed : Un INTEGER littéral.
  • cond : expression booléenne facultative qui filtre les lignes utilisées pour l’agrégation.

Retours

BINARY.

Count-min sketch est une structure de données probabiliste utilisée pour l’estimation de la cardinalité avec l’espace sous-linéaire.

Si DISTINCT est spécifié, la fonction ne s’applique qu’à un ensemble unique de valeurs expr.

Exemples

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000