Compartir a través de


count_min_sketch (función de agregado)

Se aplica a:casilla marcada como Sí Databricks SQL casilla marcada como Sí Databricks Runtime

Devuelve un boceto de recuento mínimo de todos los valores del grupo de column con epsilon, confidence y seed.

En Databricks SQL y Databricks Runtime 13.3 LTS y versiones posteriores, esta función admite invocación de parámetros con nombre.

Sintaxis

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

Esta función también se puede invocar como una función de ventana mediante la cláusula OVER.

Argumentos

  • column: Una expresión que se evalúa como una integral numérica, STRING, o BINARY.
  • epsilon: Un DOUBLE literal mayor que 0 que describe el error relativo.
  • confidence: Un DOUBLE literal mayor que 0 y menor que 1.
  • seed: Un INTEGER literal.
  • cond: una expresión booleana opcional que filtra las filas usadas para la agregación.

Devoluciones

BINARY.

El boceto de recuento mínimo es una estructura de datos probabilística, que se usa para la estimación de cardinalidad mediante espacio sublineal.

Si se especifica DISTINCT, la función solo afecta a un conjunto de valores expr único.

Ejemplos

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000