hll_merge()

Artículo
01/18/2024

Combina los resultados de HLL. Esta es la versión escalar de la versión hll_merge()de agregado.

Obtenga información sobre el algoritmo subyacente (HyperLogLog) y la precisión de la estimación.

Importante

Los resultados de hll(), hll_if() y hll_merge() se pueden almacenar y recuperar más adelante. Por ejemplo, puede crear un resumen diario de usuarios únicos, que se puede usar para calcular recuentos semanales. Sin embargo, la representación binaria precisa de estos resultados puede cambiar con el tiempo. No hay ninguna garantía de que estas funciones generen resultados idénticos para entradas idénticas y, por lo tanto, no se recomienda confiar en ellas.

Syntax

hll_merge(Hll,hll2, [ hll3, ... ])

Obtenga más información sobre las convenciones de sintaxis.

Parámetros

Nombre	Tipo	Requerido	Descripción
hll, hll2, ...	`string`	✔️	Nombres de columna que contienen valores HLL que se van a combinar. La función espera entre 2 y 64 argumentos.

Devoluciones

Devuelve un valor HLL. El valor es el resultado de combinar las columnas hll, hll2, ... hllN.

Ejemplos

En este ejemplo se muestra el valor de las columnas combinadas.

Ejecución de la consulta

range x from 1 to 10 step 1 
| extend y = x + 10
| summarize hll_x = hll(x), hll_y = hll(y)
| project merged = hll_merge(hll_x, hll_y)
| project dcount_hll(merged)

Salida

`dcount_hll_merged`
20

Precisión de la estimación

Esta función usa una variante del algoritmo HyperLogLog (HLL), que realiza una estimación estocástica de cardinalidad establecida. El algoritmo proporciona una "manija" que se puede usar para equilibrar la precisión y el tiempo de ejecución por tamaño de memoria:

Precisión	Error (%)	Recuento de entradas
0	1.6	2¹²
1	0.8	2¹⁴
2	0,4	2¹⁶
3	0,28	2¹⁷
4	0,2	2¹⁸

Nota

La columna "recuento de entradas" es el número de contadores de 1 byte en la implementación HLL.

El algoritmo incluye algunas disposiciones para realizar un recuento perfecto (cero errores), si la cardinalidad del conjunto es lo suficientemente pequeña:

Cuando el nivel de precisión es 1, se devuelven 1000 valores.
Cuando el nivel de precisión es 2, se devuelven 8000 valores.

El límite de errores es probabilístico, no un enlace teórico. El valor es la desviación estándar de la distribución de errores (sigma) y el 99,7 % de las estimaciones tendrá un error relativo de menos de 3 x sigma.

En la imagen siguiente se muestra la función de distribución de probabilidad del error de estimación relativa, en porcentajes, para todas las configuraciones de precisión compatibles:

Gráfico que muestra la distribución de errores hll.

Compartir a través de