다음을 통해 공유


hll_merge()(집계 함수)

그룹 전체의 HLL 결과를 단일 HLL 값으로 병합합니다.

참고

이 함수는 summarize 연산자와 함께 사용됩니다.

자세한 내용은 기본 알고리즘(HyperLogLog) 및 예측 정확도를 참조하세요.

중요

hll(), hll_if() 및 hll_merge()의 결과를 저장하고 나중에 검색할 수 있습니다. 예를 들어 일별 고유 사용자 요약을 만든 다음 주간 수를 계산하는 데 사용할 수 있습니다. 그러나 이러한 결과의 정확한 이진 표현은 시간이 지남에 따라 변경 될 수 있습니다. 이러한 함수가 동일한 입력에 대해 동일한 결과를 생성한다는 보장은 없으므로 이를 사용하지 않는 것이 좋습니다.

Syntax

hll_merge(hll)

구문 규칙에 대해 자세히 알아보세요.

매개 변수

이름 형식 필수 Description
hll string ✔️ 병합할 HLL 값이 포함된 열 이름입니다.

반환

함수는 그룹 전체에서 hll의 병합된 HLL 값을 반환합니다.

dcount_hll 함수를 사용하여 hll()hll_merge() 집계 함수의 를 계산 dcount 합니다.

예제

다음 예제에서는 단일 HLL 값으로 병합된 그룹 전체의 HLL 결과를 보여줍니다.

StormEvents
| summarize hllRes = hll(DamageProperty) by bin(StartTime,10m)
| summarize hllMerged = hll_merge(hllRes)

출력

결과에는 배열의 처음 5개 결과만 표시됩니다.

hllMerged
[[1024,14],["-6903255281122589438","-7413697181929588220","-2396604341988936699","5824198135224880646","-6257421034880415225", ...],[]]

추정 정확도

이 함수는 HLL(HyperLogLog) 알고리즘의 변형을 사용합니다. 이 알고리즘은 집합 카디널리티의 확률적 추정을 수행합니다. 알고리즘은 메모리 크기당 정확도와 실행 시간의 균형을 맞추는 데 사용할 수 있는 "노브"를 제공합니다.

정확도 오류(%) 항목 수
0 1.6 212
1 0.8 214
2 0.4 216
3 0.28 217
4 0.2 218

참고

"항목 수" 열은 HLL 구현에서 1바이트 카운터의 수입니다.

알고리즘에는 설정 카디널리티가 충분히 작을 경우 완전한 개수(오류 0개)를 수행하기 위한 몇 가지 프로비전이 포함됩니다.

  • 정확도 수준이 1이면 1000개의 값이 반환됩니다.
  • 정확도 수준이 2이면 8000개의 값이 반환됩니다.

바인딩된 오류는 이론적 바운드가 아닌 확률입니다. 값은 오차 분포의 표준 편차(시그마)이며, 추정치의 99.7%는 3 x 시그마 미만의 상대 오차를 갖습니다.

다음 이미지는 지원되는 모든 정확도 설정에 대한 상대적 추정 오차의 확률 분포 함수를 백분율로 보여줍니다.

hll 오류 분포를 보여 주는 그래프입니다.