count_min_sketch 집계 함수

적용 대상:검사 '예'로 표시 Databricks SQL 검사 '예'로 표시 Databricks 런타임

epsilon, confidenceseed를 사용하여 column에서 그룹의 모든 값에 대한 최소 개수 스케치를 반환합니다.

Databricks SQL 및 Databricks Runtime 13.3 LTS 이상에서 이 함수는 명명된 매개 변수 호출을 지원합니다.

구문

count_min_sketch ( [ALL | DISTINCT] column, epsilon, confidence, seed ) [FILTER ( WHERE cond ) ]

이 함수는 OVER 절을 사용하여 창 함수로 호출할 수도 있습니다.

인수

  • column: 정수 숫자 STRING또는 BINARY.로 계산되는 식입니다.
  • epsilonDOUBLE: 상대 오류를 설명하는 0보다 큰 리터럴입니다.
  • confidenceDOUBLE: 0보다 크고 1보다 작은 리터럴입니다.
  • seed: 리터럴입니다 INTEGER .
  • cond: 집계에 사용되는 행을 필터링하는 선택적 부울 식입니다.

반품

BINARY.

Count-min 스케치는 하위 선형 공간을 사용하여 카디널리티 추정에 사용되는 확률적 데이터 구조입니다.

DISTINCT가 지정되면 함수는 고유한 expr 값 집합에서만 작동합니다.

예제

-- Named parameter invocation
> SELECT hex(count_min_sketch(column => col, confidence => 0.5d, epsilon => 0.5d, seed => 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000030000000100000004000000005D8D6AB90000000000000000000000000000000200000000000000010000000000000000

> SELECT hex(count_min_sketch(DISTINCT col, 0.5d, 0.5d, 1)) FROM VALUES (1), (2), (1) AS tab(col);
0000000100000000000000020000000100000004000000005D8D6AB90000000000000000000000000000000100000000000000010000000000000000