클러스터링 기술 적용

3분

클러스터링을 사용하면 서로 유사하지만 나머지 데이터와는 다른 데이터의 세그먼트(클러스터)를 식별할 수 있습니다. 클러스터링 프로세스는 이전에 수행한 그룹화의 프로세스와 다릅니다.

Power BI 클러스터링 기능을 사용하면 데이터 하위 세트에서 유사한 데이터 요소의 그룹을 신속하게 찾을 수 있습니다. 의미 체계 모델을 분석하여 특성 값의 유사점과 차이점을 식별한 다음 유사점이 있는 데이터를 데이터 하위 집합으로 분리합니다. 이러한 데이터 하위 세트를 클러스터라고 합니다.

예를 들어 판매 데이터에서 전반적인 고객 행동과 같은 패턴을 찾아야 할 수 있습니다. 나이 또는 위치와 같은 유사성에 따라 고객을 클러스터로 구분할 수 있습니다.

먼저 분산형 차트 시각화를 보고서에 추가한 후 이 시각적 개체에 필요한 필드를 추가합니다. 이 예제에서는 Order Qty 필드를 X축에, Sales 필드를 Y축에, Unit Price를 Values 필드에 추가합니다. 다음 이미지에서 볼 수 있듯이 분산형 차트에 많은 데이터가 있으므로 자연적인 그룹을 확인하기가 어렵습니다.

분산형 차트에 클러스터링을 적용하려면 시각적 개체의 오른쪽 위 모서리에 있는 기타 옵션(...)을 선택한 다음, 자동으로 클러스터 찾기를 선택합니다.

표시되는 클러스터 창에서 기본 이름, 필드 및 설명(필요한 경우)을 편집할 수 있습니다. 그러나 이 예에서는 클러스터 수를 변경하려고 합니다. 다음 이미지에서 클러스터 수 상자는 기본적으로 비어 있습니다. 즉, Power BI에서 데이터에 가장 적합하다고 판단되는 클러스터 수를 자동으로 찾습니다.

상자에 원하는 클러스터 수(이 경우 3)를 입력한 다음, 확인을 선택합니다. Power BI에서 클러스터링 알고리즘이 실행되고 다른 클러스터 그룹을 포함하는 새 범주 필드가 만들어집니다. 이제 시각적 개체를 보면 데이터에 있는 클러스터를 명확하게 확인하고 이 클러스터에 대한 분석을 수행할 수 있습니다.

새 클러스터 필드가 분산형 차트의 범례 필드 웰 버킷에 추가됩니다. 다른 범례 필드와 마찬가지로 이제 이 필드를 교차 강조 표시의 소스로 사용할 수 있습니다. 다른 필드와 마찬가지로 새 클러스터 필드를 필드 목록에서도 찾을 수 있으며 새 시각적 개체에서 사용할 수 있습니다.

클러스터를 편집하려면 클러스터 필드를 마우스 오른쪽 단추로 클릭하고 클러스터 편집을 선택합니다.

위의 예에서 분산형 차트에 클러스터링을 적용할 때 두 개의 측정만 사용할 수 있었습니다. 세 개 이상의 측정을 사용하여 클러스터를 찾으려는 경우에는 테이블 시각적 개체를 대신 사용하여 사용하려는 모든 필드를 추가한 후 동일한 프로세스를 사용하여 클러스터링 알고리즘을 실행할 수 있습니다.

계속

피드백