클러스터링 모델 탐색(기본 데이터 마이닝 자습서)

아티클
05/07/2013

Microsoft 클러스터링 알고리즘은 사례를 유사한 특징을 가진 클러스터로 그룹화합니다. 이러한 그룹화는 데이터 탐색, 데이터 내 잘못된 부분 식별, 예측 만들기 등에 유용합니다.

Microsoft 클러스터 뷰어는 클러스터링 마이닝 모델 탐색 시 사용할 수 있는 다음과 같은 탭을 제공합니다.

클러스터 다이어그램

클러스터 프로필

클러스터 특징

클러스터 판별

다음 섹션에서는 적합한 뷰어를 선택하고 다른 마이닝 모델을 탐색하는 방법에 대해 설명합니다.

클러스터 다이어그램 탭

클러스터 다이어그램 탭에서는 마이닝 모델에 있는 클러스터를 모두 표시합니다. 클러스터 사이의 선은 "일치 정도"를 나타내며 클러스터가 얼마나 비슷한지에 따라 음영 처리됩니다. 각 클러스터의 실제 색은 클러스터에 있는 변수와 상태의 빈도를 나타냅니다.

클러스터 다이어그램 탭에서 모델을 탐색하려면

마이닝 모델 뷰어 탭 상단의 마이닝 모델 목록을 사용하여 TM_Clustering 모델로 전환합니다.
뷰어 목록에서 Microsoft 클러스터 뷰어를 선택합니다.
음영 변수 목록에서 Bike Buyer를 선택합니다.

기본 변수는 모집단이지만 이를 모델의 다른 특성으로 변경하여 원하는 특성이 있는 멤버를 포함하는 클러스터를 검색할 수 있습니다.
상태 상자에서 1을 선택하여 자전거 한 대를 구매한 사례를 탐색합니다.

밀도 범례에서는 음영 변수 및 상태에서 선택한 특성 상태 쌍의 밀도를 설명합니다. 이 예에서는 가장 짙은 음영이 자전거 구매자 비율이 가장 높음을 나타냅니다.
음영이 가장 짙은 클러스터 위에 마우스를 놓습니다.

도구 설명에서 특성이 Bike Buyer = 1인 사례의 비율을 표시합니다.
밀도가 가장 높은 클러스터를 선택하고 클러스터를 마우스 오른쪽 단추로 클릭한 다음 나중에 식별하기 위해 클러스터 이름 바꾸기를 선택하고 Bike Buyers High를 입력합니다. 확인을 클릭합니다.
음영이 가장 밝고 밀도가 가장 낮은 클러스터를 찾습니다. 클러스터를 마우스 오른쪽 단추로 클릭하고 클러스터 이름 바꾸기를 선택하고 Bike Buyers Low를 입력합니다. 확인을 클릭합니다.
Bike Buyers High 클러스터를 클릭하고 다른 클러스터와의 연결을 보다 선명하게 보여 주는 창 영역으로 끕니다.

클러스터를 선택하면 이 클러스터를 다른 클러스터에 연결하는 선이 강조 표시되므로 이 클러스터에 대한 모든 관계를 쉽게 볼 수 있습니다. 클러스터를 선택하지 않은 경우 다이어그램에 있는 모든 클러스터 간 관계의 밀접도는 선이 짙은 정도로 알 수 있습니다. 음영이 밝거나 없으면 두 클러스터가 그다지 유사하지 않은 것입니다.
네트워크 왼쪽의 슬라이더를 사용하여 약한 링크를 필터로 제외시키고 가장 밀접한 관계가 있는 클러스터를 찾을 수 있습니다. Adventure Works Cycles 마케팅 부서에서 대상 메일을 배달하기 위한 최상의 방법을 결정할 때 유사한 클러스터를 함께 결합할 수 있습니다.

맨 위로 이동

클러스터 프로필 탭

클러스터 프로필 탭을 사용하여 TM_Clustering 모델을 전체적으로 볼 수 있습니다. 클러스터 프로필 탭에는 모델의 각 클러스터에 대한 열이 포함됩니다. 첫 번째 열에는 적어도 하나의 클러스터와 연결된 특성이 나열됩니다. 뷰어의 나머지 부분에는 각 클러스터에 대한 특성의 상태 분포가 있습니다. 불연속 변수의 분포는 히스토그램 막대 목록에 최대 막대 개수와 함께 색이 지정된 막대로 표시됩니다. 연속 특성은 각 클러스터의 평균과 표준 편차를 나타내는 다이아몬드 차트를 사용하여 표시됩니다.

클러스터 프로필 탭에서 모델을 탐색하려면

히스토그램 막대를 5로 설정합니다.

이 모델에서 5는 어느 한 변수의 상태에 지정할 수 있는 최대값입니다.
마이닝 범례가 특성 프로필의 표시를 차단하는 경우 마이닝 범례를 다른 위치로 이동합니다.
Bike Buyers High 열을 선택하고 모집단 열의 오른쪽으로 끕니다.
Bike Buyers Low 열을 선택하고 Bike Buyers High 열의 오른쪽으로 끕니다.
Bike Buyers High 열을 클릭합니다.

변수 열이 해당 클러스터에 대한 중요도의 순서대로 정렬됩니다. 열을 스크롤하고 Bike Buyer High 클러스터의 특징을 검토합니다. 예를 들어 이 클러스터에 속한 사람들은 통근 거리가 짧을 가능성이 더 많습니다.
Bike Buyers High 열에서 Age 셀을 두 번 클릭합니다.

마이닝 범례에서 보다 자세하게 표시하므로 이러한 고객의 연령 범위는 물론 평균 연령도 볼 수 있습니다.
Bike Buyers Low 열을 마우스 오른쪽 단추로 클릭하고 열 숨기기를 선택합니다.

맨 위로 이동

클러스터 특징 탭

클러스터 특징 탭을 사용하여 클러스터를 구성하는 특징을 보다 자세히 검사할 수 있습니다. 클러스터 프로필 탭에서 모든 클러스터의 특징을 비교하는 대신 한 번에 하나의 클러스터를 탐색할 수 있습니다. 예를 들어 클러스터 목록에서 Bike Buyers High를 선택하는 경우 이 클러스터의 고객 특징을 볼 수 있습니다. 클러스터 프로필 뷰어와 다르게 표시되지만 결과는 동일합니다.

[!참고]

holdoutseed의 초기 값을 설정하지 않으면 모델을 처리할 때마다 결과가 달라집니다. 자세한 내용은 HoldoutSeed 요소를 참조하십시오.

맨 위로 이동

클러스터 판별 탭

클러스터 판별 탭을 사용하여 클러스터를 서로 구별하는 특징을 탐색할 수 있습니다. 두 개의 클러스터, 즉 클러스터 1 목록에서 하나와 클러스터 2 목록에서 하나를 선택하면 뷰어에서 두 클러스터 간의 차이가 계산되어 두 클러스터를 가장 잘 구별하는 특성 목록이 표시됩니다.

클러스터 판별 탭에서 모델을 탐색하려면

클러스터 1 상자에서 Bike Buyers High를 선택합니다.
클러스터 2 상자에서 Bike Buyers Low를 선택합니다.
변수를 클릭하여 사전순으로 정렬합니다.

Bike Buyers Low 및 Bike Buyers High 클러스터의 고객 간에서 볼 수 있는 보다 큰 차이점 중 일부에는 나이, 자동차 소유 여부, 자녀 수 및 지역이 포함됩니다.