여러 유형의 클러스터링 평가

5분

클러스터링 모델 학습

클러스터링에 사용할 수 있는 다양한 알고리즘이 존재합니다. 가장 일반적으로 사용되는 알고리즘 중 하나는 K-평균 클러스터링이며, 가장 간단한 형태는 다음 단계로 구성됩니다.

n차원 좌표(여기서 n은 기능 개수)를 정의하기 위해 기능 값이 벡터화됩니다. 꽃 예제에는 꽃잎 수와 잎 수라는 두 가지 특징이 있습니다. 따라서 기능 벡터는 2차원 공간에서 개념적으로 데이터 요소를 그리는 데 사용할 수 있는 두 개의 좌표를 갖게 됩니다.
꽃들을 그룹화하는 데 사용하려는 클러스터 개수를 정하고 이 값을 k라고 부릅니다. 예를 들어 클러스터 3개를 만들려면 k 값에 3을 사용합니다. 그러면 k 지점이 임의 좌표에 그려집니다. 이러한 지점들은 각 클러스터의 중심점이 되므로 중심이라고 부릅니다.
각 데이터 지점(이 경우에는 꽃)이 가장 가까운 중심에 할당됩니다.
각 중심은 점수 간의 평균 거리를 기준으로 해당 개체에 할당된 데이터 요소의 가운데로 이동됩니다.
중심이 옮겨진 후 데이터 요소가 다른 중심에 더 가까이 있게 될 수도 있으므로, 가장 가까운 새 중심을 기반으로 데이터 요소가 클러스터에 재할당됩니다.
중심 이동 및 클러스터 재할당 단계는 클러스터가 안정되거나 사전에 정해진 최대 반복 횟수에 도달할 때까지 반복됩니다.

다음 애니메이션은 해당 프로세스를 나타냅니다.

Illustration showing a collection of flowers with different numbers of petals and leaves.

계층적 클러스터링

계층적 클러스터링은 여러 클러스터가 더 큰 그룹에 속하고, 이 더 큰 그룹들이 또 다시 더 큰 그룹에 속하는 또 다른 유형의 클러스터링 알고리즘입니다. 따라서 데이터 포인트는 정밀도가 다른 클러스터일 수 있습니다. 즉, 매우 작고 정확한 그룹이 많이 있거나 큰 그룹이 약간 있을 수 있습니다.

예를 들어 단어의 의미에 클러스터링을 적용하면 감정과 관련된 형용사(‘화가 난’, ‘행복한’ 등)가 포함된 그룹을 얻을 수 있습니다. 이 그룹은 사람과 관련된 모든 형용사('행복한', '잘생긴', '젊은')를 포함하는 그룹에 속하며, 그 그룹은 모든 형용사('행복한', '푸른', '잘생긴', '단단한' 등)를 포함하는 더 높은 그룹에 속합니다.

Illustration showing hierarchical clustering.

계층적 클러스터링은 데이터를 여러 그룹으로 분리하고 그룹 간의 관계를 이해하는 데 유용합니다. 계층적 클러스터링의 주요 장점은 클러스터 수를 미리 정의할 필요가 없다는 점입니다. 그리고 때로는 비계층적 접근 방식보다 더 많은 해석 가능한 결과를 제공하기도 합니다. 이러한 접근 방식의 주요 단점은 단순한 접근 방식보다 컴퓨팅 시간이 오래 걸릴 수 있으며, 큰 데이터 세트에 적합하지 않을 수도 있다는 점입니다.

계속

클러스터링 모델 학습

계층적 클러스터링

피드백