클러스터링의 정의

5분

클러스터링은 데이터 값의 유사성 또는 기능에 따라 관찰 내용이 클러스터로 그룹화되는 자율형 기계 학습 형태입니다. 이러한 유형의 기계 학습은 이전에 알려진 레이블 값을 사용하여 모델을 학습시키지 않기 때문에 감독되지 않는 학습으로 간주됩니다. 클러스터링 모델에서 레이블은 관련 특징만을 기준으로 관찰이 할당되는 클러스터입니다.

예를 들어 한 식물학자가 꽃 샘플을 관찰하고 각 꽃의 꽃잎과 나뭇잎 수를 기록한다고 가정해 봅시다.

Illustration showing a collection of flowers with different numbers of petals and leaves.

꽃들을 해당 기능 간의 유사성을 기준으로 클러스터로 그룹화하는 것이 유용할 수 있습니다.

이 그룹화를 결정하는 방법은 여러 가지가 있습니다. 예를 들어 대부분의 꽃이 잎 수가 같다면 꽃잎이 많은 꽃과 적은 꽃으로 그룹화할 수 있습니다. 또는 꽃잎과 잎 수가 크게 달라지는 경우 잎이 많은 꽃은 꽃잎도 많다는 식의 패턴을 발견할 수 있습니다. 클러스터링 알고리즘의 목표는 데이터 세트를 여러 그룹으로 분할하는 최적의 방법을 찾는 것입니다. 최적의 의미는 사용되는 알고리즘과 제공되는 데이터 세트에 따라 달라집니다.

이 꽃 예제는 샘플이 몇 개 밖에 없어 분류하기 쉽지만, 데이터 세트가 샘플 수천 개로 확장되거나 특징이 세 가지 이상으로 확장되면 데이터 세트를 여러 그룹으로 신속하게 분류하는 작업에 클러스터링 알고리즘이 유용해집니다.

계속

피드백