클러스터에 데이터 할당

아티클
05/06/2019

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
Azure Machine Learning에 대한 자세한 정보.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

기존의 학습된 클러스터링 모델을 사용하여 클러스터에 데이터 할당

범주: 점수

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)의 클러스터에 데이터 할당 모듈을 사용하여 K-Means 클러스터링 알고리즘을 사용하여 학습된 클러스터링 모델을 사용하여 예측을 생성하는 방법을 설명합니다.

모듈은 각 새 데이터 요소에 대한 가능한 할당이 포함된 데이터 세트를 반환합니다. 또한 클러스터의 차원을 시각화하는 데 도움이 되는 PCA(주요 구성 요소 분석) 그래프를 만듭니다.

경고

이 모듈은 이전 실험을 지원하는 데만 사용할 수 있는 클러스터에 할당(사용되지 않음) 모듈을 대체합니다.

클러스터에 데이터 할당을 사용하는 방법

Machine Learning Studio(클래식)에서 이전에 학습된 클러스터링 모델을 찾습니다. 다음 방법 중 하나를 사용하여 클러스터링 모델을 만들고 학습할 수 있습니다.
- K-평균 클러스터링 모듈을 사용하여 K-평균 알고리즘을 구성한 다음, 데이터 세트 및 클러스터링 모델 학습 모듈을 사용하여 모델을 학습시킵니다.
- K-평균 클러스터링을 사용하여 K-평균 알고리즘에 대한 다양한 옵션을 구성한 다음, 스윕 클러스터링 모듈을 사용하여 모델을 학습합니다.
작업 영역의 저장된 모델 그룹에서 기존의 학습된 클러스터링 모델을 추가할 수도 있습니다.
클러스터에 데이터 할당의 왼쪽 입력 포트에 학습된 모델을 연결합니다.
새 데이터 세트를 입력으로 연결합니다. 이 데이터 세트에서 레이블은 선택 사항입니다. 일반적으로 클러스터링이 자율 학습 방법이므로 범주를 미리 알 수 없을 것으로 예상됩니다.

그러나 입력 열은 클러스터링 모델을 학습하는 데 사용된 열과 동일해야 합니다. 그렇지 않으면 오류가 발생합니다.

팁

클러스터 예측에서 출력되는 열 수를 줄이려면 데이터 세트에서 열 선택을 사용하고 열의 하위 집합을 선택합니다.
결과에 전체 입력 데이터 세트가 결과(클러스터 할당)를 나타내는 열과 함께 포함되도록 하려면 [결과 만 추가 또는 선택 취소] 옵션을 선택합니다.

이 옵션을 선택 취소하면 결과만 다시 가져옵니다. 이 기능은 웹 서비스의 일부로 예측을 만들 때 유용할 수 있습니다.
실험을 실행합니다.

결과

클러스터에 데이터 할당 모듈은 결과 데이터 세트 출력에 다음 두 가지 유형의 결과를 반환합니다.

모델에서 클러스터의 분리를 보려면 모듈의 출력을 클릭하고 시각화를 선택합니다.

이 명령은 각 클러스터의 값 컬렉션을 두 개의 구성 요소 축에 매핑하는 PCA(보안 주체 분석) 그래프를 표시합니다.
- 첫 번째 구성 요소 축은 모델에서 가장 분산을 캡처하는 결합된 기능 집합입니다. x축(주 구성 요소 1)에 그려집니다.
- 다음 구성 요소 축은 첫 번째 구성 요소에 직교하고 다음으로 가장 많은 정보를 차트에 추가하는 일부 결합된 기능 집합을 나타냅니다. y축(주 구성 요소 2)에 그려집니다.
그래프에서 클러스터 간의 분리와 주 구성 요소를 나타내는 축을 따라 클러스터가 배포되는 방식을 확인할 수 있습니다.

입력 데이터의 각 사례에 대한 결과 테이블을 보려면 데이터 세트로 변환 모듈을 연결하고 Studio(클래식)에서 결과를 시각화합니다.

이 데이터 세트에는 각 사례에 대한 클러스터 할당 과 이 특정 사례가 클러스터 중앙에 얼마나 가까운지를 나타내는 거리 메트릭이 포함되어 있습니다.

출력 열 이름	설명
할당	데이터 포인트가 할당된 클러스터를 나타내는 0 기반 인덱스입니다.
DistancesToClusterCenter no. n	각 데이터 요소에 대해 이 값은 데이터 요소에서 할당된 클러스터의 중심까지의 거리와 다른 클러스터까지의 거리를 나타냅니다. 거리를 계산하는 데 사용되는 메트릭은 K-평균 클러스터링 모델을 구성할 때 결정됩니다.

예상 입력

Name	유형	Description
학습된 모델	ICluster 인터페이스	학습된 클러스터링 모델입니다.
데이터 세트	데이터 테이블	입력 데이터 원본입니다.

모듈 매개 변수

Name	Type	범위	Optional	기본값	설명
추가 또는 결과만			필수	TRUE	출력 데이터 세트에 입력 데이터 세트와 결과를 포함해야 하는지 또는 결과만 포함해야 하는지를 나타냅니다.
매개 변수 비우기 모드 지정	스윕 메서드	목록:전체 그리드\| 임의 스윕	필수	임의 비우기를 수행합니다.	매개 변수 공간의 전체 표를 비우거나 제한된 수의 샘플 실행을 사용하여 비우기를 수행합니다.

출력

Name	유형	설명
결과 데이터 집합	데이터 테이블	할당의 데이터 열이 추가되거나 할당 열만 포함된 입력 데이터 집합입니다.

예외

예외	설명
오류 0003	하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다.

참고 항목

K-Means 클러스터링
점수