클러스터에 데이터 할당

기존의 학습된 클러스터링 모델을 사용하여 클러스터에 데이터 할당

범주: 점수

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

모듈 개요

이 문서에서는 Azure Machine Learning Studio (클래식)의 클러스터에 데이터 할당 모듈을 사용 하 여 K를 통해 학습 된 클러스터링 모델을 사용 하 여 예측을 생성 하는 방법을 설명 합니다.

모듈은 각각의 새 데이터 요소에 대해 가능한 할당을 포함 하는 데이터 집합을 반환 합니다. 또한 클러스터의 차원을 시각화 하는 데 도움이 되는 PCA (주 구성 요소 분석) 그래프를 만듭니다.

경고

이 모듈은 이전 실험의 지원에 대해서만 사용할 수 있는 클러스터에 할당 (사용 되지 않음) 모듈을 대체 합니다.

클러스터에 데이터 할당을 사용 하는 방법

  1. Azure Machine Learning Studio (클래식)에서 이전에 학습 된 클러스터링 모델을 찾습니다. 다음 방법 중 하나를 사용 하 여 클러스터링 모델을 만들고 학습할 수 있습니다.

    작업 영역의 저장 된 모델 그룹에서 기존의 학습 된 클러스터링 모델을 추가할 수도 있습니다.

  2. 데이터를 클러스터에 할당의 왼쪽 입력 포트에 학습 된 모델을 연결 합니다.

  3. 새 데이터 집합을 입력으로 연결 합니다. 이 데이터 집합에서 레이블은 선택 사항입니다. 일반적으로 클러스터링은 자율 학습 방법 이므로 사전에 범주를 알 수 없습니다.

    그러나 입력 열은 클러스터링 모델을 학습 하는 데 사용 된 열과 동일 해야 합니다. 그렇지 않으면 오류가 발생 합니다.

    클러스터 예측에서 열 출력 수를 줄이려면 데이터 집합에서 열 선택을 사용 하 고 열의 하위 집합을 선택 합니다.

  4. 결과 (클러스터 할당)를 나타내는 열과 함께 전체 입력 데이터 집합을 포함 하는 경우에만 선택 된 결과에 대해 추가 확인 또는 선택 취소 옵션을 선택 된 상태로 둡니다.

    이 옵션의 선택을 취소 하면 결과만 반환 됩니다. 이는 웹 서비스의 일부로 예측을 만들 때 유용할 수 있습니다.

  5. 실험을 실행합니다.

결과

데이터를 클러스터에 할당 모듈은 결과 데이터 집합 출력에 두 가지 결과 유형을 반환 합니다.

  • 모델에서 클러스터를 분리 하는 것을 보려면 모듈의 출력을 클릭 하 고 시각화 를 선택 합니다.

    이 명령은 각 클러스터의 값 컬렉션을 두 개의 구성 요소 축에 매핑하는 PCA (주 구성 요소 분석) 그래프를 표시 합니다.

    • 첫 번째 구성 요소 축은 모델에서 가장 분산 된 기능을 캡처하는 결합 된 기능 집합입니다. X 축 (주 구성 요소 1)에 그려집니다.
    • 다음 구성 요소 축은 첫 번째 구성 요소와 직교 하 고 차트에 다음의 대부분의 정보를 추가 하는 일부 결합 된 기능 집합을 나타냅니다. Y 축 (주 구성 요소 2)에 그려집니다.

    그래프에서 클러스터 간의 분리 및 주 구성 요소를 나타내는 축을 따라 클러스터가 배포 되는 방식을 확인할 수 있습니다.

  • 입력 데이터의 각 사례에 대 한 결과 테이블을 보려면 데이터 집합으로 변환 모듈을 연결 하 고 Studio (클래식)에서 결과를 시각화 합니다.

    이 데이터 집합에는 각 사례에 대 한 클러스터 할당 및이 특정 사례를 클러스터의 중앙에 얼마나 근접 하 고 있는지를 나타내는 거리 메트릭이 포함 됩니다.

    출력 열 이름 설명
    할당 데이터 요소가 할당 된 클러스터를 나타내는 0부터 기반 하는 인덱스입니다.
    DistancesToClusterCenter 아니요. n 각 데이터 요소에 대해이 값은 데이터 요소에서 할당 된 클러스터의 중심 까지의 거리와 다른 클러스터에 대 한 거리를 나타냅니다.

    거리를 계산 하는 데 사용 되는 메트릭은 K의 클러스터링 모델을 구성할 때 결정 됩니다.

예상 입력

속성 유형 설명
학습된 모델 ICluster 인터페이스 학습된 클러스터링 모델입니다.
데이터 세트 데이터 테이블 입력 데이터 원본입니다.

모듈 매개 변수

속성 Type 범위 선택 사항 기본값 설명
추가 또는 결과만 필수 TRUE 출력 데이터 집합에 입력 데이터 집합 뿐만 아니라 결과 또는 결과만 포함 해야 하는지 여부를 나타냅니다.
매개 변수 비우기 모드 지정 스윕 방법 목록: 전체 그리드|임의 스윕 필수 임의 비우기를 수행합니다. 매개 변수 공간의 전체 표를 비우거나 제한된 수의 샘플 실행을 사용하여 비우기를 수행합니다.

출력

속성 유형 설명
결과 데이터 집합 데이터 테이블 할당의 데이터 열이 추가되거나 할당 열만 포함된 입력 데이터 집합입니다.

예외

예외 설명
오류 0003 하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다.

참고 항목

K-클러스터링을 의미 합니다.
점수