주 구성 요소 분석

아티클
05/06/2019

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
Azure Machine Learning에 대한 자세한 정보.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

보다 효율적인 학습을 위해 감소된 차원성으로 기능 집합 계산

범주: 데이터 변환/샘플 및 분할

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)에서 보안 주체 구성 요소 분석 모듈을 사용하여 학습 데이터의 차원을 줄이는 방법을 설명합니다. 모듈은 데이터를 분석하고 데이터 세트에 포함된 모든 정보를 캡처하지만 적은 수의 기능으로 캡처하는 축소된 기능 집합을 만듭니다.

이 모듈에서는 추가 학습 없이도 기능 압축과 차원을 비슷하게 감소하기 위해 새 데이터에 적용할 수 있는 변환도 만듭니다.

PCA(Principal Component Analysis)에 대한 자세한 내용

PCA(보안 주체 구성 요소 분석)는 기계 학습에서 널리 사용되는 기술입니다. 많은 유형의 벡터 공간 데이터를 압축할 수 있고 샘플링을 통해 압축을 가장 효율적으로 수행할 수 있다는 사실에 의존합니다.

PCA의 추가 이점은 향상된 데이터 시각화 및 학습 알고리즘의 리소스 사용 최적화입니다.

Machine Learning Studio(클래식)의 보안 주체 구성 요소 분석 모듈은 제공된 데이터 세트의 기능 열 집합을 사용하고 차원이 낮은 기능 공간의 프로젝션을 만듭니다. 알고리즘은 임의화 기술을 사용하여 전체 기능 매트릭스에서 대부분의 정보를 캡처하는 기능 하위 영역을 식별합니다. 따라서 변환된 데이터 행렬은 노이즈 효과를 줄이고 과잉 맞춤 위험을 최소화하면서 원래 데이터의 분산을 캡처합니다.

PCA(주 구성 요소 분석)에 대한 일반적인 내용은 이 Wikipedia 문서를 참조하세요. 이 모듈에서 사용되는 PCA 접근 방식에 대한 자세한 내용은 다음 문서를 참조하세요.

임의성이 있는 구조 찾기: 근사 행렬 분해를 생성하기 위한 확률적 알고리즘입니다. 할코, 마틴슨, 트로프, 2010.
대규모 PCA에서 구조적 임의성 및 비정형 임의성 결합 대규모 PCA에서 구조적 임의성 및 비정형 임의성 결합 카람파치아키스와 미네이로, 2013.

보안 주체 구성 요소 분석을 구성하는 방법

주 구성 요소 분석 모듈을 실험에 추가합니다. 데이터 변환 아래의 크기 조정 및 축소 범주에서 찾을 수 있습니다.
변환하려는 데이터 세트를 커넥트 분석할 기능 열을 선택합니다.

어떤 열이 기능이고 어떤 열이 레이블인지 아직 명확하지 않은 경우 메타데이터 편집 모듈을 사용하여 열을 미리 표시하는 것이 좋습니다.
줄일 차원 수: 최종 출력에 원하는 열 수를 입력합니다. 각 열은 입력 열에 있는 정보의 일부를 캡처하는 차원을 나타냅니다.

예를 들어 원본 데이터 세트에 8개의 열이 있고 입력 3하는 경우 선택한 8개 열의 정보를 캡처하는 3개의 새 열이 반환됩니다. 열의 이름은 Col1, Col2및 Col3. 이러한 열은 원본 열에 직접 매핑되지 않습니다. 대신 열에는 원래 열 1-8에서 설명하는 기능 공간의 근사값이 포함됩니다.

팁

감소된 차원 수가 원래 차원보다 훨씬 작은 경우 알고리즘이 최적으로 작동합니다.
조밀한 데이터 세트를 평균 0으로 정규화: 데이터 세트가 조밀한 경우 이 옵션을 선택합니다. 즉, 누락된 값이 거의 없습니다. 이 옵션을 선택하면 모듈은 열의 값을 다른 처리보다 평균 0으로 정규화합니다.

스파스 데이터 세트의 경우 이 옵션을 선택해서는 안 됩니다. 스파스 데이터 세트가 검색되면 매개 변수가 재정의됩니다.
실험을 실행합니다.

결과

모듈은 모델을 만드는 데 사용할 수 있는 축소된 열 집합을 출력합니다. 출력을 새 데이터 세트로 저장하거나 실험에서 사용할 수 있습니다.

필요에 따라 분석 프로세스를 저장된 변환으로 저장하여 적용 변환을 사용하여 다른 데이터 세트에 적용할 수 있습니다.

변환을 적용하는 데이터 세트에는 원래 데이터 세트와 동일한 스키마가 있어야 합니다.

예

기계 학습에서 보안 주체 구성 요소 분석을 사용하는 방법에 대한 예제는 Azure AI 갤러리를 참조하세요.

클러스터링: 유사한 회사 찾기: 주 구성 요소 분석을 사용하여 텍스트 마이닝에서 관리 가능한 기능 수로 값 수를 줄입니다.

이 샘플에서 PCA는 사용자 지정 R 스크립트를 사용하여 적용되지만 PCA가 일반적으로 사용되는 방법을 보여 줍니다.

기술 정보

하위 차원 구성 요소의 계산에는 두 단계가 있습니다.

첫 번째는 행렬의 동작을 캡처하는 하위 차원 하위 영역을 생성하는 것입니다.
두 번째는 행렬을 하위 영역으로 제한한 다음 감소된 행렬의 표준 팩터화를 계산하는 것입니다.

예상 입력

Name	유형	설명
데이터 세트	데이터 테이블	차원을 줄일 데이터 집합

모듈 매개 변수

Name	Type	범위	옵션	Description	기본값
선택한 열	ColumnSelection		필수		PCA를 적용하도록 선택된 열
감소될 차원 수	정수	>=1	필수		감소된 데이터 집합에서 원하는 차원 수
조밀한 데이터 집합을 0 평균으로 정규화	부울		필수	true	조밀한 데이터 집합에 대해 입력 열의 평균이 정규화되는지 표시(스파스 데이터 매개 변수가 무시됨)

출력

Name	유형	설명
결과 데이터 집합	데이터 테이블	차원이 축소된 데이터 집합
PCA 변환	ITransform 인터페이스	데이터 집합에 적용되면 새 데이터 집합의 차원이 감소되는 변환

예외

예외	설명
오류 0001	데이터 세트의 지정된 열 중 하나 이상을 찾을 수 없으면 예외가 발생합니다.
오류 0003	하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다.
오류 0004	매개 변수가 특정 값 이하이면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.

참고 항목

샘플링 및 분할
기능 선택