피셔 선형 판별 분석

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

데이터를 별도 클래스로 최상으로 그룹화할 수 있는 기능 변수의 선형 조합 식별

범주: 기능 선택 모듈

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)의 Fisher Linear Discriminant Analysis 모듈을 사용하여 두 개 이상의 클래스를 가장 잘 구분하는 기능 조합을 캡처하는 새로운 기능 데이터 세트를 만드는 방법을 설명합니다.

이 방법은 클래스를 구별하는 정보는 유지하면서 기능 집합을 더 작은 기능 공간에 프로젝션하므로 차원을 줄이는 데 사용되는 경우가 많습니다. 그러면 지정된 분류 작업의 계산 비용을 줄일 수 있을 뿐 아니라 과잉 맞춤도 방지할 수 있습니다.

점수를 생성하려면 레이블 열과 숫자 기능 열 집합을 입력으로 제공합니다. 알고리즘은 각 그룹 내의 거리를 최소화하면서 각 데이터 그룹을 선형으로 구분하는 입력 열의 최적 조합을 결정합니다. 모듈은 다른 데이터 세트에 저장하고 적용할 수 있는 변환과 함께 변환된 압축 기능이 포함된 데이터 세트를 반환합니다.

선형 비범죄 분석에 대한 자세한 정보

선형 비범죄 분석은 변수의 수단을 비교하여 작동한다는 측면에서 ANOVA(분산 분석)와 유사합니다. ANOVA와 마찬가지로 다음과 같은 가정에 의존합니다.

  • 예측자가 독립적입니다.
  • 각 샘플의 조건부 확률 밀도 함수는 일반적으로 분산됩니다.
  • 그룹 간의 차이가 비슷합니다.

선형 비범죄 분석은 때때로 LDA로 축약되지만 , 이는 잠재 Dirichlet 할당과 쉽게 혼동됩니다. 기술은 완전히 다르므로 이 설명서에서는 가능한 한 전체 이름을 사용합니다.

선형 비범죄 분석을 구성하는 방법

  1. 입력 데이터 세트를 추가하고 입력 데이터가 다음 요구 사항을 충족하는지 확인합니다.

    • 데이터는 가능한 한 완전해야 합니다. 누락된 값이 있는 행은 무시됩니다.
    • 값은 정상적인 분포를 가질 것으로 예상됩니다. Fisher Linear Discriminant Analysis를 사용하기 전에 이상값에 대한 데이터를 검토하거나 분포를 테스트합니다.
    • 샘플보다 더 적은 예측 변수가 있어야 합니다.
    • 숫자가 아닌 열을 제거합니다. 알고리즘은 입력에 포함된 유효한 모든 숫자 열을 검사하고 잘못된 열이 포함된 경우 오류를 반환합니다. 숫자 열을 제외해야 하는 경우 Fisher Linear Discriminant Analysis 앞에 데이터 세트 모듈에서 열 선택 모듈을 추가하여 분석하려는 열만 포함하는 뷰를 만듭니다. 나중에 열 추가를 사용하여 열에 다시 연결할 수 있습니다. 행의 원래 순서는 유지됩니다.
  2. 입력 데이터를 Fisher Linear Discriminant Analysis 모듈에 커넥트.

  3. 클래스 레이블 열의 경우 열 선택기 시작을 클릭하고 하나의 레이블 열을 선택합니다.

  4. 기능 추출기 수에 대해 원하는 열 수를 입력합니다.

    예를 들어 데이터 세트에 8개의 숫자 기능 열이 포함된 경우 입력 3 하여 세 개의 열만 있는 축소된 새로운 기능 공간으로 축소할 수 있습니다.

    출력 열이 입력 열과 정확히 일치하지 않고 입력 열에 있는 값의 압축 변환을 나타낸다는 것을 이해하는 것이 중요합니다.

    기능 추출기 수 값으로 0을 사용하고 n 열을 입력으로 사용하는 경우 n개 기능 추출기가 반환되고 n차원 기능 공간을 나타내는 새 값이 포함됩니다.

  5. 실험을 실행합니다.

결과

알고리즘은 각 그룹 내의 거리를 최소화하면서 각 데이터 그룹을 선형으로 구분하는 입력 열의 값 조합을 결정하고 두 개의 출력을 만듭니다.

  • 변환된 기능. col1, col2, col3 등의 지정된 수의 기능 추출기 열을 포함하는 데이터 세트입니다. 출력에는 클래스 또는 레이블 변수도 포함됩니다.

    이 압축 값 집합을 사용하여 모델을 학습할 수 있습니다.

  • Fisher 선형 비범죄 분석 변환입니다. 동일한 스키마가 있는 데이터 세트에 저장한 다음 적용할 수 있는 변환입니다. 이는 동일한 형식의 많은 데이터 세트를 분석하고 각각에 동일한 기능 감소를 적용하려는 경우에 유용합니다. 적용하는 데이터 세트에는 동일한 스키마가 있어야 합니다.

기계 학습에서 기능 선택 예제는 Azure AI 갤러리를 참조하세요.

기술 정보

이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 답변이 포함되어 있습니다.

사용 팁

  • 이 방법은 연속 변수에만 사용할 수 있으며 범주 또는 서수 변수에는 사용할 수 없습니다.

  • 누락 값이 있는 행은 변환 행렬을 계산할 때 무시됩니다.

  • 실험에서 변환을 저장하면 원래 실험에서 계산된 변환이 각각의 새 데이터 집합에 다시 적용되고 다시 계산되지 않습니다. 따라서 각 데이터 집합에 대해 새 기능 집합을 계산하려면 각 데이터 세트에 대해 Fisher Linear Discriminant Analysis 의 새 인스턴스를 사용합니다.

구현 세부 정보

기능의 데이터 세트는 고유 벡터를 사용하여 변환됩니다. 입력 데이터 세트의 고유 벡터는 제공된 기능 열을 기반으로 계산되며, 이를 차별 행렬이라고도 합니다.

모듈의 변환 출력에는 동일한 스키마가 있는 다른 데이터 세트를 변환하기 위해 적용할 수 있는 이러한 고유 벡터가 포함되어 있습니다.

고유값을 계산하는 방법에 대한 자세한 내용은 이 문서(PDF): 분류를 위한 Eigenvector 기반 기능 추출을 참조하세요. Tymbal, Puuronen 등.

예상 입력

Name 유형 설명
데이터 세트 데이터 테이블 입력 데이터 세트

모듈 매개 변수

Name Type 범위 Optional 기본값 설명
클래스 레이블 열 ColumnSelection 필수 없음 범주 클래스 레이블을 포함하는 열을 선택합니다.
기능 추출기 수 정수 >=0 필수 0 사용할 기능 추출기의 수입니다. 0이면 모든 기능 추출기가 사용됩니다.

출력

Name 유형 설명
변환된 기능 데이터 테이블 고유 연산자 공간으로 변환된 피셔 선형 비범죄 분석 기능
피셔 선형 판별 분석 변환 ITransform 인터페이스 피셔 선형 판별 분석의 변환입니다.

예외

예외 설명
오류 0001 데이터 세트의 지정된 열 중 하나 이상을 찾을 수 없으면 예외가 발생합니다.
오류 0003 하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다.
오류 0017 지정한 열 중 하나 이상의 형식이 현재 모듈에서 지원되지 않으면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.

참고 항목

기능 선택
필터 기반 기능 선택
주 구성 요소 분석