기능 선택 모듈

이 문서에서는 기능 선택에 사용할 수 있는 Azure Machine Learning Studio (클래식)의 모듈을 설명 합니다.

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

기능 선택은 기계 학습의 중요 한 도구입니다. Machine Learning Studio (클래식)은 기능 선택을 수행 하는 여러 방법을 제공 합니다. 보유 하 고 있는 데이터 유형과 적용 되는 통계 기술의 요구 사항을 기반으로 기능 선택 방법을 선택 합니다.

이 문서에서는 다음 내용을 설명합니다.

Machine Learning Studio (클래식)의 각 기능 선택 모듈은 데이터 집합을 입력으로 사용 합니다. 그런 다음 모듈은 입력으로 제공 된 데이터 열에 잘 알려진 통계 메서드를 적용 합니다. 출력은 가장 적합 한 정보 값을 가진 열을 식별 하는 데 도움이 될 수 있는 메트릭 집합입니다.

기능 선택 정보

기계 학습 및 통계에서 기능 선택 은 분석 모델을 작성 하는 데 사용할 관련 된 유용한 기능의 하위 집합을 선택 하는 프로세스입니다. 기능 선택은 가장 중요 한 입력으로 데이터 필드의 범위를 좁히는 데 도움이 됩니다. 데이터 필드를 축소 하면 노이즈를 줄이고 학습 성능을 향상 시킬 수 있습니다.

기능 엔지니어링 프로세스를 통해 원시 데이터에서 기능을 만드는 경우가 많습니다. 예를 들어, 타임 스탬프 자체는 휴일 및 근무일과 같은 문제와 관련 된 정보를 일, 월 또는 범주로 변환할 때까지 모델링 하는 데 유용 하지 않을 수 있습니다.

Machine learning의 새 사용자는 사용할 수 있는 모든 데이터를 포함 하는 것이 좋습니다. 알고리즘은 더 많은 데이터를 사용 하 여 흥미로운 작업을 발견할 것으로 예측할 수 있습니다. 그러나 기능 선택은 일반적으로 모델을 개선 하 고 일반적인 문제를 방지할 수 있습니다.

  • 데이터에는 현재 선택한 기능 보다 더 이상 정보를 제공 하지 않는 중복 되거나 관련이 없는 기능이 포함 되어 있습니다.
  • 데이터에는 컨텍스트에서 유용한 정보를 제공 하지 않는 관련이 없는 기능이 포함 되어 있습니다. 관련이 없는 필드를 포함 하면 데이터를 학습 하는 데 필요한 시간도 늘어나지만 결과가 저하 될 수도 있습니다.
  • 일부 알고리즘에서는 학습 데이터에 중복 정보가 있는 경우 multicollinearity 라는 현상이 발생할 수 있습니다. Multicollinearity에서 상호 관련 된 두 개의 변수가 있으면 다른 변수에 대 한 계산이 훨씬 정확해 질 수 있습니다.

Machine Learning Studio (클래식)의 일부 기계 학습 알고리즘에서는 학습 프로세스의 일부로 기능 선택 또는 차원 감소도 사용 합니다. 이러한 학습자를 사용하는 경우 기능 선택 프로세스를 건너뛰고 알고리즘이 최적의 입력을 자동으로 결정하도록 할 수 있습니다.

실험에서 기능 선택 사용

기능 선택은 일반적으로 데이터를 탐색 하 고 새 모델을 개발할 때 수행 됩니다. 기능 선택을 사용 하는 경우 다음 팁을 염두에 두십시오.

  • 테스트할 때 사용할 열을 결정 하는 점수를 생성 하는 기능 선택을 실험에 추가 합니다.
  • 모델을 운영 때 실험에서 기능 선택을 제거 합니다.
  • 기능 선택을 주기적으로 실행 하 여 데이터 및 최상의 기능이 변경 되지 않도록 합니다.

기능 선택은 기존 데이터에서 새로운 기능을 만드는 데 중점을 둔 기능 엔지니어링과 다릅니다.

리소스

Machine Learning Studio의 기능 선택 방법 (클래식)

다음 기능 선택 모듈은 Machine Learning Studio (클래식)에서 제공 됩니다.

필터 기반 기능 선택

필터 기반 기능 선택 모듈을 사용 하는 경우 잘 알려진 기능 선택 방법 중에서 선택할 수 있습니다. 모듈은 기능 선택 통계와 필터링 된 데이터 집합을 모두 출력 합니다.

필터 선택 방법을 선택할 때는 사용 중인 입력 데이터의 종류를 어느 정도 고려합니다.

메서드 지원되는 기능 입력 지원되는 레이블
피어슨 상관 관계 숫자 및 논리 열만 단일 숫자 또는 논리 열
상호 정보 점수 모든 데이터 형식 모든 데이터 형식의 단일 열
켄들 상관 계수 숫자 및 논리 열만 단일 숫자 또는 논리 열

열에는 순위를 지정할 수 있는 값이 있어야 합니다.
스페어만 상관 계수 숫자 및 논리 열만 단일 숫자 또는 논리 열
카이 제곱 통계 모든 데이터 형식 모든 데이터 형식의 단일 열
피셔 점수 숫자 및 논리 열만 단일 숫자 또는 논리 열

문자열 열에는 0의 점수가 할당 됩니다.
개수 기반 기능 선택 모든 데이터 형식 레이블 열은 필요하지 않습니다.

피셔 선형 판별 분석

선형 판별 분석은 단일 범주 대상과 함께 숫자 변수를 분류 하는 데 사용할 수 있는 감독 학습 기술입니다. 이 방법은 그룹을 가장 효율적으로 구분하는 기능이나 매개 변수의 조합을 식별하므로 기능 선택 시 유용합니다.

피셔 선형 판별 분석 모듈을 사용 하 여 검토할 점수 집합을 생성 하거나 학습을 위해 모듈에 의해 생성 된 대체 데이터 집합을 사용할 수 있습니다.

순열 기능 중요도

순열 기능 중요도 모듈을 사용 하 여 데이터 집합에 대 한 모든 기능 집합의 효과를 시뮬레이션할 수 있습니다. 모듈은 기능 값의 임의 순서 섞기을 기반으로 모델에 대 한 성능 점수를 계산 합니다.

모듈에서 반환 하는 점수는 값이 변경 되는 경우 학습 된 모델의 정확도 변경 가능성을 나타냅니다. 점수를 사용 하 여 모델에 있는 개별 변수의 효과를 확인할 수 있습니다.

기능 선택이 포함 된 기계 학습 알고리즘

Machine Learning Studio (클래식)의 일부 기계 학습 알고리즘은 학습 중에 기능 선택을 최적화 합니다. 또한 기능 선택에 도움이 되는 매개 변수를 제공할 수 있습니다. 기능 선택에 대 한 자체 추론을 포함 하는 메서드를 사용 하는 경우에는 preselecting 기능 대신 해당 추론을 사용 하는 것이 좋습니다.

이러한 알고리즘 및 기능 선택 방법은 내부적으로 사용 됩니다.

  • 분류 및 회귀에 대 한 승격 된 의사 결정 트리 모델

    이러한 모듈에서 기능 요약은 내부적으로 생성 됩니다. 가중치가 0 인 기능은 트리 분할에서 사용 되지 않습니다. 잘 학습 된 모델을 시각화할 때 각 트리를 살펴볼 수 있습니다. 모든 트리에서 기능을 사용 하지 않는 경우이 기능을 제거 하는 후보가 될 수 있습니다. 선택 항목을 최적화 하기 위해 매개 변수 스윕도 사용 하는 것이 좋습니다.

  • 로지스틱 회귀 모델 및 선형 모델

    다중 클래스 및 binary 로지스틱 회귀에 대 한 모듈은 L1 및 L2 정규화를 지원 합니다. 정규화는 학습 중에 제약 조건을 추가 하 여 학습 된 모델의 측면을 수동으로 지정 하는 방법입니다. 정규화는 일반적으로 과잉 맞춤을 방지 하는 데 사용 됩니다. Machine Learning Studio (클래식)은 선형 분류 알고리즘에서 가중치 벡터의 L1 또는 L2 표준 정규화을 지원 합니다.

    • L1 정규화는 가능한 한 밀도가 낮은 모델을 목표로 하는 경우에 유용 합니다.
    • L2 정규화를 사용하면 가중치 벡터에 있는 단일 좌표의 크기가 너무 커지지 않게 합니다. 전체 가중치가 작은 모델을 목표로 하는 경우에 유용 합니다.
    • L1-정칙 로지스틱 회귀는 기능에 가중치 0을 할당 하는 것 보다 더 적극적입니다. 제거할 수 있는 기능을 식별 하는 데 유용 합니다.

기술 정보

숫자 및 논리 열을 지 원하는 모든 기능 선택 모듈 및 분석 방법은 날짜/시간 및 timespan 열도 지원 합니다. 이러한 열은 각 값이 틱 수와 같은 단순한 숫자 열로 처리 됩니다.

다음 모듈은 기능 선택 범주에 없지만 관련 태스크에 사용할 수 있습니다. 모듈을 통해 데이터의 차원을 줄이거나 상관 관계를 찾을 수 있습니다.

많은 열이 포함 된 데이터 집합이 있는 경우 주 구성 요소 분석 모듈을 사용 하 여 원본 데이터에 대 한 대부분의 정보를 포함 하는 열을 검색 합니다.

이 모듈은 크기 조정 및 축소아래의 데이터 변환 범주에 있습니다.

개수 기반 기능화는 대량 데이터 집합을 사용 하 여 유용한 기능을 결정 하는 데 사용할 수 있는 새로운 기술입니다. 이러한 모듈을 사용 하 여 데이터 집합을 분석 하 여 최상의 기능을 찾고, 새 데이터에 사용할 기능 집합을 저장 하거나, 기존 기능 집합을 업데이트할 수 있습니다.

이 모듈을 사용 하 여 입력 데이터 집합에서 가능한 각 변수 쌍에 대 한 피어슨 상관 계수 집합을 계산할 수 있습니다. 피어슨 R 테스트 라고도 하는 피어슨 상관 계수는 두 변수 간의 선형 관계를 측정 하는 통계 값입니다.

이 모듈은 통계 함수 범주에 있습니다.

모듈 목록

기능 선택 범주에는 다음 모듈이 포함 됩니다.

  • 필터 기반 기능 선택: 데이터 집합에서 예측 전력이 가장 높은 기능을 식별 합니다.
  • 피셔 선형 판별 분석: 데이터를 개별 클래스로 가장 잘 그룹화 할 수 있는 기능 변수의 선형 조합을 식별 합니다.
  • 순열 기능 중요도: 학습 된 모델 및 테스트 데이터 집합에 대 한 기능 변수의 순열 기능 중요도 점수를 계산 합니다.

참고 항목