다중 클래스 의사 결정 정글

의사 결정 정글 알고리즘을 사용하여 다중 클래스 분류 모델 만들기

범주: 모델/분류 Machine Learning/초기화

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

모듈 개요

이 문서에서는 Azure Machine Learning Studio (클래식)에서 다중 클래스 의사 결정 정글 모듈을 사용 하 여 의사 결정 정글 이라는 감독 된 학습 알고리즘을 기반으로 기계 학습 모델을 만드는 방법을 설명 합니다.

이 모듈을 사용 하 여 모델 및 해당 매개 변수를 정의한 다음 학습 모듈중 하나를 사용 하 여 모델 학습을 위해 레이블이 지정 된 학습 데이터 집합을 연결 합니다. 학습 된 모델을 사용 하 여 여러 값이 있는 대상을 예측할 수 있습니다.

의사 결정 정글에 대 한 자세한 정보

의사 결정 정글 의사 결정 포리스트에대 한 최근 확장입니다. 의사 결정 정글은 의사 결정 DAG(방향성 비순환 그래프) 앙상블로 구성됩니다.

의사 결정 정글을 사용하는 경우의 이점은 다음과 같습니다.

  • 의사 결정 DAG 사용 시에는 트리 분기를 병합할 수 있으므로 대개 메모리 공간이 더 작으며 의사 결정 트리에 비해 일반화 성능이 우수합니다. 단, 교육 시간은 다소 길어질 수 있습니다.

  • 의사 결정 정글은 비선형 의사 결정 경계를 나타낼 수 있는 비파라메트릭 모델입니다.

  • 통합 기능 선택 및 분류를 수행하며 불필요한 데이터가 많은 기능이 있는 경우 복원이 가능합니다.

이 기계 학습 알고리즘 뒤의 연구에 대 한 자세한 내용은 의사 결정 정글: 분류를 위한 간단한 모델 (다운로드 가능 PDF)을 참조 하세요.

다중 클래스 의사 결정 정글 모델을 구성 하는 방법

  1. 스튜디오 (클래식)의 실험에 다중 클래스 의사 결정 정글 모듈을 추가 합니다. 이 모듈은 Machine Learning, 모델 초기화분류 에서 찾을 수 있습니다.

  2. 모듈을 두 번 클릭 하 여 속성 창을 엽니다.

  3. 재샘플링 방법 모음 만들기 또는 replication 중 하나를 선택 하 여 여러 트리를 만드는 방법을 선택 합니다.

    • 모음 만들기: 부트스트랩 집계 라고도 하는 모음 만들기를 사용 하려면이 옵션을 선택 합니다.

      의사 결정 포리스트의 각 트리는 예측을 통해 가우스 분포를 출력 합니다. 집계는 개별 트리에서 반환 된 모든 Gaussians을 결합 하 여 지정 된 Gaussians 혼합의 시점에서 처음 두 분이 일치 하는 가우스을 찾는 것입니다.

    • 복제: 복제를 사용 하려면이 옵션을 선택 합니다. 이 메서드에서 각 트리는 정확히 동일한 입력 데이터에 대해 학습 됩니다. 각 트리 노드에 사용 되는 분할 조건자의 결정은 임의로 유지 되므로 다양 한 트리가 만들어집니다.

  4. 강사 모드 만들기 옵션을 설정 하 여 모델을 학습 하는 방법을 지정 합니다.

    • 단일 매개 변수: 모델을 구성 하는 방법을 알고 있는 경우이 옵션을 사용 합니다.

    • 매개 변수 범위: 최적의 매개 변수를 잘 모르는 상태에서 매개 변수 스윕을 사용 하려는 경우이 옵션을 사용 합니다.

  5. 의사 결정 Dag 수: 앙상블에서 만들 수 있는 최대 그래프 수를 표시 합니다.

  6. 의사 결정 dag의 최대 깊이: 각 그래프의 최대 깊이를 지정 합니다.

  7. 의사 결정 dag의 최대 너비: 각 그래프의 최대 너비를 지정 합니다.

  8. 의사 결정 DAG 수 별 최적화 단계 수: 각 DAG를 빌드할 때 수행할 데이터의 반복 수를 표시 합니다.

  9. 범주 기능에 대해 알 수 없는 값 허용: 테스트 또는 유효성 검사 데이터에서 알 수 없는 값에 대 한 그룹을 만들려면이 옵션을 선택 합니다. 알려진 값에 대 한 모델의 정확도가 떨어질 수 있지만 새 (알 수 없는) 값에 대해 더 나은 예측을 제공할 수 있습니다.

    이 옵션의 선택을 취소 하면 모델은 학습 데이터에 있는 값만 수락할 수 있습니다.

  10. 레이블이 지정 된 데이터 집합 및 학습 모듈 중 하나를 연결 합니다.

    • 담당자 모드 만들기단일 매개 변수로 설정한 경우 모델 학습 모듈을 사용 합니다.

    • 만든이 모드매개 변수 범위 로 설정 하는 경우 모델 hyperparameters 변수 조정 모듈을 사용 합니다. 이 옵션을 사용 하는 경우 알고리즘은 사용자가 제공한 설정의 여러 조합을 반복 하 고 최상의 모델을 생성 하는 값의 조합을 결정 합니다.

    참고

    모델 학습에 매개 변수 범위를 전달 하는 경우 매개 변수 범위 목록의 첫 번째 값만 사용 합니다.

    단일 매개 변수 값 집합을 모델 하이퍼 매개 변수 조정 모듈에 전달 하는 경우 각 매개 변수에 대 한 설정 범위가 필요한 경우 값을 무시 하 고 학습자에 대 한 기본값을 사용 합니다.

    매개 변수 범위 옵션을 선택 하 고 매개 변수에 대해 단일 값을 입력 하는 경우 다른 매개 변수가 값 범위에서 변경 되더라도 지정한 단일 값은 스윕 전체에서 사용 됩니다.

  11. 실험을 실행합니다.

결과

학습 완료 후:

  • 모델을 점수 매기기에 사용 하려면 점수 모델에 연결 하 여 새 입력 예제에 대 한 값을 예측 합니다.

예제

기계 학습에서 의사 결정 포리스트를 사용 하는 방법에 대 한 예는 Azure AI Gallery를 참조 하세요.

기술 정보

이 섹션에는 구현 세부 정보, 팁 및 질문과 대답 (faq)이 포함 되어 있습니다.

복제 옵션을 사용 하는 학습 프로세스에 대 한 자세한 내용은 다음을 참조 하세요.

사용 팁

제한 된 데이터를가지고 있거나 모델을 학습 하는 데 걸린 시간을 최소화 하려면 다음 권장 사항을 시도해 보세요.

제한 된 학습 집합

학습 집합의 인스턴스 수가 제한되는 경우 다음을 수행합니다.

  • 많은 수의 의사 결정 DAG(예: 20개 이상)를 사용하여 의사 결정 정글을 만듭니다.
  • 다시 만들기에 모음 만들기 옵션을 사용합니다.
  • DAG 계층당 많은 수의 최적화 단계(예: 10,000개 이상)를 지정합니다.

제한 된 학습 시간

학습 집합에 인스턴스 수가 많으며 학습 시간이 제한되는 경우 다음을 수행합니다.

  • 더 적은 수의 의사 결정 Dag (예: 5-10)를 사용 하는 의사 결정 정글를 만듭니다.
  • 다시 만들기에 복제 옵션을 사용합니다.
  • DAG 계층당 더 적은 수의 최적화 단계(예: 2,000개 미만)를 지정합니다.

모듈 매개 변수

이름 범위 Type 기본값 Description
다시 만들기 방법 모두 ResamplingMethod 모음 만들기 다시 만들기 방법을 선택합니다.
의사 결정 DAG의 수 >= 1 Integer 8 앙상블에서 만들 수 있는 의사 결정 그래프의 수를 지정합니다.
의사 결정 DAG의 최대 수준 >= 1 Integer 32 앙상블에서 만들려는 의사 결정 그래프의 최대 수준을 지정합니다.
의사 결정 DAG의 최대 너비 >= 8 Integer 128 앙상블에서 만들려는 의사 결정 그래프의 최대 너비를 지정합니다.
의사 결정 DAG 계층당 최적화 단계 수 >= 1000 Integer 2048 의사 결정 그래프에서 각 수준의 최적화에 사용할 단계 수를 지정합니다.
범주 기능에서 알 수 없는 값 허용 모두 부울 True 기존 범주 기능의 알 수 없는 값을 새 추가 기능에 매핑할 수 있는지 여부를 나타냅니다.

출력

이름 Type Description
학습되지 않은 모델 ILearner 인터페이스 학습되지 않은 다중 클래스 분류 모델입니다.

참고 항목

2 클래스 의사 결정 정글
유형을
전체 모듈 목록