자습서 2: 신용 위험 모델 학습 - Machine Learning Studio(클래식)

적용 대상:이는 이 문서가 Machine Learning Studio(클래식)에 적용됨을 의미하는 확인 표시입니다.Machine Learning Studio(클래식) 이는 이 문서가 Azure Machine Learning에 적용되지 않음을 의미하는 X입니다.Azure Machine Learning

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

이 자습서에서는 예측 분석 솔루션을 개발하는 프로세스를 자세히 살펴봅니다. Machine Learning Studio(클래식)에서 간단한 모델을 개발합니다. 그런 다음, 모델을 Machine Learning 웹 서비스로 배포합니다. 이 배포된 모델은 새 데이터를 사용하여 예측을 수행할 수 있습니다. 이 자습서는 3부로 구성된 자습서 시리즈 중 제2부입니다.

신용대출 지원 시 애플리케이션에서 제공한 정보를 기반으로 개인의 신용 위험을 예측해야 한다고 가정합니다.

신용 위험 평가는 복잡한 문제이지만, 이 자습서에서는 약간 간소화하여 살펴보겠습니다. 이 신용 위험 평가는 Machine Learning Studio(클래식)를 사용하는 예측 분석 솔루션을 만드는 방법의 예로 사용합니다. 이 솔루션에는 Machine Learning Studio(클래식) 및 Machine Learning 웹 서비스가 사용됩니다.

이 3부로 구성된 자습서에서는 공개적으로 사용 가능한 신용 위험 데이터부터 시작합니다. 그런 다음, 예측 모델을 개발하고 학습합니다. 마지막으로 모델을 웹 서비스로 배포합니다.

이 자습서의 제1부에서는 Machine Learning Studio(클래식) 작업 영역을 만들고, 데이터를 업로드하고, 실험을 만들었습니다.

1부 자습서에서 수행하는 작업은 다음과 같습니다.

  • 여러 모델 학습시키기
  • 모델 점수 매기기 및 평가

이 자습서의 제3부에서는 모델을 웹 서비스로 배포할 것입니다.

필수 구성 요소

이 자습서의 제1부를 완료합니다.

여러 모델 학습시키기

Machine Learning Studio(클래식)를 사용하여 기계 학습 모델을 만들 때의 이점 중 하나는 단일 실험에서 한 번에 두 개 이상의 모델 유형을 시도하고 결과를 비교할 수 있다는 점입니다. 이 유형의 실험을 사용하면 문제에 대한 최상의 솔루션을 찾을 수 있습니다.

이 자습서에서 개발하고 있는 실험에서는 두 가지 유형의 모델을 만들고 채점 결과를 비교하여 최종 실험에서 사용할 알고리즘을 결정할 것입니다.

다양한 모델 중에 선택할 수 있습니다. 사용할 수 있는 모델을 보려면 모듈 팔레트에서 Machine Learning 노드를 확장하고 모델 초기화 및 그 아래 노드를 확장합니다. 이 실험에서는 2클래스 SVM(Support Vector Machine)2클래스 향상된 의사 결정 트리 모듈을 선택할 것입니다.

이 실험에서는 2클래스 향상된 의사 결정 트리 모듈 및 2클래스 지원 벡터 머신 모듈을 추가할 것입니다.

2클래스 향상된 의사 결정 트리

먼저 향상된 의사 결정 트리 모델을 설정합니다.

  1. 모듈 팔레트에서 2클래스 향상된 의사 결정 트리 모듈을 찾고 캔버스로 끌어서 놓습니다.

  2. 모델 학습 모듈을 찾고 캔버스로 끌고 나서 2클래스 향상된 의사 결정 트리 모듈의 출력을 모델 학습 모듈의 왼쪽 입력 포트에 연결합니다.

    2클래스 향상된 의사 결정 트리 모듈은 일반 모델을 초기화하고 모델 학습에서는 학습 데이터를 사용하여 모델을 학습합니다.

  3. 왼쪽 R 스크립트 실행 모듈의 왼쪽 출력을 모델 학습 모듈의 오른쪽 입력 포트에 연결합니다(이 자습서에서는 학습할 데이터 분할 모듈의 왼쪽에서 오는 데이터를 사용함).

    이 실험에서는 R 스크립트 실행 모듈의 입력 중 두 개와 출력 중 하나가 필요 없으므로 연결되지 않은 상태로 두면 됩니다.

실험의 이 부분은 이제 다음과 같이 표시됩니다.

모델 학습

이제 모델을 통해 신용 위험 값을 예측할 것임을 모델 학습 모듈에 전달해야 합니다.

  1. 모델 학습 모듈을 선택합니다. 속성 창에서 열 선택기 시작을 클릭합니다.

  2. 단일 열 선택 대화 상자에서 사용 가능한 열 아래의 검색 필드에 "신용 위험"을 입력하고 오른쪽 화살표 단추( > )를 클릭하여 "신용 위험"을 선택한 열로 이동합니다.

    모델 학습 모듈에 대한 신용 위험 열 선택

  3. 확인 확인 표시를 클릭합니다.

2클래스 Support Vector Machine

다음으로 SVM 모델을 설정합니다.

먼저 SVM에 대한 간단한 설명입니다. 향상된 의사 결정 트리는 모든 기능 유형에서 제대로 작동합니다. 그러나 SVM 모듈은 선형 분류자를 생성하므로 여기서 생성하는 모델에는 모든 숫자 기능의 크기가 같을 때 최적의 테스트 오류가 포함됩니다. 모든 숫자 기능을 같은 크기로 변환하려면 "Tanh" 변환을 사용합니다(데이터 정규화 모듈과 함께). 그러면 숫자가 [0,1] 범위로 변환됩니다. SVM 모듈은 문자열 기능을 범주 기능으로 변환한 후 이진 0/1 기능으로 변환하므로 문자열 기능을 수동으로 변환할 필요가 없습니다. 그리고 신용 위험 열(열 21)을 변환하지 않을 것입니다. 이 열은 숫자 열이지만 모델을 학습하여 예측할 값이므로 단독으로 유지해야 합니다.

SVM 모델을 설정하려면 다음을 수행합니다.

  1. 모듈 팔레트에서 2클래스 Support Vector Machine 모듈을 찾고 캔버스로 끌어서 놓습니다.

  2. 모델 학습 모듈을 마우스 오른쪽 단추로 클릭하고 복사를 선택하고 나서 캔버스를 마우스 오른쪽 단추로 클릭하고 붙여넣기를 선택합니다. 모델 학습 모듈의 복사본에는 원래 모듈과 같은 열이 선택되어 있습니다.

  3. 2클래스 Support Vector Machine 모듈의 출력을 두 번째 모델 학습 모듈의 왼쪽 입력 포트에 연결합니다.

  4. 데이터 정규화 모듈을 찾고 캔버스로 끌어옵니다.

  5. 이 모듈의 입력에 왼쪽 R 스크립트 실행 모듈의 왼쪽 출력을 연결합니다. 모듈의 출력 포트는 두 개 이상의 다른 모듈에 연결할 수 있습니다.

  6. 데이터 정규화 모듈의 왼쪽 출력 포트를 두 번째 모델 학습 모듈의 오른쪽 입력 포트에 연결합니다.

실험의 이 부분은 이제 다음과 같이 표시됩니다.

두 번째 모델 학습

이제 데이터 정규화 모듈을 구성합니다.

  1. 데이터 정규화 모듈을 클릭하여 선택합니다. 속성 창에서 변환 메서드 매개 변수에 대해 Tanh를 선택합니다.

  2. 열 선택기 시작을 클릭하고 시작 문자에 대해 "열 없음"을 선택한 후, 첫 번째 드롭다운에서 포함을, 두 번째 드롭다운에서 열 형식을, 세 번째 드롭다운에서 숫자를 선택합니다. 이렇게 하면 모든 숫자 열(및 숫자만)이 변환되도록 지정됩니다.

  3. 이 행 오른쪽에 있는 더하기 기호(+)를 클릭하면 새 드롭다운 행이 만들어집니다. 첫 번째 드롭다운에서 제외를 선택하고, 두 번째 드롭다운에서 열 이름을 선택하고, 텍스트 필드에 "신용 위험"을 입력합니다. 이렇게 하면 신용 위험 열이 무시됩니다. 이 열은 숫자이므로 제외하지 않을 경우 변환되기 때문에 이 작업이 필요합니다.

  4. 확인 확인 표시를 클릭합니다.

    데이터 정규화 모듈의 열 선택

이제 데이터 정규화 모듈은 신용 위험 열을 제외한 모든 숫자 열에서 Tanh 변환을 수행하도록 설정됩니다.

모델 점수 매기기 및 평가

데이터 분할 모듈을 통해 구분된 테스트 데이터를 사용하여 학습된 모듈을 채점합니다. 그 후 두 모델의 결과를 비교하여 더 나은 결과를 생성한 모듈을 확인할 수 있습니다.

모델 점수 매기기 모듈 추가

  1. 모델 점수 매기기 모듈을 찾아 캔버스로 끌어서 놓습니다.

  2. 2클래스 향상된 의사 결정 트리 모듈에 연결되어 있는 모델 학습l 모듈을 모델 점수 매기기 모듈의 왼쪽 입력 포트에 연결합니다.

  3. 모델 점수 매기기 모듈의 오른쪽 입력 포트에 오른쪽 R 스크립트 실행 모듈(테스트 데이터)을 연결합니다.

    모델 점수 매기기 모듈이 연결됨

    모델 점수 매기기 모듈에서 테스트 데이터의 신용 정보를 사용하고, 모듈을 통해 실행하고, 모델이 생성하는 예측을 테스트 데이터의 실제 신용 위험 열과 비교할 수 있습니다.

  4. 모델 점수 매기기 모듈을 복사하고 붙여넣어 두 번째 복사본을 만듭니다.

  5. SVM 모델의 출력(즉, 2클래스 Support Vector Machine 모듈에 연결된 모델 학습 모듈의 출력 포트)을 두 번째 모델 점수 매기기 모듈의 입력 부분에 연결합니다.

  6. SVM 모델의 경우 학습 데이터에서 했던 것과 똑같이 테스트 데이터를 변환해야 합니다. 따라서 데이터 정규화 모듈을 복사하고 붙여넣고 두 번째 복사본을 만들고 오른쪽 R 스크립트 실행 모듈에 연결합니다.

  7. 두 번째 모델 점수 매기기 모듈의 오른쪽 입력 포트에 두 번째 데이터 정규화 모듈의 왼쪽 출력을 연결합니다.

    두 모델 점수 매기기 모듈이 연결됨

모델 평가 모듈 추가

두 채점 결과를 평가하고 비교하기 위해 모델 평가 모듈을 사용합니다.

  1. 모델 평가 모듈을 찾아 캔버스로 끌어서 놓습니다.

  2. 모델 평가 모듈의 왼쪽 입력 포트에 향상된 의사 결정 트리 모델과 연결된 모델 점수 매기기 모듈의 출력 포트를 연결합니다.

  3. 다른 모델 점수 매기기 모듈을 오른쪽 입력 포트에 연결합니다.

    모델 평가 모듈이 연결됨

실험 실행 및 결과 확인

실험을 실행하려면 캔버스 아래에서 실행 단추를 클릭합니다. 몇 분이 걸릴 수 있습니다. 각 모듈에 실행 중임을 나타내는 회전 표시기가 표시되고 나서 모듈이 완료되면 녹색 확인 표시가 표시됩니다. 모든 모듈에 확인 표시가 있으면 실험 실행이 완료된 것입니다.

이제 실험이 다음과 같이 표시됩니다.

두 모델 모두 평가

결과를 확인하려면 모델 평가 모듈의 출력 포트를 클릭하고 시각화를 선택합니다.

모델 평가 모듈에서는 점수를 매긴 모델 두 개의 결과를 비교할 수 있는 곡선 및 메트릭 쌍을 생성합니다. 결과를 ROC(Receiver Operator Characteristic) 곡선, 정밀도/리콜 곡선 또는 리프트 곡선으로 볼 수 있습니다. 표시된 추가 데이터에는 혼동 행렬, AUC(Area Under the Curve)에 대한 누적 값 및 기타 메트릭이 포함됩니다. 슬라이더를 왼쪽이나 오른쪽으로 이동하여 임계값을 변경하고 메트릭 집합에 어떤 영향을 미치는 확인할 수 있습니다.

그래프 오른쪽에 있는 점수를 매긴 데이터 세트 또는 비교할 점수를 매긴 데이터 세트를 클릭하여 관련 곡선을 강조 표시하고 아래에 관련 메트릭을 표시합니다. 곡선 범례에서 "점수를 매긴 데이터 세트"는 모델 평가 모듈의 왼쪽 입력 포트(이 경우 향상된 의사 결정 트리 모델)에 해당합니다. "비교할 점수를 매긴 데이터 세트"는 오른쪽 입력 포트(이 경우 SVM 모델)에 해당합니다. 이러한 레이블 중 하나를 클릭하면 다음 그래픽에 표시된 것처럼 해당 모델의 곡선이 강조 표시되고 해당 메트릭이 표시됩니다.

모델에 대한 ROC 곡선

이러한 값을 검토하면 찾고 있는 결과에 가장 근접한 모델을 결정할 수 있습니다. 돌아가서 다른 모델에서 매개 변수 값을 변경하여 실험을 반복할 수 있습니다.

이러한 결과를 해석하고 모델 성능을 조정하는 과학 및 기술은 이 연습의 범위를 벗어납니다. 추가 도움말을 보려면 다음 문서를 확인할 수 있습니다.

실험을 실행할 때마다 해당 반복에 대한 레코드가 실행 기록에서 유지됩니다. 이러한 반복을 확인하고 캔버스 아래에서 실행 기록 보기를 클릭하여 원하는 반복으로 돌아갈 수 있습니다. 속성 창에서 이전 실행을 클릭하여 열었던 반복의 바로 이전 반복으로 돌아갈 수도 있습니다.

캔버스 아래에서 다른 이름으로 저장을 클릭하여 실험을 반복하도록 복사본을 만들 수 있습니다. 실험의 요약설명 속성을 사용하면 실험 반복에서 시도한 항목을 기록할 수 있습니다.

자세한 내용은 Machine Learning Studio(클래식)에서 반복 실험 관리를 참조하세요.

리소스 정리

이 문서를 사용하여 만든 리소스가 더 이상 필요 없는 경우 요금이 발생하지 않도록 해당 리소스를 삭제하세요. 자세한 방법은 제품 내 사용자 데이터 내보내기 및 삭제 문서를 참조하세요.

다음 단계

이 자습서에서는 다음과 같은 단계를 완료했습니다.

  • 실험 만들기
  • 여러 모델 학습시키기
  • 모델 점수 매기기 및 평가

이제 이 데이터에 사용할 모델 배포 준비가 완료되었습니다.