서수 회귀

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

서수 회귀 모델 만들기

범주: Machine Learning/모델 초기화/회귀

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)에서 서수 회귀 모듈을 사용하여 순위가 지정된 값을 예측하는 데 사용할 수 있는 회귀 모델을 만드는 방법을 설명합니다.

순위가 지정된 값의 몇 가지 예는 다음과 같습니다.

  • 1~5개 규모로 사용자의 선호 브랜드를 캡처하는 설문 조사 응답
  • 레이스의 피니셔 순서
  • 순위가 지정된 검색 결과의 URL

서수 회귀에 대한 자세한 정보

서수 회귀는 레이블 또는 대상 열에 숫자가 포함되어 있지만 숫자는 숫자 측정값이 아닌 순위 또는 순서를 나타내는 경우에 사용됩니다.

서수를 예측하려면 순위 순서를 나타내기 위해 할당된 숫자가 내장 눈금이 없으므로 연속 눈금에서 숫자 값을 예측하는 것과는 다른 알고리즘이 필요합니다.

예를 들어 학생의 시험 점수를 예측하려면 학생의 시험 점수가 연속적인 규모에 따라 다르며 측정될 수 있으므로 표준 회귀 모델을 사용합니다. 그러나 클래스 순위를 예측하려면 서수 회귀 모델을 사용해야 합니다.

이 알고리즘의 연구에 대한 자세한 내용은 이 문서(다운로드 가능한 PDF)를 참조하세요. https://papers.nips.cc/paper/3125-ordinal-regression-by-extended-binary-classification.pdf

서수 회귀를 구성하는 방법

이 모듈은 일련의 관련 분류 문제로 순위 문제를 해결합니다. 따라서 알고리즘은 각 순위에 대해 이진 모델을 사용하여 일련의 확장 학습 예제를 만들고 해당 확장 집합에 대해 학습합니다. 이 작업은 계산 비용이 많이 들 수 있습니다.

  1. Studio(클래식)에서 실험에 서수 회귀 모델 모듈을 추가합니다. 회 범주의 Machine Learning - 초기화에서 이 모듈을 찾을 수 있습니다.

  2. 이진 분류를 지원하는 모듈을 추가하고 모델을 구성합니다. 분류 범주에는 몇 가지 2클래스 모듈이 있습니다.

  3. 이진 분류 모델을 서수 회귀 모델 모듈에 대한 입력으로 커넥트.

  4. 서수 회귀 모델에는 추가 매개 변수가 필요하지 않습니다. 알고리즘은 순위 문제를 해결하기 위한 가장 효과적인 매개 변수로 미리 구성되었습니다.

  5. 학습 데이터 세트 및 모델 학습 모듈을 커넥트.

  6. 모델 학습 모듈에서 순위 값이 포함된 열을 선택합니다.

    순위 값은 숫자 값이어야 하지만 시퀀스를 나타내는 한 정수 또는 양수일 필요는 없습니다.

    처리를 위해 순위는 1에서 K까지의 순서로 간주되며, 여기서 1은 가장 낮은 순위이고 K는 가장 높은 순위입니다. 그러나 모델 학습 모듈은 배율의 의미 체계가 반전되더라도 작동할 수 있습니다.

    예를 들어 원래 설문 조사에서 1이 가장 높은 점수이고 5가 가장 낮은 경우 모델 처리에 영향을 주지 않습니다.

  7. 실험을 실행합니다.

결과

학습 완료 후 다음이 수행됩니다.

  • 예측을 수행하려면 학습된 모델을 새 데이터와 함께 모델 점수 매기 기 모듈에 연결합니다.

  • 레이블이 지정된 데이터 집합에 대해 교차 유효성 검사를 수행하려면 학습되지 않은 모델을교차 유효성 검사 모델에 연결합니다.

기계 학습에서 서수 회귀를 사용하는 방법에 대한 예제는 Azure AI 갤러리를 참조하세요.

  • 예측 유지 관리 - C단계: 이 샘플에서 서수 회귀 는 값이 오류 분류의 심각도를 반영한다는 가정하에 분류 모델별로 값 출력의 순위를 지정하는 데 사용됩니다.

기술 정보

이 학습자에서 사용되는 서수 회귀 알고리즘은 확장된 이진 분류에 의한 서수 회귀(Ling Li 및 Hsuan-Tien Lin 저, NIPS 2006)라는 문서에 설명된 대로 확장된 이진 분류에 의해 구현됩니다.

입력 데이터에 대한 제한 사항

숫자 열을 서수 회귀 모델의 대상으로 사용할 수 있지만 실제로는 일종의 순서 또는 순위를 나타내는 데이터만 사용해야 합니다.

순위 사이의 간격은 알 수 없는 것으로 간주되며 간격의 크기는 모델에 중요하지 않습니다. 그러나 모델은 순위 시퀀스가 숫자의 자연 순서를 따른다고 가정합니다.

모델 자체는 특정 배율에 어떤 의미도 할당하지 않습니다. 즉, 1이 좋은 순위이고 10이 최악인 하나의 모델을 만들 수 있으며, 다른 모델에서는 10이 원하는 순위이고 1은 최악이라고 가정합니다.

순위 알고리즘

학습 집합(X,Y)은 입력 벡터 x 및 레이블 y로 구성됩니다. 레이블은 순서대로 1에서 k 까지의 순위를 나타냅니다. 1,2, ... , K. 순위는 1이 가장 낮거나 최악의 순위이고 K가 최고 또는 최고 순위가 되도록 순서가 지정된 것으로 간주됩니다.

알고리즘의 핵심은 확장 예제를 사용하도록 지정된 입력 기능 X 및 레이블 Y를 수정한 다음 이진 분류자를 사용하여 서수 회귀 문제를 해결하는 데 있습니다. 이진 분류자는 "순위가 r보다 크나요?"라는 질문에 대한 예/아니요 대답을 제공하도록 학습됩니다.

예를 들어 학습 집합의 각 사례에 대해 K-1 확장 예제가 있으며 관찰된 최대 순위는 K입니다. 확장된 기능은 K-1 x K-1 ID 매트릭스의 ith 행을 all i에 대한 입력 기능에 추가하여 구성됩니다. 레이블의 순위가 r이면 첫 번째 r-1 행에 대해 +1, 나머지 행에는 -1이 지정됩니다.

샘플 계산

작동 방식을 설명하기 위해 x1 을 순위가 3인 학습 기능으로 지정합니다. 여기서 관찰된 최대 순위는 5입니다. 이 기능에 해당하는 확장 예제는 다음과 같습니다.

사례 테스트 결과 레이블
X11000 순위가 1보다 크나요? 예; 따라서 +1
X10100 순위가 2보다 크나요? 예; 따라서 +1
X10010 순위가 3보다 크나요? 아니요; 따라서 추가 기능이 없습니다.
X10001 순위가 4보다 크나요? 아니요; 따라서 추가 기능이 없습니다.

예상 입력

Name 유형 설명
학습되지 않은 이진 분류 모델 ILearner 인터페이스 학습되지 않은 이진 분류 모델입니다.

출력

Name 유형 설명
학습되지 않은 모델 ILearner 인터페이스 학습되지 않은 서수 회귀 모델입니다.

참고 항목

회귀