Microsoft 로지스틱 회귀 알고리즘

아티클
12/15/2008

Microsoft 로지스틱 회귀 알고리즘은 Microsoft 신경망 알고리즘을 변형한 것으로 HIDDEN_NODE_RATIO 매개 변수를 0으로 설정한 것입니다. 이렇게 설정하면 숨겨진 계층이 없으므로 로지스틱 회귀와 동등한 신경망 모델이 생성됩니다.

예측 가능한 열에 포함된 상태가 두 개뿐이지만 예측 가능한 열에 특정 상태가 포함될 확률과 입력 열을 연결하여 회귀 분석을 수행한다고 가정합니다. 다음 다이어그램에서는 예측 가능한 열의 상태에 1과 0을 할당하고 열에 특정 상태가 포함될 확률을 계산한 다음 입력 변수에 대해 선형 회귀를 수행할 경우 나타나는 결과를 보여 줍니다.

선형 회귀를 사용하여 잘못된 방식으로 모델링한 데이터

x축은 입력 열의 값을 포함합니다. y축은 예측 가능한 열이 특정 상태일 확률을 포함합니다. 이 경우 선형 회귀가 열의 최대값과 최소값인 0과 1 사이에 있도록 열을 제한하지 않는다는 문제점이 있습니다. 이 문제를 해결하는 방법은 로지스틱 회귀를 수행하는 것입니다. 선형 회귀 분석은 직선을 만드는 대신 최대 및 최소 제약 조건이 포함된 "S"자 곡선을 만듭니다. 예를 들어 다음 다이어그램에서는 이전 예에 사용된 것과 동일한 데이터에 대해 로지스틱 회귀를 수행할 경우 나타나는 결과를 보여 줍니다.

로지스틱 회귀를 사용하여 모델링한 데이터

곡선이 1 위로 올라가거나 0 밑으로 내려가지 않는 것에 주의하십시오. 로지스틱 회귀를 사용하여 예측 가능한 열의 상태를 결정할 때 어떤 입력 열이 중요한지 설명할 수 있습니다.

알고리즘 사용

Microsoft 신경망 뷰어를 사용하여 선형 회귀 마이닝 모델을 탐색할 수 있습니다.

로지스틱 회귀 모델은 하나의 키 열, 하나 이상의 입력 열, 하나 이상의 예측 가능한 열을 포함해야 합니다.

Microsoft 로지스틱 회귀 알고리즘은 다음 표에 나열된 특정 입력 열 내용 유형, 예측 가능한 열 내용 유형 및 모델링 플래그를 지원합니다.

입력 열 내용 유형	Continuous, Cyclical, Discrete, Discretized, Key, Table 및 Ordered
예측 가능한 열 내용 유형	Continuous, Cyclical, Discrete, Discretized 및 Ordered
모델링 플래그	MODEL_EXISTENCE_ONLY 및 NOT NULL

모든 Microsoft 알고리즘은 공통 함수 집합을 지원합니다. 그러나 Microsoft 로지스틱 회귀 알고리즘은 다음 표에 나열된 추가 함수를 지원합니다.

IsDescendant	PredictStdev
PredictAdjustedProbability	PredictSupport
PredictHistogram	PredictVariance
PredictProbability

모든 Microsoft 알고리즘에 공통된 함수 목록은 데이터 마이닝 알고리즘을 참조하십시오. 이러한 함수 사용 방법은 DMX(데이터 마이닝 확장) 함수 참조를 참조하십시오.

Microsoft 로지스틱 회귀 알고리즘을 사용하는 모델은 마이닝 모델의 노드 구조가 기본 데이터와 반드시 일치하는 것은 아니기 때문에 드릴스루 또는 데이터 마이닝 차원을 지원하지 않습니다.

Microsoft 로지스틱 회귀 알고리즘은 마이닝 모델 결과 도출 성능 및 정확도에 영향을 주는 여러 매개 변수를 지원합니다. 다음 표에서는 각 매개 변수를 설명합니다.

매개 변수	설명
HOLDOUT_PERCENTAGE	홀드아웃 오류를 계산하는 데 사용되는 성향 습득 데이터 내의 사례 비율을 지정합니다. HOLDOUT_PERCENTAGE는 마이닝 모델의 성향 습득 중 중지 조건의 일부로 사용됩니다. 기본값은 30입니다.
HOLDOUT_SEED	홀드아웃 데이터를 무작위로 결정할 때 난수 생성기의 초기값으로 사용할 숫자를 지정합니다. HOLDOUT_SEED를 0으로 설정하면 알고리즘은 마이닝 모델의 이름을 기반으로 초기값을 생성하여 다시 처리하는 동안 모델 내용이 동일하게 유지되도록 합니다. 기본값은 0입니다.
MAXIMUM_INPUT_ATTRIBUTES	기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 입력 특성 수를 정의합니다. 이 값을 0으로 설정하면 기능 선택이 해제됩니다. 기본값은 255입니다.
MAXIMUM_OUTPUT_ATTRIBUTES	기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 출력 특성 수를 정의합니다. 이 값을 0으로 설정하면 기능 선택이 해제됩니다. 기본값은 255입니다.
MAXIMUM_STATES	알고리즘이 지원하는 최대 특성 상태 수를 지정합니다. 특성의 상태 수가 최대 상태 수보다 많으면 알고리즘은 가장 많이 사용되는 특성 상태를 사용하고 나머지 상태를 무시합니다. 기본값은 100입니다.
SAMPLE_SIZE	모델의 성향 습득에 사용되는 사례 수를 지정합니다. 알고리즘 공급자는 지정한 수와 HOLDOUT_PERCENTAGE 매개 변수로 지정된 홀드아웃 비율에 포함되지 않은 총 사례 수의 비율 중 더 작은 값을 사용합니다. 즉, HOLDOUT_PERCENTAGE를 30으로 설정하면 알고리즘은 이 매개 변수 값이나 총 사례 수의 70%에 해당하는 값 중 더 작은 값을 사용합니다. 기본값은 10000입니다.

참고 항목

개념

데이터 마이닝 알고리즘
데이터 마이닝에서 기능 선택
데이터 마이닝 도구 사용
Microsoft 신경망 뷰어를 사용하여 마이닝 모델 보기

도움말 및 정보

SQL Server 2005 지원 받기

Microsoft 로지스틱 회귀 알고리즘

알고리즘 사용

참고 항목

개념

관련 자료

도움말 및 정보

추가 리소스