Microsoft Naive Bayes 알고리즘

Microsoft Naive Bayes 알고리즘은 Microsoft SQL Server 2005 Analysis Services(SSAS) 에서 제공하는 예측 모델링용 분류 알고리즘입니다. 이 알고리즘은 입력 열과 예측 가능한 열 간의 조건부 확률을 계산하며 열이 서로 독립적이라고 가정합니다. 이와 같은 가정으로 인해 이 알고리즘은 있을 수 있는 종속성을 고려하지 않는 원시 형태인 경우가 많아 Naive Bayes라는 이름이 붙었습니다.

이 알고리즘은 다른 Microsoft 알고리즘보다 계산 과정이 단순하여 입력 열과 예측 가능한 열 간의 관계를 검색하는 마이닝 모델을 신속하게 생성하는 데 유용합니다. 이 알고리즘을 사용하여 초기 데이터 탐색을 수행한 후 나중에 그 결과를 적용하여 보다 복잡하고 정확한 다른 알고리즘으로 추가 마이닝 모델을 만들 수 있습니다.

진행 중인 홍보 행사 전략의 하나로 Adventure Works Cycle사의 마케팅 부서는 우편으로 전단지를 보내 잠재 고객을 공략하기로 결정했습니다. 비용을 줄이기 위해 응답 가능성이 큰 고객에게만 전단지를 보내려고 합니다. 회사는 인구 통계 및 이전 우편물에 대한 응답 정보를 데이터베이스에 저장합니다. 이 데이터를 사용하여 특징이 유사하고 과거에 회사 제품을 구매한 고객과 잠재 고객을 비교하여 연령 및 위치와 같은 인구 통계가 홍보 행사에 대한 응답을 예측하는 데 얼마나 도움이 되는지 확인하려고 합니다. 특히 자전거를 구입한 고객과 구입하지 않은 고객의 차이점을 찾으려고 합니다.

마케팅 부서는 Microsoft Naive Bayes 알고리즘을 사용하여 특정 고객 프로필에 대한 결과를 신속하게 예측할 수 있으므로 전단지에 응답할 가능성이 큰 고객을 결정할 수 있습니다. Business Intelligence Development Studio 의 Microsoft Naive Bayes 뷰어를 사용하면 특히 전단지에 대한 긍정적인 응답에 기여한 입력 열을 시각적으로 조사할 수도 있습니다.

알고리즘 작동 방법

Microsoft Naive Bayes 알고리즘은 예측 가능한 열에 가능한 각 상태가 지정되면 각 입력 열의 모든 상태에 대한 확률을 계산합니다. Business Intelligence Development Studio 의 Microsoft Naive Bayes 뷰어를 사용하여 다음 그래픽에 표시된 것처럼 알고리즘의 상태 분포를 시각적으로 확인할 수 있습니다.

Naive Bayes 상태 분포

Microsoft Naive Bayes 뷰어는 데이터 집합의 각 입력 열을 나열하고 예측 가능한 열의 각 상태가 지정되면 각 열의 상태 분포를 보여 줍니다. 이 뷰어를 사용하여 예측 가능한 열의 상태를 차별화하는 데 중요한 입력 열을 식별할 수 있습니다. 예를 들어 여기에 표시된 Commute Distance 열에서 1-2마일 거리를 통근하는 고객의 경우 자전거를 구입할 확률은 0.387인 반면 자전거를 구입하지 않을 확률은 0.287입니다. 이 예에서 알고리즘은 통근 거리와 같은 고객 특징에서 파생된 숫자 정보를 사용하여 고객의 자전거 구입 여부를 예측합니다. Microsoft Naive Bayes 뷰어 사용 방법은 Microsoft Naive Bayes 뷰어를 사용하여 마이닝 모델 보기를 참조하십시오.

알고리즘 사용

Naive Bayes 모델은 하나의 키 열, 입력 열, 하나의 예측 가능한 열을 포함해야 합니다. 모든 열은 불연속 또는 불연속화된 열이어야 합니다. 열을 불연속화하는 방법은 불연속화 방법을 참조하십시오.

Microsoft Naive Bayes 알고리즘은 다음 표에 나열된 특정 입력 열 내용 유형, 예측 가능한 열 내용 유형 및 모델링 플래그를 지원합니다.

입력 열 내용 유형

Cyclical, Discrete, Discretized, Key, Table 및 Ordered

예측 가능한 열 내용 유형

Cyclical, Discrete, Discretized, Table 및 Ordered

모델링 플래그

MODEL_EXISTENCE_ONLY 및 NOT NULL

모든 Microsoft 알고리즘은 공통 함수 집합을 지원합니다. 그러나 Microsoft Naive Bayes 알고리즘은 다음 표에 나열된 추가 함수를 지원합니다.

IsDescendant

PredictNodeId

PredictAdjustedProbability

PredictProbability

PredictAssociation

PredictSupport

PredictHistogram

모든 Microsoft 알고리즘에 공통된 함수 목록은 데이터 마이닝 알고리즘을 참조하십시오. 이러한 함수 사용 방법은 DMX(데이터 마이닝 확장) 함수 참조를 참조하십시오.

Microsoft Naive Bayes 알고리즘은 PMML(Predictive Model Markup Language)을 사용한 마이닝 모델 생성은 지원하지 않습니다.

Microsoft Naive Bayes 알고리즘은 마이닝 모델 결과 도출 성능 및 정확도에 영향을 주는 여러 매개 변수를 지원합니다. 다음 표에서는 각 매개 변수를 설명합니다.

매개 변수 설명

MAXIMUM_INPUT_ATTRIBUTES

기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 최대 입력 특성 수를 지정합니다. 이 값을 0으로 설정하면 입력 특성에 대해 기능 선택을 사용할 수 없습니다.

기본값은 255입니다.

MAXIMUM_OUTPUT_ATTRIBUTES

기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 최대 출력 특성 수를 지정합니다. 이 값을 0으로 설정하면 출력 특성에 대해 기능 선택을 사용할 수 없습니다.

기본값은 255입니다.

MINIMUM_DEPENDENCY_PROBABILITY

입력 특성과 출력 특성 간의 최소 종속성 확률을 지정합니다. 이 값은 알고리즘에서 생성하는 내용의 크기를 제한하는 데 사용됩니다. 이 속성은 0과 1 사이의 값으로 설정할 수 있습니다. 이보다 큰 값을 지정하면 모델 내용의 특성 수가 감소합니다.

기본값은 0.5입니다.

MAXIMUM_STATES

알고리즘이 지원하는 최대 특성 상태 수를 지정합니다. 특성의 상태 수가 최대 상태 수보다 많으면 알고리즘은 가장 많이 사용되는 특성 상태를 사용하고 나머지 상태를 누락된 것으로 처리합니다.

기본값은 100입니다.

참고 항목

개념

데이터 마이닝 알고리즘
불연속화 방법
데이터 마이닝에서 기능 선택
데이터 마이닝 도구 사용
Microsoft Naive Bayes 뷰어를 사용하여 마이닝 모델 보기

관련 자료

CREATE MINING MODEL(DMX)

도움말 및 정보

SQL Server 2005 지원 받기