Microsoft Naive Bayes 알고리즘 기술 참조

아티클
12/23/2023

적용 대상: SQL Server 2019 및 이전 Analysis Services Azure Analysis Services Fabric/Power BI Premium

중요

데이터 마이닝은 SQL Server 2017 Analysis Services에서 더 이상 사용되지 않으며 이제 SQL Server 2022 Analysis Services에서 중단되었습니다. 더 이상 사용되지 않는 기능 및 중단된 기능에 대해서는 설명서가 업데이트되지 않습니다. 자세한 내용은 Analysis Services 이전 버전과의 호환성을 참조하세요.

Microsoft Naive Bayes 알고리즘은 예측 모델링에 사용하기 위해 Microsoft SQL Server SQL Server Analysis Services 제공하는 분류 알고리즘입니다. 이 알고리즘은 입력 열과 예측 가능한 열 간의 조건부 확률을 계산하며 열이 서로 독립적이라고 가정합니다. 이와 같은 독립성 가정으로 인해 Naive Bayes라는 이름이 붙었습니다.

Microsoft Naive Bayes 알고리즘 구현

이 알고리즘은 다른 Microsoft 알고리즘보다 계산 강도가 낮으므로 마이닝 모델을 빠르게 생성하여 입력 열과 예측 가능한 열 간의 관계를 검색하는 데 유용합니다. 이 알고리즘은 입력 특성 값과 출력 특성 값의 각 쌍을 고려합니다.

이 설명서에서는 Bayes 정리의 수학적 속성에 대해 설명하지 않습니다. 이에 대한 자세한 내용은 Bayesian 네트워크 학습: 지식 및 통계 데이터의 조합이라는 제목의 Microsoft Research 자료를 참조하세요.

모든 모델의 확률이 잠재적 누락 값을 고려하여 조정되는 방법에 대한 설명은 누락된 값(Analysis Services - 데이터 마이닝)을 참조하세요.

기능 선택

Microsoft Naive Bayes 알고리즘은 자동 기능 선택을 수행하여 모델을 빌드할 때 고려되는 값의 수를 제한합니다. 자세한 내용은 기능 선택(데이터 마이닝)을 참조하세요.

알고리즘	분석 방법	의견
Naive Bayes	Shannon Entropy Bayesian with K2 Prior Bayesian Dirichlet with uniform prior(기본값)	Naive Bayes는 불연속 또는 분할된 특성만 허용하므로 흥미도 점수를 사용할 수 없습니다.

이 알고리즘은 처리 시간을 최소화하고 가장 중요한 특성을 효율적으로 선택할 수 있도록 디자인되었습니다. 그러나 사용자가 다음과 같은 매개 변수를 설정하여 알고리즘에 사용되는 데이터를 제어할 수도 있습니다.

입력으로 사용되는 값을 제한하려면 MAXIMUM_INPUT_ATTRIBUTES 값을 줄입니다.
모델이 분석하는 특성의 수를 제한하려면 MAXIMUM_OUTPUT_ATTRIBUTES 값을 줄입니다.
하나의 특성에 대해 고려할 수 있는 값의 수를 제한하려면 MINIMUM_STATES 값을 줄입니다.

Naive Bayes 알고리즘 사용자 지정

Microsoft Naive Bayes 알고리즘은 결과 마이닝 모델의 동작, 성능 및 정확도에 영향을 주는 여러 매개 변수를 지원합니다. 모델 열에 모델링 플래그를 설정하여 데이터 처리 방식을 제어하거나, 마이닝 구조에 플래그를 설정하여 누락 값 또는 Null이 처리되는 방식을 지정할 수도 있습니다.

알고리즘 매개 변수 설정

Microsoft Naive Bayes 알고리즘은 결과 마이닝 모델의 성능 및 정확도에 영향을 주는 여러 매개 변수를 지원합니다. 다음 표에서는 각 매개 변수에 대해 설명합니다.

MAXIMUM_INPUT_ATTRIBUTES
기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 최대 입력 특성 수를 지정합니다. 이 값을 0으로 설정하면 입력 특성에 대해 기능 선택을 사용할 수 없습니다.

기본값은 255입니다.

MAXIMUM_OUTPUT_ATTRIBUTES
기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 최대 출력 특성 수를 지정합니다. 이 값을 0으로 설정하면 출력 특성에 대해 기능 선택을 사용할 수 없습니다.

기본값은 255입니다.

MINIMUM_DEPENDENCY_PROBABILITY
입력 특성과 출력 특성 간의 최소 종속성 확률을 지정합니다. 이 값은 알고리즘에서 생성하는 내용의 크기를 제한하는 데 사용됩니다. 이 속성은 0과 1 사이의 값으로 설정할 수 있습니다. 이보다 큰 값을 지정하면 모델 내용의 특성 수가 감소합니다.

기본값은 0.5입니다.

MAXIMUM_STATES
알고리즘이 지원하는 최대 특성 상태 수를 지정합니다. 특성이 있는 상태 수가 최대 상태 수보다 큰 경우 알고리즘은 특성의 가장 인기 있는 상태를 사용하고 나머지 상태를 누락된 상태로 처리합니다.

기본값은 100입니다.

모델링 플래그

Microsoft 의사 결정 트리 알고리즘은 다음 모델링 플래그를 지원합니다. 마이닝 구조나 마이닝 모델을 만들 경우 분석 중 각 열의 값이 처리되는 방법을 지정하기 위해 모델링 플래그를 정의합니다. 자세한 내용은 모델링 플래그(데이터 마이닝)를 참조하세요.

모델링 플래그	설명
MODEL_EXISTENCE_ONLY	열이 누락 및 있음 상태를 갖는 것으로 간주됩니다. Null은 누락 값입니다. 마이닝 모델 열에 적용됩니다.
NOT NULL	열에 null이 포함될 수 없음을 나타냅니다. 따라서 Analysis Services가 모델 학습 중 Null을 발견할 경우 오류가 발생합니다. 마이닝 구조 열에 적용됩니다.

요구 사항

Naive Bayes 트리 모델은 하나의 키 열, 하나 이상의 예측 가능한 특성 및 하나 이상의 입력 특성을 포함해야 합니다. 특성은 연속일 수 없으므로 데이터에 연속 숫자 데이터가 들어 있는 경우 해당 데이터는 무시되거나 분할됩니다.

입력 열과 예측 가능한 열

Microsoft Naive Bayes 알고리즘은 다음 표에 나열된 특정 입력 열과 예측 가능한 열을 지원합니다. 마이닝 모델에서 사용할 때 콘텐츠 형식의 의미에 대한 자세한 내용은 콘텐츠 형식(데이터 마이닝)을 참조하세요.

열	내용 유형
입력 특성	Cyclical, Discrete, Discretized, Key, Table 및 Ordered
예측 가능한 특성	Cyclical, Discrete, Discretized, Table 및 Ordered

참고

Cyclical 및 Ordered 내용 유형이 지원되기는 하지만 알고리즘은 해당 유형을 불연속 값으로 처리하고 특수한 처리를 수행하지 않습니다.

참고 항목

Microsoft Naive Bayes Algorithm
Naive Bayes 모델 쿼리 예제
Naive Bayes 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)