Microsoft Naive Bayes 알고리즘 기술 참조Microsoft Naive Bayes Algorithm Technical Reference

적용 대상:예SQL Server Analysis Services아니요Azure Analysis ServicesAPPLIES TO:yesSQL Server Analysis ServicesnoAzure Analysis Services MicrosoftMicrosoft Naive Bayes 알고리즘은 분류 알고리즘에서 제공 MicrosoftMicrosoft SQL ServerSQL Server Analysis ServicesAnalysis Services 예측 모델링에 사용 합니다. The MicrosoftMicrosoft Naive Bayes algorithm is a classification algorithm provided by MicrosoftMicrosoft SQL ServerSQL Server Analysis ServicesAnalysis Services for use in predictive modeling. 이 알고리즘은 입력 열과 예측 가능한 열 간의 조건부 확률을 계산하며 열이 서로 독립적이라고 가정합니다.The algorithm calculates the conditional probability between input and predictable columns, and assumes that the columns are independent. 이와 같은 독립성 가정으로 인해 Naive Bayes라는 이름이 붙었습니다.This assumption of independence leads to the name Naive Bayes.

Microsoft Naive Bayes 알고리즘 구현Implementation of the Microsoft Naive Bayes Algorithm

이 알고리즘은 다른 MicrosoftMicrosoft 알고리즘보다 계산 과정이 단순하여 입력 열과 예측 가능한 열 간의 관계를 검색하는 마이닝 모델을 신속하게 생성하는 데 유용합니다.This algorithm is less computationally intense than other MicrosoftMicrosoft algorithms, and therefore is useful for quickly generating mining models to discover relationships between input columns and predictable columns. 이 알고리즘은 입력 특성 값과 출력 특성 값의 각 쌍을 고려합니다.The algorithm considers each pair of input attribute values and output attribute values.

이 설명서에서는 Bayes 정리의 수학적 속성에 대해 설명하지 않습니다. 이에 대한 자세한 내용은 Bayesian 네트워크 학습: 지식 및 통계 데이터의 조합이라는 제목의 Microsoft Research 자료를 참조하세요.A description of the mathematical properties of Bayes Theorem is beyond the scope of this documentation; for more information, see the paper by Microsoft Research titled Learning Bayesian Networks: The Combination of Knowledge and Statistical Data.

모든 모델의 확률이 잠재적인 누락 값을 설명하기 위해 조정되는 방식에 대한 설명은 누락 값(Analysis Services - 데이터 마이닝)을 참조하세요.For a description of how probabilities in all models are adjusted to account for potential missing values, see Missing Values (Analysis Services - Data Mining).

기능 선택Feature Selection

MicrosoftMicrosoft Naive Bayes 알고리즘은 자동 기능 선택을 수행하여 모델을 작성할 때 고려되는 값의 수를 제한합니다.The MicrosoftMicrosoft Naive Bayes algorithm performs automatic feature selection to limit the number of values that are considered when building the model. 자세한 내용은 기능 선택(데이터 마이닝)을 참조하세요.For more information, see Feature Selection (Data Mining).

알고리즘Algorithm 분석 방법Method of analysis 설명Comments
Naive BayesNaive Bayes Shannon EntropyShannon's Entropy

Bayesian with K2 PriorBayesian with K2 Prior

Bayesian Dirichlet with uniform prior(기본값)Bayesian Dirichlet with uniform prior (default)
Naive Bayes는 불연속 또는 분할된 특성만 허용하므로 흥미도 점수를 사용할 수 없습니다.Naive Bayes only accepts discrete or discretized attributes; therefore, it cannot use the interestingness score.

이 알고리즘은 처리 시간을 최소화하고 가장 중요한 특성을 효율적으로 선택할 수 있도록 디자인되었습니다. 그러나 사용자가 다음과 같은 매개 변수를 설정하여 알고리즘에 사용되는 데이터를 제어할 수도 있습니다.The algorithm is designed to minimize processing time and efficiently select the attributes that have the greatest importance; however, you can control the data that is used by the algorithm by setting parameters as follows:

  • 입력으로 사용되는 값을 제한하려면 MAXIMUM_INPUT_ATTRIBUTES 값을 줄입니다.To limit the values that are used as inputs, decrease the value of MAXIMUM_INPUT_ATTRIBUTES.

  • 모델이 분석하는 특성의 수를 제한하려면 MAXIMUM_OUTPUT_ATTRIBUTES 값을 줄입니다.To limit the number of attributes analyzed by the model, decrease the value of MAXIMUM_OUTPUT_ATTRIBUTES.

  • 하나의 특성에 대해 고려할 수 있는 값의 수를 제한하려면 MINIMUM_STATES 값을 줄입니다.To limit the number of values that can be considered for any one attribute, decrease the value of MINIMUM_STATES.

Naive Bayes 알고리즘 사용자 지정Customizing the Naive Bayes Algorithm

MicrosoftMicrosoft Naive Bayes 알고리즘은 결과 마이닝 모델의 동작, 성능 및 정확도에 영향을 주는 여러 매개 변수를 지원합니다.The MicrosoftMicrosoft Naive Bayes algorithm supports several parameters that affect the behavior, performance, and accuracy of the resulting mining model. 모델 열에 모델링 플래그를 설정하여 데이터 처리 방식을 제어하거나, 마이닝 구조에 플래그를 설정하여 누락 값 또는 Null이 처리되는 방식을 지정할 수도 있습니다.You can also set modeling flags on the model columns to control how data is processed, or set flags on the mining structure to specify how missing values or nulls should be handled.

알고리즘 매개 변수 설정Setting Algorithm Parameters

MicrosoftMicrosoft Naive Bayes 알고리즘은 결과 마이닝 모델의 성능 및 정확도에 영향을 주는 여러 매개 변수를 지원합니다.The MicrosoftMicrosoft Naive Bayes algorithm supports several parameters that affect the performance and accuracy of the resulting mining model. 다음 표에서는 각 매개 변수에 대해 설명합니다.The following table describes each parameter.

MAXIMUM_INPUT_ATTRIBUTESMAXIMUM_INPUT_ATTRIBUTES
기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 최대 입력 특성 수를 지정합니다.Specifies the maximum number of input attributes that the algorithm can handle before it invokes feature selection. 이 값을 0으로 설정하면 입력 특성에 대해 기능 선택을 사용할 수 없습니다.Setting this value to 0 disables feature selection for input attributes.

기본값은 255입니다.The default is 255.

MAXIMUM_OUTPUT_ATTRIBUTESMAXIMUM_OUTPUT_ATTRIBUTES
기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 최대 출력 특성 수를 지정합니다.Specifies the maximum number of output attributes that the algorithm can handle before it invokes feature selection. 이 값을 0으로 설정하면 출력 특성에 대해 기능 선택을 사용할 수 없습니다.Setting this value to 0 disables feature selection for output attributes.

기본값은 255입니다.The default is 255.

MINIMUM_DEPENDENCY_PROBABILITYMINIMUM_DEPENDENCY_PROBABILITY
입력 특성과 출력 특성 간의 최소 종속성 확률을 지정합니다.Specifies the minimum dependency probability between input and output attributes. 이 값은 알고리즘에서 생성하는 내용의 크기를 제한하는 데 사용됩니다.This value is used to limit the size of the content that is generated by the algorithm. 이 속성은 0과 1 사이의 값으로 설정할 수 있습니다.This property can be set from 0 to 1. 이보다 큰 값을 지정하면 모델 내용의 특성 수가 감소합니다.Larger values reduce the number of attributes in the content of the model.

기본값은 0.5입니다.The default is 0.5.

MAXIMUM_STATESMAXIMUM_STATES
알고리즘이 지원하는 최대 특성 상태 수를 지정합니다.Specifies the maximum number of attribute states that the algorithm supports. 특성의 상태 수가 최대 상태 수보다 많으면 알고리즘은 가장 많이 사용되는 특성 상태를 사용하고 나머지 상태를 누락된 것으로 처리합니다.If the number of states that an attribute has is greater than the maximum number of states, the algorithm uses the attribute’s most popular states and treats the remaining states as missing.

기본값은 100입니다.The default is 100.

모델링 플래그Modeling Flags

MicrosoftMicrosoft 의사 결정 트리 알고리즘은 다음과 같은 모델링 플래그를 지원합니다.The MicrosoftMicrosoft Decision Trees algorithm supports the following modeling flags. 마이닝 구조나 마이닝 모델을 만들 경우 분석 중 각 열의 값이 처리되는 방법을 지정하기 위해 모델링 플래그를 정의합니다.When you create the mining structure or mining model, you define modeling flags to specify how values in each column are handled during analysis. 자세한 내용은 모델링 플래그(데이터 마이닝)를 참조하세요.For more information, see Modeling Flags (Data Mining).

모델링 플래그Modeling Flag DescriptionDescription
MODEL_EXISTENCE_ONLYMODEL_EXISTENCE_ONLY 열이 누락 및 있음 상태를 갖는 것으로 간주됩니다.Means that the column will be treated as having two possible states: Missing and Existing. Null은 누락 값입니다.A null is a missing value.

마이닝 모델 열에 적용됩니다.Applies to mining model column.
NOT NULLNOT NULL 열에 null이 포함될 수 없음을 나타냅니다.Indicates that the column cannot contain a null. 따라서 Analysis Services가 모델 학습 중 Null을 발견할 경우 오류가 발생합니다.An error will result if Analysis Services encounters a null during model training.

마이닝 구조 열에 적용됩니다.Applies to mining structure column.

요구 사항Requirements

Naive Bayes 트리 모델은 하나의 키 열, 하나 이상의 예측 가능한 특성 및 하나 이상의 입력 특성을 포함해야 합니다.A Naive Bayes tree model must contain a key column, at least one predictable attribute, and at least one input attribute. 특성은 연속일 수 없으므로 데이터에 연속 숫자 데이터가 들어 있는 경우 해당 데이터는 무시되거나 분할됩니다.No attribute can be continuous; if your data contains continuous numeric data, it will be ignored or discretized.

입력 열과 예측 가능한 열Input and Predictable Columns

MicrosoftMicrosoft Naive Bayes 알고리즘은 다음 표에 나열된 특정 입력 열과 예측 가능한 열을 지원합니다.The MicrosoftMicrosoft Naive Bayes algorithm supports the specific input columns and predictable columns that are listed in the following table. 마이닝 모델에 사용되는 경우 콘텐츠 형식의 의미에 대한 자세한 내용은 콘텐츠 형식(데이터 마이닝)을 참조하세요.For more information about what the content types mean when used in a mining model, see Content Types (Data Mining).

Column 내용 유형Content types
입력 특성Input attribute Cyclical, Discrete, Discretized, Key, Table 및 OrderedCyclical, Discrete, Discretized, Key, Table, and Ordered
예측 가능한 특성Predictable attribute Cyclical, Discrete, Discretized, Table 및 OrderedCyclical, Discrete, Discretized, Table, and Ordered

참고

Cyclical 및 Ordered 내용 유형이 지원되기는 하지만 알고리즘은 해당 유형을 불연속 값으로 처리하고 특수한 처리를 수행하지 않습니다.Cyclical and Ordered content types are supported, but the algorithm treats them as discrete values and does not perform special processing.

관련 항목:See Also

Microsoft Naive Bayes 알고리즘 Microsoft Naive Bayes Algorithm
Naive Bayes 모델 쿼리 예제 Naive Bayes Model Query Examples
Naive Bayes 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)Mining Model Content for Naive Bayes Models (Analysis Services - Data Mining)