Microsoft 의사 결정 트리 알고리즘 기술 참조Microsoft Decision Trees Algorithm Technical Reference

MicrosoftMicrosoft 의사 결정 트리 알고리즘은 트리를 만드는 여러 방법을 통합하며 회귀, 분류, 연결 등의 여러 분석 태스크를 지원하는 하이브리드 알고리즘입니다.The MicrosoftMicrosoft Decision Trees algorithm is a hybrid algorithm that incorporates different methods for creating a tree, and supports multiple analytic tasks, including regression, classification, and association. Microsoft 의사 결정 트리 알고리즘은 불연속 특성과 연속 특성 모두의 모델링을 지원합니다.The Microsoft Decision Trees algorithm supports modeling of both discrete and continuous attributes.

이 항목에서는 알고리즘의 구현을 설명하고, 여러 태스크에 대한 알고리즘 동작을 사용자 지정하는 방법을 설명하며, 의사 결정 트리 모델 쿼리에 대한 추가 정보로 연결되는 링크를 제공합니다.This topic explains the implementation of the algorithm, describes how to customize the behavior of the algorithm for different tasks, and provides links to additional information about querying decision tree models.

의사 결정 트리 알고리즘의 구현Implementation of the Decision Trees Algorithm

Microsoft 의사 결정 트리 알고리즘은 모델에 대한 근사 사후 분포를 가져옴으로써 Bayesian 방법을 학습 인과 상호 작용 모델에 적용합니다.The Microsoft Decision Trees algorithm applies the Bayesian approach to learning causal interaction models by obtaining approximate posterior distributions for the models. 이 방법에 대한 자세한 내용은 Microsoft Research 사이트의 자료, 구조와 매개 변수 학습을 참조하십시오.For a detailed explanation of this approach, see the paper on the Microsoft Research site, by Structure and Parameter Learning.

학습에 필요한 사전 지식 의 정보 값을 평가하는 방법은 가능성 등가의 가정을 기반으로 합니다.The methodology for assessing the information value of the priors needed for learning is based on the assumption of likelihood equivalence. 이 가정은 조건부 독립성의 동일한 단정을 다른 방법으로 나타내는 네트워크 구조를 판별하는 데 데이터가 유용하지 않다는 가정입니다.This assumption says that data should not help to discriminate network structures that otherwise represent the same assertions of conditional independence. 각 사례는 하나의 Bayesian 사전 지식 네트워크와 해당 네트워크의 신뢰성에 대한 하나의 측정값을 포함하는 것으로 가정됩니다.Each case is assumed to have a single Bayesian prior network and a single measure of confidence for that network.

알고리즘은 이러한 사전 지식 네트워크를 사용하여 현재 학습 데이터에 대해 네트워크 구조의 상대적 사후 확률 을 계산하고 사후 확률이 가장 높은 네트워크 구조를 식별합니다.Using these prior networks, the algorithm then computes the relative posterior probabilities of network structures given the current training data, and identifies the network structures that have the highest posterior probabilities.

Microsoft 의사 결정 트리 알고리즘에서는 다양한 방법을 사용하여 최상의 트리를 계산합니다.The Microsoft Decision Trees algorithm uses different methods to compute the best tree. 사용되는 방법은 태스크에 따라 선형 회귀, 분류 또는 연결 분석일 수 있습니다.The method used depends on the task, which can be linear regression, classification, or association analysis. 하나의 모델이 예측 가능한 여러 특성에 대한 여러 개의 트리를 포함할 수 있습니다.A single model can contain multiple trees for different predictable attributes. 또한 각 트리는 데이터에 있는 특성 및 값의 수에 따라 여러 분기를 포함할 수 있습니다.Moreover, each tree can contain multiple branches, depending on how many attributes and values there are in the data. 특정 모델에 작성되는 트리의 형태와 깊이는 점수 매기기 방법과 사용된 기타 매개 변수에 따라 달라집니다.The shape and depth of the tree built in a particular model depends on the scoring method and other parameters that were used. 매개 변수의 변경 내용은 노드 분할 위치에도 영향을 줍니다.Changes in the parameters can also affect where the nodes split.

트리 작성Building the Tree

Microsoft 의사 결정 트리 알고리즘은 가능한 입력 값 집합을 만들 때 feature selection 을 수행하여 가장 많은 정보를 제공하는 특성 및 값을 식별하고 매우 드물게 나타나는 값은 고려하지 않습니다.When the Microsoft Decision Trees algorithm creates the set of possible input values, it performs feature selection to identify the attributes and values that provide the most information, and removes from consideration the values that are very rare. 또한 이 알고리즘은 값을 Bin에 그룹화하여 성능을 최적화하기 위해 한 단위로 처리할 수 있는 값 그룹을 만듭니다.The algorithm also groups values into bins, to create groupings of values that can be processed as a unit to optimize performance.

트리는 입력과 목표 결과 간의 상관 관계를 확인하여 작성됩니다.A tree is built by determining the correlations between an input and the targeted outcome. 모든 특성의 상관 관계가 확인된 후 알고리즘은 결과를 가장 명확하게 구분하는 단일 특성을 식별합니다.After all the attributes have been correlated, the algorithm identifies the single attribute that most cleanly separates the outcomes. 최상의 구분 지점은 얻은 정보를 계산하는 수식을 사용하여 측정됩니다.This point of the best separation is measured by using an equation that calculates information gain. 얻은 정보에 대한 최상의 점수가 있는 특성은 사례를 하위 집합으로 나누는 데 사용되고 하위 집합은 트리를 더 이상 분할할 수 없을 때까지 동일한 프로세스에서 재귀적으로 분석됩니다.The attribute that has the best score for information gain is used to divide the cases into subsets, which are then recursively analyzed by the same process, until the tree cannot be split any more.

얻은 정보를 계산하는 데 사용되는 정확한 수식은 알고리즘을 만들 때 설정한 매개 변수, 예측 가능한 열의 데이터 형식 및 입력의 데이터 형식에 따라 달라집니다.The exact equation used to evaluate information gain depends on the parameters set when you created the algorithm, the data type of the predictable column, and the data type of the input.

불연속 및 연속 입력Discrete and Continuous Inputs

예측 가능한 특성과 입력이 모두 불연속적일 경우 입력당 결과 수를 계산하려면 행렬을 만들고 해당 행렬에 있는 각 셀에 대한 점수를 생성해야 합니다.When the predictable attribute is discrete and the inputs are discrete, counting the outcomes per input is a matter of creating a matrix and generating scores for each cell in the matrix.

그러나 예측 가능한 특성이 불연속적이고 입력이 연속적일 경우에는 연속 열의 입력이 자동으로 분할됩니다.However, when the predictable attribute is discrete and the inputs are continuous, the input of the continuous columns are automatically discretized. 기본값을 그대로 사용하고 Analysis ServicesAnalysis Services 에서 최적의 Bin 수를 찾도록 설정할 수도 있고, DiscretizationMethodDiscretizationBucketCount 속성을 설정하여 연속 입력이 불연속화되는 방식을 제어할 수도 있습니다.You can accept the default and have Analysis ServicesAnalysis Services find the optimum number of bins, or you can control the manner in which continuous inputs are discretized by setting the DiscretizationMethod and DiscretizationBucketCount properties. 자세한 내용은 마이닝 모델에서 열의 불연속화 변경을 참조하세요.For more information, see Change the Discretization of a Column in a Mining Model.

연속 특성의 경우 알고리즘은 선형 회귀를 사용하여 의사 결정 트리의 분할 위치를 결정합니다.For continuous attributes, the algorithm uses linear regression to determine where a decision tree splits.

예측 가능한 특성이 연속 숫자 데이터 형식일 경우 기능 선택은 출력에도 적용되어 가능한 결과 수를 줄이므로 모델을 보다 빠르게 작성할 수 있습니다.When the predictable attribute is a continuous numeric data type, feature selection is applied to the outputs as well, to reduce the possible number of outcomes and build the model faster. 기능 선택의 임계값을 변경하고 그에 따라 MAXIMUM_OUTPUT_ATTRIBUTES 매개 변수를 설정하여 가능한 값의 수를 늘리거나 줄일 수 있습니다.You can change the threshold for feature selection and thereby increase or decrease the number of possible values by setting the MAXIMUM_OUTPUT_ATTRIBUTES parameter.

MicrosoftMicrosoft 의사 결정 트리 알고리즘에서 예측 가능한 불연속 열을 사용하는 방법은 Bayesian 네트워크 학습: 지식 및 통계 데이터의 조합(Learning Bayesian Networks: The Combination of Knowledge and Statistical Data)을 참조하세요.For a more detained explanation about how the MicrosoftMicrosoft Decision Trees algorithm works with discrete predictable columns, see Learning Bayesian Networks: The Combination of Knowledge and Statistical Data. MicrosoftMicrosoft 의사 결정 트리 알고리즘에서 예측 가능한 연속 열을 사용하는 방법에 대한 자세한 내용은 시계열 분석을 위한 자동 회귀 트리 모델의 부록을 참조하세요.For more information about how the MicrosoftMicrosoft Decision Trees algorithm works with a continuous predictable column, see the appendix of Autoregressive Tree Models for Time-Series Analysis.

점수 매기기 방법 및 기능 선택Scoring Methods and Feature Selection

Microsoft 의사 결정 트리 알고리즘에서는 얻은 정보를 평가하기 위한 Shannon's entropy, Bayesian network with K2 prior 및 Bayesian network with a uniform Dirichlet distribution of priors라는 세 개의 수식을 제공합니다.The Microsoft Decision Trees algorithm offers three formulas for scoring information gain: Shannon's entropy, Bayesian network with K2 prior, and Bayesian network with a uniform Dirichlet distribution of priors. 세 방법 모두 데이터 마이닝 분야에서 잘 수립된 방법입니다.,All three methods are well established in the data mining field. 여러 가지 매개 변수와 점수 매기기 방법을 사용해 보고 어느 것이 최상의 결과를 제공하는지 확인하는 것이 좋습니다.We recommend that you experiment with different parameters and scoring methods to determine which provides the best results. 이러한 점수 매기기 방법에 대한 자세한 내용은 Feature Selection을 참조하십시오.For more information about these scoring methods, see Feature Selection.

모든 Analysis ServicesAnalysis Services 데이터 마이닝 알고리즘에서는 자동으로 기능 선택을 사용하여 분석을 향상시키고 처리 로드를 줄입니다.All Analysis ServicesAnalysis Services data mining algorithms automatically use feature selection to improve analysis and reduce processing load. 기능 선택에 사용되는 방법은 모델을 작성하는 데 사용된 알고리즘에 따라 달라집니다.The method used for feature selection depends on the algorithm that is used to build the model. 의사 결정 트리 모델의 기능 선택을 제어하는 알고리즘 매개 변수는 MAXIMUM_INPUT_ATTRIBUTES와 MAXIMUM_OUTPUT입니다.The algorithm parameters that control feature selection for a decision trees model are MAXIMUM_INPUT_ATTRIBUTES and MAXIMUM_OUTPUT.

알고리즘Algorithm 분석 방법Method of analysis 설명Comments
의사 결정 트리Decision Trees 흥미도 점수Interestingness score

Shannon EntropyShannon's Entropy

Bayesian with K2 PriorBayesian with K2 Prior

Bayesian Dirichlet with uniform prior(기본값)Bayesian Dirichlet with uniform prior (default)
이진이 아닌 연속 값이 열에 포함되어 있는 경우 일관성을 보장하기 위해 모든 열에 흥미도 점수가 사용됩니다.If any columns contain non-binary continuous values, the interestingness score is used for all columns, to ensure consistency. 그렇지 않을 경우 기본 방법이나 지정된 방법이 사용됩니다.Otherwise, the default or specified method is used.
선형 회귀Linear Regression 흥미도 점수Interestingness score 선형 회귀는 연속 열만 지원하므로 흥미도 점수만 사용합니다.Linear Regression only uses interestingness, because it only supports continuous columns.

확장성 및 성능Scalability and Performance

분류는 중요한 데이터 마이닝 전략입니다.Classification is an important data mining strategy. 일반적으로 사례를 분류하는 데 필요한 정보의 양은 입력 레코드의 수에 직접적으로 비례하여 증가합니다.Generally, the amount of information that is needed to classify the cases grows in direct proportion to the number of input records. 이로 인해 분류할 수 있는 데이터의 크기가 제한됩니다.This limits the size of the data that can be classified. Microsoft 의사 결정 트리 알고리즘에서는 다음 방법을 사용하여 이러한 문제를 해결하고 성능을 향상시키고 메모리 제한을 제거합니다.The Microsoft Decision Trees algorithm using uses the following methods to resolve these problems, improve performance, and eliminate memory restrictions:

  • 기능 선택을 사용하여 특성 선택을 최적화합니다.Feature selection to optimize the selection of attributes.

  • Bayesian 점수 매기기를 사용하여 트리 증가를 제어합니다.Bayesian scoring to control tree growth.

  • 연속 특성에 대한 Bin 생성을 최적화합니다.Optimization of binning for continuous attributes.

  • 입력 값을 동적으로 그룹화하여 가장 중요한 값을 확인합니다.Dynamic grouping of input values to determine the most important values.

    Microsoft 의사 결정 트리 알고리즘은 빠르고 확장 가능할 뿐 아니라, 쉽게 병렬 처리할 수 있도록 디자인되었으므로 모든 프로세서가 함께 작동하여 하나의 일관된 모델을 작성합니다.The Microsoft Decision Trees algorithm is fast and scalable, and has been designed to be easily parallelized, meaning that all processors work together to build a single, consistent model. 이러한 모든 특성으로 인해 의사 결정 트리 분류자는 데이터 마이닝에 이상적인 도구입니다.The combination of these characteristics makes the decision-tree classifier an ideal tool for data mining.

    성능 제한이 심각한 경우 의사 결정 트리 모델의 학습 도중 다음 방법을 사용하여 처리 시간을 개선할 수 있습니다.If performance constraints are severe, you might be able to improve processing time during the training of a decision tree model by using the following methods. 그러나 이 경우 특성을 제거하여 처리 성능을 향상시키면 모델 결과가 변경되고 해당 모델이 전체 모집단을 대표하는 정도가 낮아질 수 있다는 것을 알고 있어야 합니다.However, if you do so, be aware that eliminating attributes to improve processing performance will change the results of the model, and possibly make it less representative of the total population.

  • COMPLEXITY_PENALTY 매개 변수의 값을 늘려 트리 증가를 제한합니다.Increase the value of the COMPLEXITY_PENALTY parameter to limit tree growth.

  • 연결 모델의 항목 수를 제한하여 작성되는 트리 수를 제한합니다.Limit the number of items in association models to limit the number of trees that are built.

  • MINIMUM_SUPPORT 매개 변수의 값을 늘려 과잉 맞춤을 방지합니다.Increase the value of the MINIMUM_SUPPORT parameter to avoid overfitting.

  • 모든 특성의 불연속 값 수를 10개 이하로 제한합니다.Restrict the number of discrete values for any attribute to 10 or less. 다른 모델에서 다른 방법으로 값을 그룹화해 볼 수도 있습니다.You might try grouping values in different ways in different models.

    참고

    데이터 마이닝을 시작하기 전에 SQL Server 2017 Integration Services(SSIS)SQL Server 2017 Integration Services (SSIS) 에서 제공되는 데이터 탐색 도구를 사용하여 데이터의 값 분포를 시각화하고 적절하게 값을 그룹화할 수 있습니다.You can use the data exploration tools available in SQL Server 2017 Integration Services(SSIS)SQL Server 2017 Integration Services (SSIS) to visualize the distribution of values in your data and group your values appropriately before beginning data mining. 자세한 내용은 데이터 프로파일링 태스크 및 뷰어를 참조하세요.For more information, see Data Profiling Task and Viewer. Excel 2007용 데이터 마이닝 추가 기능을 사용하여 Microsoft Excel에서 데이터를 탐색하고 그룹화하고 레이블을 재지정할 수도 있습니다.You can also use the Data Mining Add-ins for Excel 2007, to explore, group and relabel data in Microsoft Excel.

의사 결정 트리 알고리즘 사용자 지정Customizing the Decision Trees Algorithm

MicrosoftMicrosoft 의사 결정 트리 알고리즘은 결과 마이닝 모델의 성능 및 정확도에 영향을 주는 매개 변수를 지원합니다.The MicrosoftMicrosoft Decision Trees algorithm supports parameters that affect the performance and accuracy of the resulting mining model. 마이닝 모델 열이나 마이닝 구조 열에 모델링 플래그를 설정하여 데이터 처리 방식을 제어할 수도 있습니다.You can also set modeling flags on the mining model columns or mining structure columns to control the way that data is processed.

참고

Microsoft 의사 결정 트리 알고리즘은 모든 버전의 SQL ServerSQL Server에서 사용할 수 있지만 Microsoft 의사 결정 트리 알고리즘의 동작을 사용자 지정하는 고급 매개 변수는 특정 버전의 SQL ServerSQL Server에서만 사용할 수 있습니다.The Microsoft Decision Trees algorithm is available in all editions of SQL ServerSQL Server; however, some advanced parameters for customizing the behavior of the Microsoft Decision Trees algorithm are available for use only in specific editions of SQL ServerSQL Server. SQL ServerSQL Server버전에서 지원하는 기능 목록은 SQL Server 2012 버전에서 지원하는 기능 (http://go.microsoft.com/fwlink/?linkid=232473)을 참조하세요.For a list of features that are supported by the editions of SQL ServerSQL Server, see Features Supported by the Editions of SQL Server 2012 (http://go.microsoft.com/fwlink/?linkid=232473).

알고리즘 매개 변수 설정Setting Algorithm Parameters

다음 표에서는 MicrosoftMicrosoft 의사 결정 트리 알고리즘에서 사용할 수 있는 매개 변수에 대해 설명합니다.The following table describes the parameters that you can use with the MicrosoftMicrosoft Decision Trees algorithm.

COMPLEXITY_PENALTYCOMPLEXITY_PENALTY
의사 결정 트리의 증가를 제어합니다.Controls the growth of the decision tree. 낮은 값을 지정하면 분할 수가 증가되고 높은 값을 지정하면 분할 수가 감소됩니다.A low value increases the number of splits, and a high value decreases the number of splits. 기본값은 다음 목록에 설명된 것과 같이 특정 모델의 특성 수에 따라 달라집니다.The default value is based on the number of attributes for a particular model, as described in the following list:

  • 특성 수가 1에서 9 사이인 경우 기본값은 0.5입니다.For 1 through 9 attributes, the default is 0.5.

  • 특성 수가 10에서 99 사이인 경우 기본값은 0.9입니다.For 10 through 99 attributes, the default is 0.9.

  • 특성 수가 100 이상인 경우 기본값은 0.99입니다.For 100 or more attributes, the default is 0.99.

    FORCE_REGRESSORFORCE_REGRESSOR
    알고리즘에서 계산한 열의 중요도에 관계없이 알고리즘에서 지정된 열을 회귀 변수로 사용하도록 합니다.Forces the algorithm to use the specified columns as regressors, regardless of the importance of the columns as calculated by the algorithm. 이 매개 변수는 연속 특성을 예측하는 의사 결정 트리에만 사용됩니다.This parameter is only used for decision trees that are predicting a continuous attribute.

참고

이 매개 변수를 설정하면 알고리즘에서는 해당 특성을 회귀 변수로 사용하려고 합니다.By setting this parameter, you force the algorithm to try to use the attribute as a regressor. 그러나 해당 특성이 최종 모델에서 실제로 회귀 변수로 사용되는지 여부는 분석 결과에 따라 달라집니다.However, whether the attribute is actually used as a regressor in the final model depends on the results of analysis. 모델 콘텐츠를 쿼리하면 회귀 변수로 사용된 열을 확인할 수 있습니다.You can find out which columns were used as regressors by querying the model content.

[ SQL ServerSQL Server 의 일부 버전에서만 사용 가능][Available only in some editions of SQL ServerSQL Server ]

MAXIMUM_INPUT_ATTRIBUTESMAXIMUM_INPUT_ATTRIBUTES
기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 입력 특성 수를 정의합니다.Defines the number of input attributes that the algorithm can handle before it invokes feature selection.

기본값은 255입니다.The default is 255.

이 값을 0으로 설정하면 기능 선택이 해제됩니다.Set this value to 0 to turn off feature selection.

[ SQL ServerSQL Server의 일부 버전에서만 사용 가능][Available only in some editions of SQL ServerSQL Server]

MAXIMUM_OUTPUT_ATTRIBUTESMAXIMUM_OUTPUT_ATTRIBUTES
기능 선택을 호출하기 전에 알고리즘이 처리할 수 있는 출력 특성 수를 정의합니다.Defines the number of output attributes that the algorithm can handle before it invokes feature selection.

기본값은 255입니다.The default is 255.

이 값을 0으로 설정하면 기능 선택이 해제됩니다.Set this value to 0 to turn off feature selection.

[ SQL ServerSQL Server의 일부 버전에서만 사용 가능][Available only in some editions of SQL ServerSQL Server]

MINIMUM_SUPPORTMINIMUM_SUPPORT
의사 결정 트리에서 분할을 생성하는 데 필요한 최소 리프 사례 수를 결정합니다.Determines the minimum number of leaf cases that is required to generate a split in the decision tree.

기본값은 10입니다.The default is 10.

데이터 집합이 매우 큰 경우 과잉 맞춤을 방지하기 위해 이 값을 늘려야 할 수 있습니다.You may need to increase this value if the dataset is very large, to avoid overtraining.

SCORE_METHODSCORE_METHOD
분할 점수를 계산하는 데 사용되는 메서드를 결정합니다.Determines the method that is used to calculate the split score. 사용할 수 있는 옵션은 다음과 같습니다.The following options are available:

IDID 이름Name
1.1 EntropyEntropy
33 Bayesian with K2 PriorBayesian with K2 Prior
44 Bayesian Dirichlet Equivalent (BDE) with uniform priorBayesian Dirichlet Equivalent (BDE) with uniform prior

(기본값)(default)

기본값은 4 또는 BDE입니다.The default is 4, or BDE.

이러한 점수 매기기 방법에 대한 자세한 내용은 Feature Selection을 참조하십시오.For an explanation of these scoring methods, see Feature Selection.

SPLIT_METHODSPLIT_METHOD
노드를 분할하는 데 사용되는 메서드를 결정합니다.Determines the method that is used to split the node. 사용할 수 있는 옵션은 다음과 같습니다.The following options are available:

IDID 이름Name
1.1 Binary: 특성의 실제 값 수에 관계없이 트리가 두 개의 분리로 분할됨을 나타냅니다.Binary: Indicates that regardless of the actual number of values for the attribute, the tree should be split into two branches.
22 Complete: 트리에서 특성 값 수만큼의 분할을 만들 수 있음을 나타냅니다.Complete: Indicates that the tree can create as many splits as there are attribute values.
33 Both: 최상의 결과를 생성하기 위해 이진(Both) 분할을 사용할지 완전(Complete) 분할을 사용할지를 Analysis Services에서 결정할 수 있도록 지정합니다.Both: Specifies that Analysis Services can determine whether a binary or complete split should be used to produce the best results.

기본값은 3입니다.The default is 3.

모델링 플래그Modeling Flags

MicrosoftMicrosoft 의사 결정 트리 알고리즘은 다음과 같은 모델링 플래그를 지원합니다.The MicrosoftMicrosoft Decision Trees algorithm supports the following modeling flags. 마이닝 구조나 마이닝 모델을 만들 경우 분석 중 각 열의 값이 처리되는 방법을 지정하기 위해 모델링 플래그를 정의합니다.When you create the mining structure or mining model, you define modeling flags to specify how values in each column are handled during analysis. 자세한 내용은 모델링 플래그(데이터 마이닝)를 참조하세요.For more information, see Modeling Flags (Data Mining).

모델링 플래그Modeling Flag DescriptionDescription
MODEL_EXISTENCE_ONLYMODEL_EXISTENCE_ONLY 열이 MissingExisting상태를 갖는 것으로 간주됩니다.Means that the column will be treated as having two possible states: Missing and Existing. Null은 누락 값입니다.A null is a missing value.

마이닝 모델 열에 적용됩니다.Applies to mining model columns.
NOT NULLNOT NULL 열에 null이 포함될 수 없음을 나타냅니다.Indicates that the column cannot contain a null. 따라서 Analysis Services가 모델 학습 중 Null을 발견할 경우 오류가 발생합니다.An error will result if Analysis Services encounters a null during model training.

마이닝 구조 열에 적용됩니다.Applies to mining structure columns.

의사 결정 트리 모델의 회귀 변수Regressors in Decision Tree Models

MicrosoftMicrosoft 선형 회귀 알고리즘을 사용하지 않는 경우라도 연속 숫자 입력 및 출력을 포함하는 의사 결정 트리 모델에는 연속 특성에 대한 회귀를 나타내는 노드가 포함될 수 있습니다.Even if you do not use the MicrosoftMicrosoft Linear Regression algorithm, any decision tree model that has continuous numeric inputs and outputs can potentially include nodes that represent a regression on a continuous attribute.

연속 숫자 데이터 열이 회귀 변수를 나타내도록 지정할 필요는 없습니다.You do not need to specify that a column of continuous numeric data represents a regressor. 열에 REGRESSOR 플래그를 설정하지 않았더라도 MicrosoftMicrosoft 의사 결정 트리 알고리즘은 자동으로 열을 잠재적 회귀 변수로 사용하고 데이터 집합을 의미 있는 패턴이 있는 영역으로 분할합니다.The MicrosoftMicrosoft Decision Trees algorithm will automatically use the column as a potential regressor and partition the dataset into regions with meaningful patterns even if you do not set the REGRESSOR flag on the column.

그러나 FORCE_REGRESSOR 매개 변수를 사용하면 알고리즘이 항상 특정 회귀 변수를 사용하도록 할 수 있습니다.However, you can use the FORCE_REGRESSOR parameter to guarantee that the algorithm will use a particular regressor. 이 매개 변수는 MicrosoftMicrosoft 의사 결정 트리 알고리즘과 MicrosoftMicrosoft 선형 회귀 알고리즘에서만 사용할 수 있습니다.This parameter can be used only with the MicrosoftMicrosoft Decision Trees and MicrosoftMicrosoft Linear Regression algorithms. 모델링 플래그를 설정하면 알고리즘은 트리의 노드에 패턴을 맞추기 위해 a*C1 + b*C2 + ... 형식의 회귀 수식을 찾으려고 합니다.When you set the modeling flag, the algorithm will try to find regression equations of the form a*C1 + b*C2 + ... to fit the patterns in the nodes of the tree. 잉여에 대한 합계가 계산되며 편차가 너무 클 경우 트리에서 강제로 분할이 수행됩니다.The sum of the residuals is calculated, and if the deviation is too great, a split is forced in the tree.

예를 들어 Income 을 특성으로 사용하여 고객의 구매 행동을 예측하며 열에 REGRESSOR 모델링 플래그를 설정하는 경우 알고리즘은 먼저 표준 회귀 수식을 사용하여 Income 값을 맞추려고 시도합니다.For example, if you are predicting customer purchasing behavior using Income as an attribute, and set the REGRESSOR modeling flag on the column, the algorithm will first try to fit the Income values by using a standard regression formula. 편차가 너무 클 경우 회귀 수식이 중단되고 다른 특성에 따라 트리가 분할됩니다.If the deviation is too great, the regression formula is abandoned and the tree will be split on another attribute. 분할 후 의사 결정 트리 알고리즘은 먼저 각 분기에서 Income에 대한 회귀 변수를 맞추려고 시도합니다.The decision tree algorithm will then try to fit a regressor for income in each of the branches after the split.

요구 사항Requirements

의사 결정 트리 모델은 하나의 키 열, 여러 개의 입력 열 및 하나 이상의 예측 가능한 열을 포함해야 합니다.A decision tree model must contain a key column, input columns, and at least one predictable column.

입력 열과 예측 가능한 열Input and Predictable Columns

MicrosoftMicrosoft 의사 결정 트리 알고리즘은 다음 표에 나열된 특정 입력 열과 예측 가능한 열을 지원합니다.The MicrosoftMicrosoft Decision Trees algorithm supports the specific input columns and predictable columns that are listed in the following table. 마이닝 모델에 사용되는 경우 콘텐츠 형식의 의미에 대한 자세한 내용은 콘텐츠 형식(데이터 마이닝)을 참조하세요.For more information about what the content types mean when used in a mining model, see Content Types (Data Mining).

Column 내용 유형Content types
입력 특성Input attribute Continuous, Cyclical, Discrete, Discretized, Key, Ordered, TableContinuous, Cyclical, Discrete, Discretized, Key, Ordered, Table
예측 가능한 특성Predictable attribute Continuous, Cyclical, Discrete, Discretized, Ordered, TableContinuous, Cyclical, Discrete, Discretized, Ordered, Table

참고

Cyclical 및 Ordered 내용 유형이 지원되기는 하지만 알고리즘은 해당 유형을 불연속 값으로 처리하고 특수한 처리를 수행하지 않습니다.Cyclical and Ordered content types are supported, but the algorithm treats them as discrete values and does not perform special processing.

관련 항목:See Also

Microsoft 의사 결정 트리 알고리즘 Microsoft Decision Trees Algorithm
의사 결정 트리 모델 쿼리 예제 Decision Trees Model Query Examples
의사 결정 트리 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)Mining Model Content for Decision Tree Models (Analysis Services - Data Mining)