의사 결정 트리 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)Mining Model Content for Decision Tree Models (Analysis Services - Data Mining)

적용 대상:예SQL Server Analysis Services아니요Azure Analysis ServicesAPPLIES TO:yesSQL Server Analysis ServicesnoAzure Analysis Services이 설명 하는 사용 하는 모델만 마이닝 모델 콘텐츠에 MicrosoftMicrosoft 의사 결정 트리 알고리즘입니다. This topic describes mining model content that is specific to models that use the MicrosoftMicrosoft Decision Trees algorithm. 모든 모델 유형에 적용되는 마이닝 모델 콘텐츠에 대한 일반적인 설명은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.For a general explanation of mining model content for all model types, see Mining Model Content (Analysis Services - Data Mining). Microsoft 의사 결정 트리 알고리즘은 매우 다양한 함수로 모델을 만들 수 있는 하이브리드 알고리즘이라는 사실을 기억해야 합니다. 의사 결정 트리는 연결, 규칙 또는 선형 회귀를 나타낼 수 있습니다.It is important to remember that The Microsoft Decision Trees algorithm is a hybrid algorithm that can create models with very different functions: a decision tree can represent associations, rules, or even linear regression. 트리의 구조는 기본적으로 동일하지만 정보를 해석하는 방법은 모델을 만든 목적에 따라 달라집니다.The structure of the tree is essentially the same, but how you interpret the information will depend on the purpose for which you created the model.

의사 결정 트리 모델의 구조 이해Understanding the Structure of a Decision Trees Model

의사 결정 트리 모델에는 모델 및 해당 메타데이터를 나타내는 단일 부모 노드가 있습니다.A decision trees model has a single parent node that represents the model and its metadata. 이 부모 노드 아래에는 선택한 예측 가능 특성을 나타내는 독립적인 트리가 있습니다.Underneath the parent node are independent trees that represent the predictable attributes that you select. 예를 들어 고객이 제품을 구매할지 여부를 예측하도록 의사 결정 트리 모델을 설정하고 성별 및 수입에 대한 입력을 제공할 경우, 해당 모델은 성별 및 수입과 관련된 조건에 따라 나뉘는 여러 분기를 사용하여 구매 특성에 대한 단일 트리를 만듭니다.For example, if you set up your decision tree model to predict whether customers will purchase something, and provide inputs for gender and income, the model would create a single tree for the purchasing attribute, with many branches that divide on conditions related to gender and income.

그러나 그 후에 고객 보상 프로그램 참여에 대한 별도의 예측 가능한 특성을 추가하면 해당 알고리즘은 부모 노드 아래에 두 개의 개별 트리를 만듭니다.However, if you then add a separate predictable attribute for participation in a customer rewards program, the algorithm will create two separate trees under the parent node. 한 트리에는 구매에 대한 분석이 들어 있고 다른 트리에는 고객 보상 프로그램에 대한 분석이 들어 있습니다.One tree contains the analysis for purchasing, and another tree contains the analysis for the customer rewards program. 의사 결정 트리 알고리즘을 사용하여 연결 모델을 만드는 경우 이 알고리즘은 예측할 각 제품에 대해 별도의 트리를 만들며, 이 트리에는 대상 특성을 선택하는 데 영향을 주는 다른 모든 제품 조합이 포함됩니다.If you use the Decision Trees algorithm to create an association model, the algorithm creates a separate tree for each product that is being predicted, and the tree contains all the other product combinations that contribute towards selection of the target attribute.

참고

모델에 여러 개의 트리가 포함되어 있는 경우 Microsoft 트리 뷰어에서는 한 번에 하나의 트리만 볼 수 있습니다.If your model includes multiple trees, you can view only one tree at a time in the Microsoft Tree Viewer. 그러나 일반 콘텐츠 트리 뷰어 에서는 동일한 모델의 모든 트리가 동시에 표시됩니다.However, in the Generic Content Tree Viewer , all trees in the same model are displayed at the same time.

의사 결정 트리에 대 한 모델 콘텐츠의 구조structure of model content for decision tree

예측 가능한 각 특성의 트리에는 선택한 입력 열이 예측 가능한 해당 특성의 결과에 미친 영향을 설명하는 정보가 들어 있습니다.The tree for each predictable attribute contains information that describes how the input columns that you choose affect the outcome of that particular predictable attribute. 각 트리의 맨 처음에는 예측 가능한 특성이 포함된 노드(NODE_TYPE = 9)가 있고 그 다음에는 입력 특성을 나타내는 일련의 노드(NODE_TYPE = 10)가 있습니다.Each tree is headed by a node (NODE_TYPE = 9) that contains the predictable attribute, followed by a series of nodes (NODE_TYPE = 10) that represent the input attributes. 특성은 사례 수준 열이나 중첩 테이블 열의 값에 해당합니다. 중첩 테이블 열의 값은 일반적으로 중첩 테이블의 Key 열에 있는 값입니다.An attribute corresponds to either a case-level column or values of nested table columns, which are generally the values in the Key column of the nested table.

내부 및 리프 노드는 분할 조건을 나타냅니다.Interior and leaf nodes represent split conditions. 동일한 특성에 따라 트리가 여러 번 분할될 수 있습니다.A tree can split on the same attribute multiple times. 예를 들어 TM_DecisionTree 모델은 [Yearly Income] 및 [Number of Children]에 따라 분할된 다음 트리의 보다 하위 수준에서 [Yearly Income]에 따라 다시 분할될 수 있습니다.For example, the TM_DecisionTree model might split on [Yearly Income] and [Number of Children], and then split again on [Yearly Income] further down the tree.

Microsoft 의사 결정 트리 알고리즘에는 트리의 일부 또는 전체에 있는 선형 회귀가 포함될 수도 있습니다.The Microsoft Decision Trees algorithm can also contain linear regressions in all or part of the tree. 모델링하려는 특성이 연속 숫자 데이터 형식인 경우 해당 모델은 특성 간의 관계를 선형으로 모델링할 수 있는 모든 위치에서 회귀 트리 노드(NODE_TYPE = 25)를 만들 수 있습니다.If the attribute that you are modeling is a continuous numeric data type, the model can create a regression tree node (NODE_TYPE = 25) wherever the relationship between the attributes can be modeled linearly. 이 경우 노드에는 회귀 수식이 포함됩니다.In this case, the node contains a regression formula.

그러나 예측 가능한 특성에 불연속 값이 있거나 숫자 값이 버킷팅 또는 불연속화된 경우 해당 모델은 항상 분류 트리(NODE_TYPE =2)를 만듭니다.However, if the predictable attribute has discrete values, or if numeric values have been bucketed or discretized, the model always creates a classification tree (NODE_TYPE =2). 분류 트리에는 특성의 각 값에 대한 여러 개의 분기 또는 내부 트리 노드(NODE_TYPE =3)가 있을 수 있습니다.A classification tree can have multiple branches or interior tree nodes (NODE_TYPE =3) for each value of the attribute. 그러나 특성의 각 값에 따른 분할은 필요하지 않습니다.However, the split is not necessarily on each value of the attribute.

Microsoft 의사 결정 트리 알고리즘에서는 연속 데이터 형식을 입력으로 사용할 수 없으므로 열에 연속 숫자 데이터 형식이 있는 경우 해당 값은 불연속화됩니다.The Microsoft Decision Trees algorithm does not allow continuous data types as inputs; therefore, if any columns have a continuous numeric data type, the values are discretized. 알고리즘은 모든 연속 특성에 대해 분할 지점에서 해당 알고리즘 방식의 분할을 수행합니다.The algorithm performs its own discretization at the point of a split for all continuous attributes.

참고

Analysis ServicesAnalysis Services연속 특성을 버킷 팅;에 대 한 메서드를 자동으로 선택 그러나 입력의 방법을 연속 값을 제어할 수 있습니다에 마이닝 구조 열의 내용 유형을 설정 하 여 분할 Discretized 로 설정한 다음는 DiscretizationBucketCount 또는 DiscretizationMethod 속성입니다. automatically chooses a method for bucketing continuous attributes; however, you can control how continuous values in the inputs are discretized by setting the content type of the mining structure column to Discretized and then setting the DiscretizationBucketCount or DiscretizationMethod property.

TopTop

의사 결정 트리 모델에 대한 모델 콘텐츠Model Content for a Decision Trees Model

이 섹션에서는 의사 결정 트리 모델과 특별히 관련된 마이닝 모델 콘텐츠 열에 대한 세부 정보 및 예만 제공합니다.This section provides details and examples only for those columns in the mining model content that have particular relevance for decision trees models. 스키마 행 집합의 범용 열에 대한 자세한 내용 및 마이닝 모델 용어에 대한 설명은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.For information about general-purpose columns in the schema rowset, and explanations of mining model terminology, see Mining Model Content (Analysis Services - Data Mining).

MODEL_CATALOGMODEL_CATALOG
모델이 저장되는 데이터베이스의 이름입니다.Name of the database where the model is stored.

MODEL_NAMEMODEL_NAME
모델의 이름입니다.Name of the model.

ATTRIBUTE_NAMEATTRIBUTE_NAME
이 노드에 해당하는 특성의 이름입니다.Name of the attribute that corresponds to this node.

NODE_NAMENODE_NAME
항상 NODE_UNIQUE_NAME과 같습니다.Always same as NODE_UNIQUE_NAME.

NODE_UNIQUE_NAMENODE_UNIQUE_NAME
모델 내의 노드에 대한 고유 식별자입니다.A unique identifier for the node within the model. 이 값은 변경할 수 없습니다.This value cannot be changed.

의사 결정 트리 모델의 경우 고유 이름은 다음 규칙을 따릅니다. 이 규칙은 일부 알고리즘에는 적용되지 않습니다.For decision tree models, the unique names follow the following convention, which does not apply to all algorithms:

특정 노드의 자식 노드에는 모두 동일한 16진수 접두사가 있고 그 다음에는 부모 내의 자식 노드 시퀀스를 나타내는 16진수가 하나 더 있습니다.The child nodes of any particular node will all have the same hexadecimal prefix, followed by another hexadecimal number that represents the sequence of the child node within the parent. 이 접두사를 통해 경로를 유추할 수 있습니다.You can use the prefixes to infer a path.

NODE_TYPENODE_TYPE
의사 결정 트리 모델에서는 다음과 같은 노드 유형이 만들어집니다.In decision tree models, the following types of nodes are created:

노드 유형Node Type DescriptionDescription
1(모델)1 (Model) 모델의 루트 노드입니다.Root node for model.
2(트리)2 (Tree) 모델의 분류 트리에 대한 부모 노드입니다.Parent node for classification trees in the model. "All"이라는 레이블이 표시됩니다.Labeled "All".
3(내부)3 (Interior) 내부 분기의 헤드로서, 분류 트리 또는 회귀 트리 내에 있습니다.Head of interior branch, found within in a classification tree or regression tree.
4(분포)4 (Distribution) 리프 노드로서, 분류 트리 또는 회귀 트리 내에 있습니다.Leaf node, found within a classification tree or regression tree.
25(회귀 트리)25 (Regression tree) 모델 내에 있는 회귀 트리의 부모 노드입니다.Parent node for regression tree within the model. "All"이라는 레이블이 표시됩니다.Labeled as "All".

NODE_CAPTIONNODE_CAPTION
표시 이름입니다.A friendly name for display purposes.

모델을 만들 때 NODE_UNIQUE_NAME의 값이 자동으로 캡션으로 사용됩니다.When you create a model, the value of NODE_UNIQUE_NAME is automatically used as the caption. 그러나 NODE_CAPTION의 값을 변경하여 클러스터의 표시 이름을 프로그래밍 방식으로 업데이트하거나 뷰어를 통해 업데이트할 수 있습니다.However, you can change the value for NODE_CAPTION to update the display name for the cluster, either programmatically or by using the viewer. 캡션은 모델에서 자동으로 생성됩니다.The caption is automatically generated by the model. 캡션의 내용은 모델 유형과 노드 유형에 따라 달라집니다.The content of the caption depends on the type of model, and the node type.

의사 결정 모델에서 NODE_CAPTION 및 NODE_DESCRIPTION에는 트리에서의 수준에 따라 서로 다른 정보가 포함됩니다.In a decision trees model, the NODE_CAPTION and the NODE_DESCRIPTION have different information, depending on the level in the tree. 자세한 내용과 예는 노드 캡션 및 노드 설명을 참조하세요.For more information and examples, see Node Caption and Node Description.

CHILDREN_CARDINALITYCHILDREN_CARDINALITY
노드에 있는 예상 자식 수입니다.An estimate of the number of children that the node has.

부모 노드 모델링된 예측 가능한 특성의 수를 나타냅니다.Parent node Indicates the number of predictable attributes that were modeled. 예측 가능한 각 특성에 대해 트리가 하나씩 만들어집니다.A tree is created for each predictable attribute.

트리 노드 각 트리의 All 노드는 대상 특성에 사용된 값의 수를 나타냅니다.Tree node The All node for each tree tells you how many values were used for the target attribute.

  • 대상 특성이 불연속 특성이면 해당 값은 고유 값의 수에 Missing 상태에 대한 1을 더한 값과 같습니다.If the target attribute is discrete, the value equals the number of distinct values plus 1 for the Missing state.

  • 예측 가능한 특성이 연속 특성이면 해당 값은 연속 특성을 모델링하는 데 사용된 버킷 수를 나타냅니다.If the predictable attribute is continuous, the value tells you how many buckets were used to model the continuous attribute.

    리프 노드 항상 0입니다.Leaf nodes Always 0.

    PARENT_UNIQUE_NAMEPARENT_UNIQUE_NAME
    노드 부모의 고유한 이름입니다.The unique name of the node's parent. 루트 수준의 모든 노드에 대해서 NULL이 반환됩니다.NULL is returned for any nodes at the root level.

    NODE_DESCRIPTIONNODE_DESCRIPTION
    노드에 대한 설명입니다.A description of the node.

    의사 결정 모델에서 NODE_CAPTION 및 NODE_DESCRIPTION에는 트리에서의 수준에 따라 서로 다른 정보가 포함됩니다.In a decision trees model, the NODE_CAPTION and the NODE_DESCRIPTION have different information, depending on the level in the tree.

    자세한 내용과 예는 노드 캡션 및 노드 설명을 참조하세요.For more information and examples, see Node Caption and Node Description.

    NODE_RULENODE_RULE
    바로 위의 부모 노드에서 현재 노드까지의 경로를 설명하는 규칙의 XML 설명입니다.An XML description of the rule that describes the path to the current node from its immediate parent node.

    자세한 내용과 예는 노드 규칙 및 한계 규칙을 참조하세요.For more information and examples, see Node Rule and Marginal Rule.

    MARGINAL_RULEMARGINAL_RULE
    모델 부모 노드에서 현재 노드까지의 경로를 설명하는 규칙의 XML 설명입니다.An XML description of the rule that describes the path from the model parent node to the current node.

    자세한 내용은 노드 규칙 및 한계 규칙을 참조하세요.For more information, see Node Rule and Marginal Rule.

    NODE_PROBABILITYNODE_PROBABILITY
    이 노드와 관련된 확률입니다.The probability associated with this node.

    자세한 내용은 확률을 참조하세요.For more information, see Probability.

    MARGINAL_PROBABILITYMARGINAL_PROBABILITY
    부모 노드에서 해당 노드에 도달할 확률입니다.The probability of reaching the node from the parent node.

    자세한 내용은 확률을 참조하세요.For more information, see Probability.

    NODE_DISTRIBUTIONNODE_DISTRIBUTION
    노드의 확률 히스토그램을 포함하는 테이블입니다.A table that contains the probability histogram of the node. 이 테이블의 정보는 예측 가능한 특성이 연속 변수인지 불연속 변수인지에 따라 달라집니다.The information in this table differs depending on whether the predictable attribute is a continuous or discrete variable.

    모델 루트 노드 이 테이블은 비어 있습니다.Model root node This table is empty.

    (All) 노드 모델 전체에 대한 요약을 포함합니다.(All) node Contains a summary for the model as a whole.

    내부 노드 리프 노드에 대해 집계된 통계를 포함합니다.Interior node Contains aggregated statistics for its leaf nodes.

    리프 노드 경로의 모든 조건이 현재 리프 노드를 가리키는 경우 예측된 결과에 대한 지지도 및 확률을 포함합니다.Leaf node Contains support and probability for the predicted outcomes given all the conditions in the path leading to the current leaf node.

    회귀 노드 입력과 예측 가능한 특성 간의 관계를 나타내는 회귀 수식을 포함합니다.Regression node Contains regression formula that represents the relationship between the inputs and the predictable attribute.

    자세한 내용은 불연속 특성의 노드 분포연속 특성의 노드 분포를 참조하세요.For more information, see Node Distribution for Discrete Attributes and Node Distribution for Continuous Attributes.

    NODE_SUPPORTNODE_SUPPORT
    이 노드를 지지하는 사례 수입니다.The number of cases that support this node.

    MSOLAP_MODEL_COLUMNMSOLAP_MODEL_COLUMN
    예측 가능한 특성이 포함된 열을 나타냅니다.Indicates the column that contains the predictable attribute.

    MSOLAP_NODE_SCOREMSOLAP_NODE_SCORE
    노드와 연관된 점수를 표시합니다.Displays a score associated with the node. 자세한 내용은 노드 점수를 참조하세요.For more information, see Node Score.

    MSOLAP_NODE_SHORT_CAPTIONMSOLAP_NODE_SHORT_CAPTION
    표시용 레이블입니다.A label used for display purposes.

주의Remarks

Naive Bayes 또는 신경망 모델에 있는 한계 통계 노드와 달리 의사 결정 트리 모델에는 모델 전체에 대한 통계를 저장하는 별도의 노드가 없습니다.A decision trees model does not have a separate node that stores statistics for the entire model, unlike the marginal statistics node found in a Naive Bayes or neural network model. 대신 이 모델은 예측 가능한 각 특성에 대해 별도의 트리를 만들며 이 트리의 최상위에는 (All) 노드가 있습니다.Instead, the model creates a separate tree for each predictable attribute, with an (All) node at the top of the tree. 각 트리는 서로 독립적입니다.Each tree is independent of the others. 모델에 예측 가능한 특성이 하나만 있는 경우에는 트리가 하나뿐이므로 (All) 노드도 하나만 있습니다.If your model contains only one predictable attribute, there is only one tree, and therefore only one (All) node.

출력 특성을 나타내는 각 트리는 추가적으로 분할을 나타내는 내부 분기(NODE_TYPE = 3)로 세분화됩니다.Each tree that represents an output attribute is additionally subdivided into interior branches (NODE_TYPE = 3) that represent splits. 이러한 각 트리에는 대상 특성의 분포에 대한 통계가 들어 있습니다.Each of these trees contains statistics about the distribution of the target attribute. 또한 각 리프 노드(NODE_TYPE = 4)에는 입력 특성과 해당 값을 설명하는 통계가 각 특성-값 쌍을 지원하는 사례 수와 함께 들어 있습니다.In addition, each leaf node (NODE_TYPE = 4) contains statistics that describe input attributes and their values, together with the number of cases in support of each attribute-value pair. 따라서 의사 결정 트리의 분기에서는 원본 데이터를 쿼리하지 않고도 데이터의 확률 또는 분포를 쉽게 볼 수 있습니다.Therefore, in any branch of a decision tree, you can view the probabilities or the distribution of data easily without having to query the source data. 트리의 각 수준은 반드시 바로 아래에 있는 자식 노드의 합계를 나타냅니다.Each level of the tree necessarily represents the sum of its immediate child nodes.

이러한 통계를 검색하는 방법에 대한 예제는 의사 결정 트리 모델 쿼리 예제를 참조하세요.For examples of how to retrieve these statistics, see Decision Trees Model Query Examples.

TopTop

의사 결정 트리 구조의 예Example of Decision Tree Structure

의사 결정 트리의 작동 방식을 이해하기 위해 AdventureWorks 자전거 구매 고객 시나리오와 같은 예를 살펴보세요.To understand how a decision tree works, consider an example, such as the AdventureWorks bike buyer scenario. 예측 가능한 특성이 고객 구매 기록이라고 가정하면 의사 결정 트리 알고리즘에서는 사용자가 제공한 모든 입력 중에서 자전거를 구매할 가능성이 있는 고객과 구매할 가능성이 없는 고객을 가장 효율적으로 검색하는 하나의 데이터 열을 찾으려고 합니다.Assuming that the predictable attribute is customer purchases, the decision trees algorithm tries to find one column of data, among all the inputs that you provided, that most effectively detects the customers that are likely to purchase a bike and those who are unlikely to buy a bike. 예를 들어 모델에서는 나이가 구매 행동을 가장 잘 나타내는 지표임을 찾아낼 수 있습니다.For example, the model might find that Age is the best indicator of purchasing behavior. 특히 30세 이상의 고객은 자전거를 구매할 가능성이 매우 높고 다른 모든 고객은 구매 가능이 낮습니다.Specifically, that the customers over the age of 30 are very likely to purchase a bike, and all other customers are unlikely to make a purchase. 이 시나리오에서 모델은 나이 특성에 대한 분할 을 만듭니다.In this scenario, the model creates a split on the Age attribute. 즉, 트리는 두 개의 분기로 나뉩니다. 한 분기에는 30세 이상의 고객이 포함되고 다른 분기에는 30세 미만의 고객이 포함됩니다.That means that the tree divides into two branches, one containing customers over the age of 30, and the other containing customers under 30. 새 분기는 모델 구조에서 두 개의 새 내부 트리(NODE_TYPE = 3)로 표현됩니다.The new branches are represented in the model structure as two new interior trees (NODE_TYPE = 3).

각 분기에 대해 모델은 고객을 차별화하는 데 사용할 추가 특성을 계속해서 찾습니다.For each branch, the model continues to look for additional attributes to use in differentiating customers. 데이터에 하위 고객 그룹을 계속 만들 수 있는 충분한 근거가 없으면 모델은 트리 작성을 중지합니다.If there is insufficient evidence in the data to continue creating subgroups of customers, the model stops building the tree. 또한 모델은 분할의 적정성이나 값이 Null인지 아니면 누락되었는지 여부에 관계없이 노드의 사례 수가 너무 적어 계속할 수 없을 때마다 트리 작성을 중지합니다.The model will also stop building the tree whenever the number of cases in the node is too small to continue, regardless of how good the split is, or if the value is null or missing. 트리가 늘어나는 것을 일찌감치 중지하면 모델이 하나의 특정 데이터 집합에 너무 밀접하게 학습되는 것을 방지할 수 있습니다.By stopping the growth of the tree early, you prevent the model from training too closely to one particular set of data.

각 내부 트리 노드에는 현재 분류 결과에 대해 결과 분석을 제공하는 리프 노드가 포함됩니다.Each interior tree node contains leaf nodes that provide a breakdown of the outcomes given the current classification results. 예를 들어 Age >= 30 및 Gender = Male을 나타내는 내부 노드가 있을 수 있습니다.For example, you might have an interior node that represents Age >= 30 and Gender = Male. 이 그룹의 노드는 이 범주에서 제품을 구매한 고객 또는 구매하지 않은 고객의 수를 보여 줍니다.The node for this group shows you how many customers in this category purchased or did not purchase something. 예를 들어 분류 트리는 다음과 같은 트리로 분할될 수 있습니다.For example, the classification might contain the following tree splits:

내부 트리Interior tree 분할Split
Age >= 30Age >= 30 Age >= 30 and Gender = MaleAge >= 30 and Gender = Male
Age >= 30 and Gender = FemaleAge >= 30 and Gender = Female
Age < 30Age < 30 Age < 30 and Gender = MaleAge < 30 and Gender = Male
Age < 30 and Gender = FemaleAge < 30 and Gender = Female

예측에 의사 결정 트리 모델을 사용할 경우 모델에서는 사용자가 제공한 특성을 인수로 사용하고 특성의 경로를 따라 트리의 하위 수준으로 이동합니다.When you use a decision tree model for prediction, the model takes the attributes that you provide to it as arguments and follows the path of the attributes down through the tree. 일반적으로 모든 예측은 리프로 이동하고 내부 노드는 분류에만 사용됩니다.In general, all predictions go to a leaf, and the interior nodes are used only for classification.

리프 노드는 항상 NODE_TYPE이 4(분포)이며 사용자가 제공한 특성에 대해 각 결과(구매 또는 구매 안 함)의 확률을 보여 주는 히스토그램을 포함합니다.A leaf node always has a NODE_TYPE of 4 (Distribution) and contains a histogram that tells the probability of each outcome (purchase or not purchase) given the attributes you provide. 예를 들어 60세 이상의 남성인 새 고객에 대한 예측을 요청할 경우 모델에서는 해당 노드(Age > 30 and Gender = Male)를 조회한 다음 사용자가 지정한 결과에 대한 확률을 반환합니다.For example, if you ask for a prediction for a new customer who is a male over 60, the model will look up the corresponding node (Age > 30 and Gender = Male) and then return the probability for the outcome that you specify. 이러한 확률은 노드의 NODE_DISTRIBUTION 테이블에 저장됩니다.These probabilities are stored in the NODE_DISTRIBUTION table for the node.

예측 가능한 특성이 연속 숫자인 경우 알고리즘에서는 예측 가능한 특성과 입력 간의 관계를 모델링하는 회귀 수식을 만듭니다.If the predictable attribute is a continuous number, the algorithm tries to create a regression formula that models the relationship between the predictable attribute and the inputs.

TopTop

노드 캡션 및 노드 설명Node Caption and Node Description

의사 결정 트리 모델에서 노드 캡션과 노드 설명에는 비슷한 정보가 포함됩니다.In a decision tree model, the node caption and node description contain similar information. 그러나 노드 설명은 보다 완전하며 리프 노드에 근접하게 이동할수록 더 많은 정보를 포함합니다.However, the node description is more complete and contains more information as you move closer to the leaf nodes. 노드 캡션과 노드 설명은 모두 지역화된 문자열입니다.Both the node caption and node description are localized strings.

NODE_CAPTIONNODE_CAPTION 특정 노드를 부모 노드를 기준으로 구별하는 특성을 표시합니다.Displays the attribute that distinguishes that particular node relative to the parent node. 노드 캡션은 분할 조건을 기반으로 모집단의 하위 세그먼트를 정의합니다.The node caption defines a sub-segment of the population based the split condition. 예를 들어 분할이 [Age]에 따라 이루어지며 3방향 분할인 경우 세 개의 자식 노드에 대한 노드 캡션은 "[Age] < 40", "40 <= [Age] < 50", "[Age] >= 50"일 수 있습니다.For example, if the split was on [Age] and it was a three-way split, the node captions for the three child nodes might be "[Age] < 40", "40 <= [Age] < 50", "[Age] >= 50".
NODE_DESCRIPTIONNODE_DESCRIPTION 모델 부모 노드에서 시작하여 해당 노드를 다른 노드와 구별해 주는 특성의 전체 목록을 포함합니다.Contains a full list of the attributes that distinguish that node from other nodes, starting from the model parent node. 예를 들어 Product name = Apple 및 Color = Red 특성이 있습니다.For example, Product name = Apple and Color = Red.

위쪽Top

노드 규칙 및 한계 규칙Node Rule and Marginal Rule

NODE_RULE 및 MARGINAL_RULE 열은 NODE_CAPTION 및 NODE_DESCRIPTION 열과 동일한 정보를 포함하지만 정보는 XML 조각으로 표현됩니다.The NODE_RULE and MARGINAL_RULE columns contain the same information as the NODE_CAPTION and NODE_DESCRIPTION columns, but represent the information as XML fragments. 노드 규칙은 전체 경로의 XML 버전인 반면 한계 규칙은 가장 최근의 분할을 나타냅니다.The node rule is an XML version of the full path, whereas the marginal rule indicates the most recent split.

XML 조각으로 표현되는 특성은 단순한 특성이거나 복잡한 특성일 수 있습니다.The attribute represented by the XML fragment can be either simple or complex. 단순한 특성에는 모델 열의 이름과 특성 값이 포함됩니다.A simple attribute contains the name of the model column, and the value of the attribute. 모델 열에 중첩 테이블이 들어 있는 경우 중첩 테이블 특성은 테이블 이름, 키 값 및 특성의 연결로 표현됩니다.If the model column contains a nested table, the nested table attribute is represented as a concatenation of the table name, the key value, and the attribute.

참고

SQL ServerSQL Server Analysis ServicesAnalysis Services에서는 중첩 테이블 사용을 지원하는 확장과 함께 2.0 버전의 PMML 표준을 지원합니다. Analysis ServicesAnalysis Services supports version 2.0 of the PMML standard, with extensions to support the use of nested table. 데이터에 중첩 테이블이 들어 있는 경우 PMML 버전의 모델을 생성하면 해당 모델에서 조건자가 포함된 모든 요소는 확장으로 표시됩니다.If your data contains nested tables and you generate a PMML version of the model, all elements in the model that include the predicates are marked as an extension.

TopTop

불연속 특성의 노드 분포Node Distribution for Discrete Attributes

의사 결정 트리 모델에서 NODE_DISTRIBUTION 테이블에는 유용한 통계가 들어 있습니다.In a decision trees model, the NODE_DISTRIBUTION table contains useful statistics. 그러나 통계의 유형은 트리가 불연속 특성을 예측하는지 연속 특성을 예측하는지에 따라 달라집니다.However, the type of statistics depends on whether the tree predicts a discrete or continuous attribute. 이 섹션에서는 불연속 특성에 대한 노드 분포 통계의 의미를 설명합니다.This section describes the meaning of the node distribution statistics for discrete attributes.

특성 이름 및 특성 값Attribute Name and Attribute Value

분류 트리에서 특성 이름에는 항상 예측 가능한 열의 이름이 들어 있습니다.In a classification tree, the attribute name always contains the name of the predictable column. 이 값은 트리가 예측하는 내용을 알려 줍니다.This value tells you what the tree predicts. 단일 트리는 항상 예측 가능한 단일 특성을 나타내므로 이 값은 트리 전체에서 반복됩니다.Because a single tree always represents a single predictable attribute, this value is repeated throughout the tree.

불연속 데이터 형식의 경우 특성 값 필드에는 예측 가능한 열의 가능한 값과 Missing 값이 나열됩니다.For a discrete data type, the attribute value field lists the possible values of the predictable column, plus the Missing value.

지원Support

각 노드의 지지도 값은 이 노드에 포함된 사례 수를 나타냅니다.The support value for each node tells you how many cases are included in this node. (All) 수준에서는 모델을 학습하는 데 사용된 사례의 총 수가 표시됩니다.At the (All) level, you should see the complete count of cases that were used to train the model. 트리에 있는 각 분할의 경우 지지도 값은 트리의 해당 노드로 그룹화된 사례 수입니다.For each split in the tree, the support value is the count of cases that were grouped into that node of the tree. 리프 노드에 있는 사례의 합계는 반드시 트리의 부모 노드에 있는 사례 수와 같습니다.The sum of cases in the leaf nodes necessarily equals the count of cases in the parent node of the tree.

연속 특성을 나타내는 노드의 경우 데이터에 Null이 있으면 예상치 않은 결과가 발생할 수 있습니다.For nodes that represent continuous attributes, the presence of nulls in the data might lead to some counterintuitive results. 예를 들어 m개의 사례가 있는 경우 평균값은 합계(모든 사례)/n으로 계산됩니다. 여기서 n은 m보다 작은 숫자이고 m-n은 누락 값이 있는 사례의 수를 나타냅니다.For example, if there are m cases, a mean value would be calculated as sum(all cases)/n, where n is a number less than m, and m-n indicates the count of cases with missing values. 지지도는 n으로도 표현됩니다.Support is also represented as n.

ProbabilityProbability

각 노드와 관련된 확률은 전체 데이터 집합의 사례가 해당 노드에 포함될 확률을 나타냅니다.The probability associated with each node tells you the probability that any case in the whole data set would end up in this particular node. 확률 점수는 트리 전체와 바로 아래의 분할 모두에 대해 계산됩니다.Probability scores are computed both for the tree as a whole, and for the immediate split.

예를 들어 다음 표에서는 100개의 사례가 있는 매우 간단한 모델을 보여 줍니다.For example, the following table shows a very simple model, with 100 cases.

내부 트리Interior tree 사례Cases 리프 노드Leaf node 사례Cases 부모 노드에 상대적인 확률Probability relative to parent node 최상위 노드에 상대적인 확률Probability relative to top node
Age >= 30Age >= 30 6060 Age >= 30 and Gender = MaleAge >= 30 and Gender = Male 5050 50/60 = .8350/60 = .83 50/100 = .550/100 = .5
Age >= 30 and Gender = FemaleAge >= 30 and Gender = Female 1010 10/60 = .1610/60 = .16 10/100 = .1010/100 = .10
Age < 30Age < 30 4040 Age < 30 and Gender = MaleAge < 30 and Gender = Male 3030 30/40 = .7530/40 = .75 30/100 = .3030/100 = .30
Age < 30 and Gender = FemaleAge < 30 and Gender = Female 1010 10/40 = .2510/40 = .25 10/100 = .1010/100 = .10

모든 모델에서 가능한 누락 값을 설명하기 위해 약간의 조정이 이루어집니다.A small adjustment is made in all models to account for possible missing values. 연속 특성의 경우 각 값 또는 값의 범위로 표현 되는 상태 (예를 들어 Age <30 일의 보존 기간 = 30 및 Age > 30) 및 확률은 다음과 같이 계산 됩니다: 상태가 존재 (값 = 1), 다른 상태가 존재 (값 = 0), 상태는 누락 된합니다.For continuous attributes, each value or range of values is represented as a state (for example, Age <30, Age = 30, and Age >30) and the probabilities are calculated as follows: state exists (value = 1), some other state exists (value = 0), state is Missing. 누락 값을 나타내기 위해 확률을 조정하는 방법에 대한 자세한 내용은 누락 값(Analysis Services - 데이터 마이닝)을 참조하세요.For more information about how probabilities are adjusted to represent missing values, see Missing Values (Analysis Services - Data Mining).

각 노드에 대한 확률은 다음과 같이 분포에서 거의 직접 계산됩니다.The probabilities for each node are calculated almost directly from the distribution, as follows:

확률 = (상태에 대한 지지도 + 이전 상태에 대한 지지도) / (노드 지지도 + 이전 노드 지지도)Probability = (support for state + support for prior state) / (node support plus the prior node support)

Analysis ServicesAnalysis Services 에서는 각 노드에 대한 확률을 사용하여 저장된 확률과 이전 확률을 비교함으로써 부모 노드에서 자식 노드까지의 경로가 강한 유추를 나타내는지 확인합니다. uses probabilities for each node to compare the stored probability with the prior probability to determine whether the path from the parent to the child node indicates a strong inference.

예측을 만들 때는 분포 확률과 노드 확률의 균형이 맞도록 확률을 조정해야 합니다.When making predictions, the probability of the distribution must be balanced with the probability of the node, to smoothen the probabilities. 예를 들어 트리의 분할이 사례를 9000/1000 비율로 나누는 경우 이 트리는 매우 불균형적입니다.For example, if a split in the tree separates cases by a ratio of 9000/1000, the tree is very unbalanced. 따라서 작은 분기에서 얻은 예측과 여러 사례가 있는 분기에서 얻은 예측에 동일한 가중치가 적용되어서는 안 됩니다.As a result, a prediction coming from the small branch should not carry the same weight as a prediction coming from a branch with many cases.

VarianceVariance

분산은 샘플의 값이 예상 분포를 기준으로 얼마나 넓게 분산되어 있는지를 측정한 것입니다.Variance is a measure of how scattered values in a sample are, given an expected distribution. 불연속 값의 경우 분산은 정의에 따라 0입니다.For discrete values, the variance is 0 by definition.

연속 값에 대해 분산을 계산하는 방법에 대한 자세한 내용은 선형 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.For information about how variance is calculated for continuous values, see Mining Model Content for Linear Regression Models (Analysis Services - Data Mining).

값 유형Value Type

값 유형 열에서는 NODE_DISTRIBUTION 테이블의 다른 열에 제공된 숫자 값의 의미에 대한 정보를 제공합니다.The value type column provides information about the meaning of the numeric value provided in the other columns in the NODE_DISTRIBUTION table. 쿼리에 값 유형을 사용하여 중첩 테이블에서 특정 행을 검색할 수 있습니다.You can use the value type in queries to retrieve specific rows from the nested tables. 예를 들어 의사 결정 트리 모델 쿼리 예제를 참조하세요.For examples, see Decision Trees Model Query Examples.

MiningValueType 열거형의 유형 중 다음 유형이 분류 트리에 사용됩니다.Of the types in the MiningValueType enumeration, the following are used in classification trees.

값 유형Value type DescriptionDescription
1(누락)1 (Missing) 누락 값과 관련된 개수, 확률 또는 기타 통계를 나타냅니다.Indicates a count, probability, or other statistic related to missing values.
4 (Discrete)4 (Discrete) 불연속 또는 불연속화된 값과 관련된 개수, 확률 또는 기타 통계를 나타냅니다.Indicates a count, probability, or other statistic related to a discrete or discretized value.

모델에 예측 가능한 연속 특성이 포함된 경우 트리에도 회귀 수식에 고유한 값 유형이 포함될 수 있습니다.If the model includes a continuous predictable attribute, the tree might also contain value types that are unique to regression formulas. 회귀 트리에서 사용되는 값 형식 목록은 선형 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.For a list of the value types that are used in regression trees, see Mining Model Content for Linear Regression Models (Analysis Services - Data Mining).

노드 점수Node Score

노드 점수는 트리의 각 수준에서 조금씩 다른 정보를 나타냅니다.The node score represents slightly different information at each level of the tree. 일반적으로 점수는 조건에 따라 분할함으로써 분할이 얼마나 적절하게 이루어졌는지를 나타내는 숫자 값입니다.In general, the score is a numeric value that tells you how good a split was achieved by splitting on the condition. 값은 double 형식으로 나타나며 값이 높을수록 분할이 적절한 것입니다.The value is represented as a double, where a higher value is better.

정의에 따라 모델 노드와 모든 리프 노드의 노드 점수는 0입니다.By definition, the model node and all leaf nodes have a node score of 0.

각 트리의 최상위를 나타내는 (All) 노드의 경우 MSOLAP_NODE_SCORE 열에는 트리 전체에서 최상의 분할 점수가 들어 있습니다.For the (All) node that represents the top of each tree, the MSOLAP_NODE_SCORE column contains the best split score in the whole tree.

리프 노드를 제외한 트리의 다른 모든 노드의 경우 각 노드의 점수는 현재 노드에 대한 최상의 분할 점수에서 부모 노드의 분할 점수를 뺀 값을 나타냅니다.For all other nodes in the tree (except leaf nodes), the score for each node represents the best split score for the current node, minus the split score for the parent node. 일반적으로 부모 노드의 분할 점수는 항상 자식 노드의 분할 점수보다 높아야 합니다.Typically, the split score for a parent node should always be better than the split score on any one of its child nodes. 의사 결정 트리 모델에서는 먼저 가장 중요한 특성에 따라 분할하기 때문입니다.That is because a decision trees model ideally splits on the most important attributes first.

선택하는 알고리즘 매개 변수에 따라 여러 가지 방법으로 분할 점수를 계산할 수 있습니다.There are many ways of calculating a score for a split, depending on the algorithm parameter you choose. 각 점수 매기기 방법에서 점수가 계산되는 방식에 대한 설명은 이 항목에서 다루지 않습니다.A discussion of how the scores are calculated for each of the scoring methods is beyond the scope of this topic. 자세한 내용은Research 웹 사이트의 "Bayesian 네트워크 학습: 지식 및 통계 데이터의 조합(Learning Bayesian Networks: The Combination of Knowledge and Statistical Data) MicrosoftMicrosoft "을 참조하세요.For more information, see "Learning Bayesian Networks: The Combination of Knowledge and Statistical Data", on the MicrosoftMicrosoft Research Web site.

참고

연속 및 불연속 예측 가능 특성이 모두 있는 의사 결정 트리 모델을 만드는 경우 각 트리 유형을 나타내는 (All) 노드에는 완전히 다른 점수가 표시됩니다.If you create a decision trees model that has both continuous and discrete predictable attributes, you will see completely different scores in the (All) nodes that represent each tree type. 각 모델은 독립적으로 간주되며 회귀 평가에 사용되는 방법은 분류 평가에 사용되는 방법과 완전히 다릅니다.Each model should be considered independently, and the methods used for scoring regression are completely different from those used for scoring classification. 따라서 노드 점수 값을 비교할 수 없습니다.The node score values cannot be compared.

TopTop

의사 결정 트리 모델 내의 회귀 노드Regression Nodes within a Decision Tree Model

의사 결정 트리 모델에 예측 가능한 특성과 연속 숫자 데이터가 있는 경우 Microsoft 의사 결정 트리 알고리즘은 데이터에서 예측된 상태와 입력 변수 간의 관계가 선형적인 영역을 찾으려고 합니다.If a decision trees model contains a predictable attribute with continuous numeric data, the Microsoft Decision Trees algorithm seeks to find areas in the data where the relationship between the predicted state and the input variables is linear. 선형 관계를 찾는 데 성공할 경우 알고리즘은 선형 회귀를 나타내는 특수한 트리(NODE_TYPE = 25)를 만듭니다.If the algorithm is successful in finding a linear relationship, it creates a special tree (NODE_TYPE = 25) that represents a linear regression. 이러한 회귀 트리 노드는 불연속 값을 나타내는 노드보다 복잡합니다.These regression tree nodes are more complex than nodes that represent discrete values.

일반적으로 회귀는 연속 종속 변수(예측 가능한 변수)의 변화를 입력의 변화에 대한 함수로 매핑합니다.In general, a regression maps the changes in the continuous dependent (predictable variable) as a function of changes in the inputs. 종속 변수에 연속 입력이 있고 입력과 예측된 값 간의 관계가 꺾은선형 그래프로 처리할 수 있을 만큼 안정적이면 회귀의 노드에 수식이 포함됩니다.If the dependent variable has any continuous inputs, and the relationship between the input and predicted value is stable enough to be computed as a line graph, the node for the regression contains a formula.

그러나 입력과 예측된 값 간의 관계가 비선형적인 경우에는 표준 의사 결정 트리와 같은 방식으로 분할이 만들어집니다.However, if the relationship between the input and predicted value is nonlinear, a split is created instead, just like a standard decision tree. 예를 들어 A가 예측 가능한 특성이고 B 및 C는 입력이며 이때 C는 연속 값 유형이라고 가정합니다.For example, assume that A is the predictable attribute, and B and C are the inputs, where C is a continuous value type. A와 C 간의 관계가 데이터의 일부분에서는 매우 안정적이지만 다른 부분에서는 안정적이지 않을 경우 알고리즘은 분할을 만들어 각 데이터 영역을 나타냅니다.If the relationship between A and C is fairly stable in parts of the data, but unstable in others, the algorithm will create splits to represent the different areas of the data.

분할 조건Split condition 노드의 결과Result in node
n < 5일 경우if n < 5 관계를 수식 1로 표현할 수 있습니다.Relationship can be expressed as equation 1
n이 5와 10 사이에 있는 경우if n between 5 and 10 수식 없음No equation
n > 10일 경우if n > 10 관계를 수식 2로 표현할 수 있습니다.Relationship can be expressed as equation 2

회귀 노드에 대한 자세한 내용은 선형 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.For more information about regression nodes, see Mining Model Content for Linear Regression Models (Analysis Services - Data Mining).

관련 항목:See Also

마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝) Mining Model Content (Analysis Services - Data Mining)
데이터 마이닝 모델 뷰어 Data Mining Model Viewers
데이터 마이닝 쿼리 Data Mining Queries
Microsoft 의사 결정 트리 알고리즘Microsoft Decision Trees Algorithm