선형 회귀 모델에 대한 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)Mining Model Content for Linear Regression Models (Analysis Services - Data Mining)

적용 대상:예SQL Server Analysis Services아니요Azure Analysis ServicesAPPLIES TO:yesSQL Server Analysis ServicesnoAzure Analysis Services이 설명 하는 사용 하는 모델만 마이닝 모델 콘텐츠에 MicrosoftMicrosoft 선형 회귀 알고리즘입니다. This topic describes mining model content that is specific to models that use the MicrosoftMicrosoft Linear Regression algorithm. 모든 모델 유형에 적용되는 마이닝 모델 콘텐츠에 대한 일반적인 설명은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.For a general explanation of mining model content for all model types, see Mining Model Content (Analysis Services - Data Mining).

선형 회귀 모델의 구조 이해Understanding the Structure of a Linear Regression Model

선형 회귀 모델의 구조는 매우 단순합니다.A linear regression model has an extremely simple structure. 각 모델에는 모델과 해당 메타데이터를 나타내는 단일 부모 노드와 예측 가능한 각 특성의 회귀 수식이 포함된 회귀 트리 노드(NODE_TYPE = 25)가 있습니다.Each model has a single parent node that represents the model and its metadata, and a regression tree node (NODE_TYPE = 25) that that contains the regression formula for each predictable attribute.

선형 회귀 모델의 구조Structure of model for linear regression

선형 회귀 모델에서는 MicrosoftMicrosoft 의사 결정 트리와 동일한 알고리즘을 사용하지만 트리를 제한하는 데는 다른 매개 변수를 사용하며 입력으로는 연속 특성만 사용할 수 있습니다.Linear regression models use the same algorithm as MicrosoftMicrosoft Decision Trees, but different parameters are used to constrain the tree, and only continuous attributes are accepted as inputs. 그러나 선형 회귀 모델은 MicrosoftMicrosoft 의사 결정 트리 알고리즘을 기반으로 하므로 선형 회귀 모델을 표시하는 데는 MicrosoftMicrosoft 의사 결정 트리 뷰어가 사용됩니다.However, because linear regression models are based on the MicrosoftMicrosoft Decision Trees algorithm, linear regression models are displayed by using the MicrosoftMicrosoft Decision Tree Viewer. 자세한 내용은 Microsoft 트리 뷰어를 사용하여 모델 찾아보기를 참조하세요.For information, see Browse a Model Using the Microsoft Tree Viewer.

다음 섹션에서는 회귀 수식 노드의 정보를 해석하는 방법을 설명합니다.The next section explains how to interpret information in the regression formula node. 이 정보는 선형 회귀 모델뿐 아니라 트리의 일부분에 회귀가 포함된 의사 결정 트리 모델에도 적용됩니다.This information applies not only to linear regression models, but also to decision trees models that contain regressions in a portion of the tree.

선형 회귀 모델에 대한 모델 콘텐츠Model Content for a Linear Regression Model

이 섹션에서는 선형 회귀와 특별히 관련된 마이닝 모델 콘텐츠 열에 대한 세부 정보 및 예만 제공합니다.This section provides detail and examples only for those columns in the mining model content that have particular relevance for linear regression.

스키마 행 집합의 범용 열에 대한 자세한 내용은 마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝)를 참조하세요.For information about general-purpose columns in the schema rowset, see Mining Model Content (Analysis Services - Data Mining).

MODEL_CATALOGMODEL_CATALOG
모델이 저장되는 데이터베이스의 이름입니다.Name of the database where the model is stored.

MODEL_NAMEMODEL_NAME
모델의 이름입니다.Name of the model.

ATTRIBUTE_NAMEATTRIBUTE_NAME
루트 노드: 비어 있습니다.Root node: Blank

회귀 노드: 예측 가능한 특성의 이름입니다.Regression node: The name of the predictable attribute.

NODE_NAMENODE_NAME
항상 NODE_UNIQUE_NAME과 같습니다.Always same as NODE_UNIQUE_NAME.

NODE_UNIQUE_NAMENODE_UNIQUE_NAME
모델 내의 노드에 대한 고유 식별자입니다.A unique identifier for the node within the model. 이 값은 변경할 수 없습니다.This value cannot be changed.

NODE_TYPENODE_TYPE
선형 회귀 모델이 출력하는 노드 유형은 다음과 같습니다.A linear regression model outputs the following node types:

노드 유형 IDNode Type ID 형식Type DescriptionDescription
2525 회귀 트리 루트Regression tree root 입력 및 출력 변수 간의 관계를 설명하는 수식을 포함합니다.Contains the formula that describes the relationship between the input and output variable.

NODE_CAPTIONNODE_CAPTION
노드에 연결된 레이블 또는 캡션입니다.A label or a caption associated with the node. 이 속성은 주로 표시용으로 사용됩니다.This property is primarily for display purposes.

루트 노드: 비어 있습니다.Root node: Blank

회귀 노드: 모든 항목을 포함합니다.Regression node: All.

CHILDREN_CARDINALITYCHILDREN_CARDINALITY
노드에 있는 예상 자식 수입니다.An estimate of the number of children that the node has.

루트 노드: 회귀 노드의 수를 나타냅니다.Root node: Indicates the number of regression nodes. 모델의 예측 가능한 각 특성에 대해 하나씩의 회귀 노드가 만들어집니다.One regression node is created for each predictable attribute in the model.

회귀 노드: 항상 0입니다.Regression node: Always 0.

PARENT_UNIQUE_NAMEPARENT_UNIQUE_NAME
노드 부모의 고유한 이름입니다.The unique name of the node's parent. 루트 수준의 모든 노드에 대해서 NULL이 반환됩니다.NULL is returned for any nodes at the root level.

NODE_DESCRIPTIONNODE_DESCRIPTION
노드에 대한 설명입니다.A description of the node.

루트 노드: 비어 있습니다.Root node: Blank

회귀 노드: 모든 항목을 포함합니다.Regression node: All.

NODE_RULENODE_RULE
선형 회귀 모델에는 사용되지 않습니다.Not used for linear regression models.

MARGINAL_RULEMARGINAL_RULE
선형 회귀 모델에는 사용되지 않습니다.Not used for linear regression models.

NODE_PROBABILITYNODE_PROBABILITY
이 노드와 관련된 확률입니다.The probability associated with this node.

루트 노드: 0입니다.Root node: 0

회귀 노드: 1입니다.Regression node: 1

MARGINAL_PROBABILITYMARGINAL_PROBABILITY
부모 노드에서 해당 노드에 도달할 확률입니다.The probability of reaching the node from the parent node.

루트 노드: 0입니다.Root node: 0

회귀 노드: 1입니다.Regression node: 1

NODE_DISTRIBUTIONNODE_DISTRIBUTION
노드의 값에 대한 통계를 제공하는 중첩 테이블입니다.A nested table that provides statistics about the values in the node.

루트 노드: 0입니다.Root node: 0

회귀 노드: 회귀 수식을 작성하는 데 사용된 요소가 들어 있는 테이블입니다.Regression node: A table that contains the elements used to build the regression formula. 회귀 노드에는 다음과 같은 값 유형이 들어 있습니다.A regression node contains the following value types:

VALUETYPEVALUETYPE
1(누락)1 (Missing)
3(연속)3 (Continuous)
7(계수)7 (Coefficient)
8(득점)8 (Score Gain)
9(통계)9 (Statistics)
11(절편)11 (Intercept)

NODE_SUPPORTNODE_SUPPORT
이 노드를 지지하는 사례 수입니다.The number of cases that support this node.

루트 노드: 0입니다.Root node: 0

회귀 노드: 학습 사례의 수입니다.Regression node: Count of training cases.

MSOLAP_MODEL_COLUMNMSOLAP_MODEL_COLUMN
예측 가능한 특성의 이름입니다.Name of predictable attribute.

MSOLAP_NODE_SCOREMSOLAP_NODE_SCORE
NODE_PROBABILITY와 같습니다.Same as NODE_PROBABILITY

MSOLAP_NODE_SHORT_CAPTIONMSOLAP_NODE_SHORT_CAPTION
표시용 레이블입니다.Label used for display purposes.

주의Remarks

MicrosoftMicrosoft 선형 회귀 알고리즘을 사용하여 모델을 만드는 경우 데이터 마이닝 엔진은 의사 결정 트리 모델의 특수한 인스턴스를 만들고 단일 노드의 모든 학습 데이트를 포함하도록 트리를 제한하는 매개 변수를 제공합니다.When you create a model by using the MicrosoftMicrosoft Linear Regression algorithm, the data mining engine creates a special instance of a decision trees model and supplies parameters that constrain the tree to contain all the training data in a single node. 모든 연속 입력은 잠재적인 회귀 변수로 플래그가 지정되고 계산되지만 최종 모델에서는 데이터에 맞는 회귀 변수만 회귀 변수로 유지됩니다.All continuous inputs are flagged and evaluated as potential regressors, but only those regressors that fit the data are retained as regressors in the final model. 분석에서는 각 회귀 변수에 대해 회귀 수식이 하나씩 생성되거나 회귀 수식이 전혀 생성되지 않습니다.The analysis produces either a single regression formula for each regressor or no regression formula at all.

Microsoft 트리 뷰어(All) 노드를 클릭하여 마이닝 범례에서 전체 회귀 수식을 볼 수 있습니다.You can view the complete regression formula in the Mining Legend, by clicking the (All) node in the Microsoft Tree Viewer.

또한 예측 가능한 연속 특성을 포함하는 의사 결정 트리 모델을 만들 때 일부 경우에는 트리에 회귀 트리 노드의 속성을 공유하는 회귀 노드가 포함됩니다.Also, when you create a decision trees model that includes a continuous predictable attribute, sometimes the tree has regression nodes that share the properties of regression tree nodes.

연속 특성의 노드 배포Node Distribution for Continuous Attributes

회귀 노드의 중요한 정보는 대부분 NODE_DISTRIBUTION 테이블에 들어 있습니다.Most of the important information in a regression node is contained in the NODE_DISTRIBUTION table. 다음 예에서는 NODE_DISTRIBUTION 테이블의 레이아웃을 보여 줍니다.The following example illustrates the layout of the NODE_DISTRIBUTION table. 이 예에서 Targeted Mailing 마이닝 구조는 연령별 고객 수입을 예측하는 선형 회귀 모델을 만드는 데 사용되었습니다.In this example, the Targeted Mailing mining structure has been used to create a linear regression model that predicts customer income based on age. 이 모델은 기존의 AdventureWorks2012AdventureWorks2012 예제 데이터 및 마이닝 구조를 사용하여 쉽게 작성할 수 있는 것으로, 여기에는 단지 설명을 위해 포함되었습니다.The model is for the purpose of illustration only, because it can be built easily using the existing AdventureWorks2012AdventureWorks2012 sample data and mining structure.

ATTRIBUTE_NAMEATTRIBUTE_NAME ATTRIBUTE_VALUEATTRIBUTE_VALUE SUPPORTSUPPORT PROBABILITYPROBABILITY VARIANCEVARIANCE VALUETYPEVALUETYPE
Yearly IncomeYearly Income MissingMissing 00 0.0004571428571428570.000457142857142857 00 1.1
Yearly IncomeYearly Income 57220.887668725757220.8876687257 1748417484 0.9995428571428570.999542857142857 1041275619.527761041275619.52776 33
AgeAge 471.687717702463471.687717702463 00 00 126.969442359327126.969442359327 77
AgeAge 234.680904692439234.680904692439 00 00 00 88
AgeAge 45.426961793639945.4269617936399 00 00 126.969442359327126.969442359327 99
35793.547738126735793.5477381267 00 00 1012968919.283721012968919.28372 1111

NODE_DISTRIBUTION 테이블에는 여러 행이 각각 변수별로 그룹화되어 들어 있습니다.The NODE_DISTRIBUTION table contains multiple rows, each grouped by a variable. 처음 두 개의 행은 값 유형이 항상 1과 3이며 대상 특성을 설명합니다.The first two rows are always value types 1 and 3, and describe the target attribute. 그 이후 행은 특정 회귀 변수의 수식에 대한 정보를 제공합니다.The succeeding rows provide details about the formula for a particular regressor. 회귀 변수는 출력 변수와 선형 관계가 있는 입력 변수입니다.A regressor is an input variable that has a linear relationship with the output variable. 여러 회귀 변수를 사용할 수 있으며 각 회귀 변수에는 계수(VALUETYPE = 7), 득점(VALUETYPE = 8) 및 통계(VALUETYPE = 9)에 대한 별도의 행이 있습니다.You can have multiple regressors, and each regressor will have a separate row for the coefficient (VALUETYPE = 7), score gain (VALUETYPE = 8), and statistics (VALUETYPE = 9). 마지막으로 테이블에는 수식의 절편(VALUETYPE = 11)이 포함된 행이 있습니다.Finally, the table has a row that contains the intercept of the equation (VALUETYPE = 11).

회귀 수식의 요소Elements of the Regression Formula

NODE_DISTRIBUTION 중첩 테이블의 개별 행에는 회귀 수식의 각 요소가 들어 있습니다.The nested NODE_DISTRIBUTION table contains each element of the regression formula in a separate row. 예의 결과에 있는 처음 두 개의 데이터 행에는 종속 변수를 모델링하는 예측 가능한 특성 Yearly Income에 대한 정보가 들어 있습니다.The first two rows of data in the example results contain information about the predictable attribute, Yearly Income, which models the dependent variable. SUPPORT 열에는 이 특성의 두 가지 상태( Yearly Income 값이 사용 가능함, 또는 Yearly Income 값이 누락됨)를 지원하는 사례 수가 표시됩니다.The SUPPORT column shows the count of cases in support of the two states of this attribute: either a Yearly Income value was available, or the Yearly Income value was missing.

VARIANCE 열은 예측 가능한 특성의 계산된 분산을 알려 줍니다.The VARIANCE column tells you the computed variance of the predictable attribute. 분산 은 샘플의 값이 예상 분포를 기준으로 얼마나 넓게 분산되어 있는지를 측정한 것입니다.Variance is a measure of how scattered the values are in a sample, given an expected distribution. 분산은 평균과의 제곱 편차에 대한 평균을 사용하여 계산됩니다.Variance here is calculated by taking the average of the squared deviation from the mean. 분산의 제곱근을 표준 편차라고도 합니다.The square root of the variance is also known as standard deviation. Analysis ServicesAnalysis Services 에서는 표준 편차를 제공하지 않지만 표준 편차도 쉽게 계산할 수 있습니다. does not provide the standard deviation but you can easily calculate it.

각 회귀 변수에 대해 세 개씩의 행이 출력됩니다.For each regressor, three rows are output. 이 세 행에는 계수, 득점 및 회귀 변수 통계가 포함됩니다.They contain the coefficient, score gain, and regressor statistics.

마지막으로 테이블에는 수식의 절편을 제공하는 행이 들어 있습니다.Finally, the table contains a row that provides the intercept for the equation.

계수Coefficient

각 회귀 변수에 대해 계수(VALUETYPE = 7)가 계산됩니다.For each regressor, a coefficient (VALUETYPE = 7) is calculated. 계수 자체는 ATTRIBUTE_VALUE 열에 나타나지만 VARIANCE 열은 계수의 분산을 알려 줍니다.The coefficient itself appears in the ATTRIBUTE_VALUE column, whereas the VARIANCE column tells you the variance for the coefficient. 계수는 선형성을 최대화하도록 계산됩니다.The coefficients are calculated so as to maximize linearity.

득점Score Gain

각 회귀 변수의 득점(VALUETYPE = 8)은 특성의 흥미도 점수를 나타냅니다.The score gain (VALUETYPE = 8) for each regressor represents the interestingness score of the attribute. 이 값을 사용하여 여러 회귀 변수의 유용성을 예상할 수 있습니다.You can use this value to estimate the usefulness of multiple regressors.

통계Statistics

회귀 변수 통계(VALUETYPE = 9)는 값이 있는 사례의 특성에 대한 평균입니다.The regressor statistic (VALUETYPE = 9) is the mean for the attribute for cases that have a value. ATTRIBUTE_VALUE 열에는 평균 자체가 들어 있지만 VARIANCE 열에는 평균과의 편차에 대한 합계가 들어 있습니다.The ATTRIBUTE_VALUE column contains the mean itself, whereas the VARIANCE column contains the sum of deviations from the mean.

가로채기Intercept

일반적으로 회귀 수식의 절편 (VALUETYPE = 11) 또는 나머지 는 입력 특성이 0인 지점의 예측 가능한 특성 값을 알려 줍니다.Normally, the intercept (VALUETYPE = 11) or residual in a regression equation tells you the value of the predictable attribute, at the point where the input attribute, is 0. 대부분의 경우 입력 특성은 0일 수 없으며 0일 경우에는 예상치 않은 결과가 발생할 수 있습니다.In many cases, this might not happen, and could lead to counterintuitive results.

예를 들어 연령별 수입을 예측하는 모델에서 연령이 0일 때의 수입을 확인하는 것은 의미가 없습니다.For example, in a model that predicts income based on age, it is useless to learn the income at age 0. 실제 상황에서는 대개 평균값을 기준으로 선의 동작에 대해 알아보는 것이 더욱 유용합니다.In real-life, it is typically more useful to know about the behavior of the line with respect to average values. 따라서 SQL ServerSQL Server Analysis ServicesAnalysis Services 에서는 절편을 수정하여 각 회귀 변수를 평균과의 관계로 표현합니다.Therefore, SQL ServerSQL Server Analysis ServicesAnalysis Services modifies the intercept to express each regressor in a relationship with the mean.

이러한 조정은 마이닝 모델 콘텐츠에서는 보기 어렵지만 Microsoft 트리 뷰어마이닝 범례에서 전체 수식을 볼 경우에는 분명하게 나타납니다.This adjustment is difficult to see in the mining model content, but is apparent if you view the completed equation in the Mining Legend of the Microsoft Tree Viewer. 회귀 수식은 0 지점에서 평균을 나타내는 지점으로 이동합니다.The regression formula is shifted away from the 0 point to the point that represents the mean. 이는 현재 데이터를 보다 직관적으로 보여 줍니다.This presents a view that is more intuitive given the current data.

따라서 평균 연령이 45세라고 간주하면 회귀 수식의 절편(VALUETYPE = 11)은 평균 수입을 알려 줍니다.Therefore, assuming that the mean age is around 45, the intercept (VALUETYPE = 11) for the regression formula tells you the mean income.

관련 항목:See Also

마이닝 모델 콘텐츠(Analysis Services - 데이터 마이닝) Mining Model Content (Analysis Services - Data Mining)
Microsoft 선형 회귀 알고리즘 Microsoft Linear Regression Algorithm
Microsoft 선형 회귀 알고리즘 기술 참조 Microsoft Linear Regression Algorithm Technical Reference
선형 회귀 모델 쿼리 예제Linear Regression Model Query Examples