테스트 및 유효성 검사(데이터 마이닝)Testing and Validation (Data Mining)

적용 대상:예SQL Server Analysis Services아니요Azure Analysis ServicesAPPLIES TO:yesSQL Server Analysis ServicesnoAzure Analysis Services유효성 검사는 프로세스의 실제 데이터에 대 한 마이닝 모델 성능을 얼마나 잘 평가 합니다. Validation is the process of assessing how well your mining models perform against real data. 마이닝 모델을 프로덕션 환경으로 배포하기 전에 품질과 특징을 이해하여 마이닝 모델의 유효성을 검사하는 것이 중요합니다.It is important that you validate your mining models by understanding their quality and characteristics before you deploy them into a production environment.

이 섹션에서는 모델 품질과 관련된 몇 가지 기본 개념을 소개하고 MicrosoftMicrosoft Analysis ServicesAnalysis Services에 제공된 모델 유효성 검사를 위한 전략을 설명합니다.This section introduces some basic concepts related to model quality, and describes the strategies for model validation that are provided in MicrosoftMicrosoft Analysis ServicesAnalysis Services. 대규모 데이터 마이닝 프로세스에서 모델 유효성 검사를 수행하는 방법에 대한 개요는 데이터 마이닝 솔루션을 참조하세요.For an overview of how model validation fits into the larger data mining process, see Data Mining Solutions.

데이터 마이닝 모델의 테스트 및 유효성 검사 방법Methods for Testing and Validation of Data Mining Models

데이터 마이닝 모델의 품질과 특징을 평가하는 데에는 여러 가지 방법이 있습니다.There are many approaches for assessing the quality and characteristics of a data mining model.

  • 통계 유효성의 다양한 측정값을 사용하여 데이터나 모델에 문제가 있는지 여부를 확인할 수 있습니다.Use various measures of statistical validity to determine whether there are problems in the data or in the model.

  • 데이터를 학습 집합과 테스트 집합으로 구분하여 예측의 정확도를 테스트할 수 있습니다.Separate the data into training and testing sets to test the accuracy of predictions.

  • 비즈니스 전문가에게 데이터 마이닝 모델의 결과를 검토하도록 요청하여 검색된 패턴이 대상 비즈니스 시나리오에서 의미가 있는지 여부를 결정할 수 있습니다.Ask business experts to review the results of the data mining model to determine whether the discovered patterns have meaning in the targeted business scenario

    이러한 모든 방법은 데이터 마이닝 방법에서 유용하며 특정 문제를 해결하기 위한 모델을 생성, 테스트 및 구체화하면서 반복적으로 사용됩니다.All of these methods are useful in data mining methodology and are used iteratively as you create, test, and refine models to answer a specific problem. 모델이 적당하거나 데이터가 충분하다고 판단하는 기준으로 삼을 수 있는 하나의 포괄적인 규칙은 없습니다.No single comprehensive rule can tell you when a model is good enough, or when you have enough data.

데이터 마이닝 모델의 유효성 검사를 위한 기준 정의Definition of Criteria for Validating Data Mining Models

데이터 마이닝의 측정값은 일반적으로 정확도, 안정성 및 유용성의 범주로 나누어집니다.Measures of data mining generally fall into the categories of accuracy, reliability, and usefulness.

정확도 는 모델에서 제공된 데이터의 특성과 결과 간 상관 관계를 나타내는 측정값입니다.Accuracy is a measure of how well the model correlates an outcome with the attributes in the data that has been provided. 다양한 정확도 측정값이 있지만 모든 정확도 측정값은 사용되는 데이터에 따라 달라집니다.There are various measures of accuracy, but all measures of accuracy are dependent on the data that is used. 실제로는 값이 없거나 근사값일 수 있으며 여러 프로세스에 의해 데이터가 변경되었을 수 있습니다.In reality, values might be missing or approximate, or the data might have been changed by multiple processes. 특히 탐색 및 개발 단계에서 데이터의 특징이 비교적 균일한 경우 데이터에서 오류가 일정 정도 발생하도록 허용할 수 있습니다.Particularly in the phase of exploration and development, you might decide to accept a certain amount of error in the data, especially if the data is fairly uniform in its characteristics. 예를 들어 과거 판매량을 기반으로 특정 매장의 판매량을 예측하는 모델은 해당 매장에서 계속 잘못된 회계 방법을 사용한 경우에도 상관 관계가 높고 매우 정확할 수 있습니다.For example, a model that predicts sales for a particular store based on past sales can be strongly correlated and very accurate, even if that store consistently used the wrong accounting method. 따라서 정확도 측정은 안정성 평가에 따라 균형을 맞춰야 합니다.Therefore, measurements of accuracy must be balanced by assessments of reliability.

안정성 은 다른 데이터 집합에 대한 데이터 마이닝 모델의 성능을 평가합니다.Reliability assesses the way that a data mining model performs on different data sets. 제공된 테스트 데이터와 상관없이 동일한 유형의 예측을 생성하거나 동일한 일반적인 종류의 패턴을 찾는 경우 데이터 마이닝 모델은 안정적입니다.A data mining model is reliable if it generates the same type of predictions or finds the same general kinds of patterns regardless of the test data that is supplied. 예를 들어 잘못된 회계 방법을 사용한 매장에 대해 생성하는 모델은 다른 매장에도 적용할 수 있을 정도로 일반화될 수 없으므로 안정적이지 않습니다.For example, the model that you generate for the store that used the wrong accounting method would not generalize well to other stores, and therefore would not be reliable.

유용성 에는 모델이 유용한 정보를 제공하는지 여부를 알려 주는 다양한 메트릭이 포함됩니다.Usefulness includes various metrics that tell you whether the model provides useful information. 예를 들어 매장 위치와 판매량 간 상관 관계를 찾는 데이터 마이닝 모델은 정확하면서 안정적일 수 있지만 동일한 위치에 있는 다른 매장을 추가하여 결과를 일반화할 수 없으므로 유용하지 않을 수 있습니다.For example, a data mining model that correlates store location with sales might be both accurate and reliable, but might not be useful, because you cannot generalize that result by adding more stores at the same location. 또한 이 모델로는 특정 위치에서 판매량이 왜 더 많은가라는 기본적인 비즈니스 질문에 대한 답을 얻을 수 없습니다.Moreover, it does not answer the fundamental business question of why certain locations have more sales. 성공적으로 보이는 모델이 데이터의 교차 상관 관계를 기반으로 하고 있기 때문에 실제로는 의미가 없을 수도 있습니다.You might also find that a model that appears successful in fact is meaningless, because it is based on cross-correlations in the data.

마이닝 모델의 테스트 및 유효성 검사 도구Tools for Testing and Validation of Mining Models

Analysis ServicesAnalysis Services 에서는 데이터 마이닝 솔루션의 유효성을 여러 방법으로 검사하여 데이터 마이닝 테스트 방법의 모든 단계를 지원합니다. supports multiple approaches to validation of data mining solutions, supporting all phases of the data mining test methodology.

  • 데이터를 학습 및 테스트 집합으로 분할합니다.Partitioning data into testing and training sets.

  • 모델을 필터링하여 동일한 원본 데이터의 서로 다른 조합을 학습하고 테스트할 수 있습니다.Filtering models to train and test different combinations of the same source data.

  • 리프트이득을 측정합니다.Measuring lift and gain. 리프트 차트 는 데이터 마이닝 모델을 임의 추측과 비교할 때 데이터 마이닝 모델 사용에서 얻는 향상률을 시각화하는 방법입니다.A lift chart is a method of visualizing the improvement that you get from using a data mining model, when you compare it to random guessing.

  • 데이터 집합의 교차 유효성 검사 를 수행합니다.Performing cross-validation of data sets

  • 분류 행렬을 생성합니다.Generating classification matrices. 이러한 차트에서는 모델이 대상 값을 정확하게 예측하는 정도를 쉽게 빠르고 측정할 수 있도록 올바른 추측과 잘못된 추측을 테이블로 정렬합니다.These charts sort good and bad guesses into a table so that you can quickly and easily gauge how accurately the model predicts the target value.

  • 회귀 수식에 맞는지 평가할 수 있는 산점도 를 만듭니다.Creating scatter plots to assess the fit of a regression formula.

  • 마이닝 모델 사용과 재무 이익 또는 비용을 연결하는 수익 차트 를 만들어 권장 구성의 값을 평가할 수 있습니다.Creating profit charts that associate financial gain or costs with the use of a mining model, so that you can assess the value of the recommendations.

    이러한 메트릭의 목적은 데이터 마이닝 모델이 비즈니스 질문에 대한 해답을 제공하는지 여부에 대한 질문에 응답하는 것이 아닙니다. 그보다는 예측 분석을 위해 데이터의 안정성을 평가하고 개발 프로세스에서 특정 반복을 사용할지 여부를 결정하도록 돕는 데 사용할 수 있는 객관적인 측정값을 제공하는 것입니다.These metrics do not aim to answer the question of whether the data mining model answers your business question; rather, these metrics provide objective measurements that you can use to assess the reliability of your data for predictive analytics, and to guide your decision of whether to use a particular iterate on the development process.

    이 섹션의 항목에서는 각 방법의 개요를 제공하고 SQL Server 데이터 마이닝을 사용하여 빌드하는 모델의 정확도를 측정하는 프로세스를 안내합니다.The topics in this section provide an overview of each method and walk you through the process of measuring the accuracy of models that you build using SQL Server Data Mining.

항목Topics 링크Links
마법사 또는 DMX 명령을 사용하여 테스트 데이터 집합을 설정하는 방법 배우기Learn how to set up a testing data set using a wizard or DMX commands 데이터 집합 학습 및 테스트Training and Testing Data Sets
마이닝 구조에서 데이터의 배포 및 대표성을 테스트하는 방법 배우기Learn how to test the distribution and representativeness of the data in a mining structure 교차 유효성 검사(Analysis Services - 데이터 마이닝)Cross-Validation (Analysis Services - Data Mining)
제공 되는 정확도 차트 종류에 알아봅니다.Learn about the accuracy chart types provided. 리프트 차트(Analysis Services - 데이터 마이닝)Lift Chart (Analysis Services - Data Mining)

수익 차트(Analysis Services - 데이터 마이닝)Profit Chart (Analysis Services - Data Mining)

산점도(Analysis Services - 데이터 마이닝)Scatter Plot (Analysis Services - Data Mining)
여러 참과 거짓의 긍정 및 부정을 평가할 수 있는 분류 행렬(혼동 행렬이라고도 함)을 만드는 방법 배우기.Learn how to create a classification matrix, sometimes called a confusion matrix, for assessing the number of true and false positives and negatives. 분류표(Analysis Services - 데이터 마이닝)Classification Matrix (Analysis Services - Data Mining)

관련 항목:See Also

데이터 마이닝 도구 Data Mining Tools
데이터 마이닝 솔루션 Data Mining Solutions
테스트 및 유효성 검사 태스크 및 방법(데이터 마이닝)Testing and Validation Tasks and How-tos (Data Mining)