데이터 마이닝 개념Data Mining Concepts

데이터 마이닝은 큰 데이터 집합에서 동작 가능한 정보를 찾는 프로세스입니다.Data mining is the process of discovering actionable information from large sets of data. 데이터 마이닝에서는 수학적 분석을 사용하여 데이터에 있는 패턴 및 추세를 찾습니다.Data mining uses mathematical analysis to derive patterns and trends that exist in data. 일반적으로는 관계가 너무 복잡하거나 데이터가 너무 많아서 전통적인 데이터 탐색으로는 이러한 패턴을 찾을 수 없습니다.Typically, these patterns cannot be discovered by traditional data exploration because the relationships are too complex or because there is too much data.

이러한 패턴과 추세를 수집하여 데이터 마이닝 모델로 정의할 수 있습니다.These patterns and trends can be collected and defined as a data mining model. 마이닝 모델은 다음과 같은 특정 시나리오에 적용할 수 있습니다.Mining models can be applied to specific scenarios, such as:

  • 예측: 서버 부하 또는 서버 가동 중지 시간을 예측 하는 추정 판매Forecasting: Estimating sales, predicting server loads or server downtime

  • 위험 및 확률: 타겟 메일링을 위한 최적합 고객의 선택, 위험 시나리오를 위한 예상 손익 평형 포인트 결정, 진단 또는 기타 결과에 확률 할당Risk and probability: Choosing the best customers for targeted mailings, determining the probable break-even point for risk scenarios, assigning probabilities to diagnoses or other outcomes

  • 추천: 함께 판매될 가능성이 높은 제품 결정, 추천 제품 구성Recommendations: Determining which products are likely to be sold together, generating recommendations

  • 연계성 찾기: 장바구니의 고객 선택 분석, 적절한 다음 이벤트 예측Finding sequences: Analyzing customer selections in a shopping cart, predicting next likely events

  • 그룹화: 고객 또는 이벤트를 관련된 항목의 클러스터로 분리, 선호도 분석 및 예측Grouping: Separating customers or events into cluster of related items, analyzing and predicting affinities

    마이닝 모델을 작성하는 것은 데이터에 대해 질문하고 이러한 질문에 답을 해 줄 모델을 만드는 것부터 모델을 작업 환경에 배포하는 것에 이르기까지 모든 작업을 포함하는 대규모 프로세스의 일부분입니다.Building a mining model is part of a larger process that includes everything from asking questions about the data and creating a model to answer those questions, to deploying the model into a working environment. 이 프로세스는 다음 6가지 기본 단계로 정의될 수 있습니다.This process can be defined by using the following six basic steps:

  1. 문제 정의Defining the Problem

  2. 데이터 준비Preparing Data

  3. 데이터 탐색Exploring Data

  4. 모델 작성Building Models

  5. 모델 탐색 및 유효성 검사Exploring and Validating Models

  6. 모델 배포 및 업데이트Deploying and Updating Models

    다음 다이어그램에서는 프로세스의 각 단계 간 관계와 각 단계를 수행하는 데 사용할 수 있는 MicrosoftMicrosoft SQL ServerSQL Server 기술을 볼 수 있습니다.The following diagram describes the relationships between each step in the process, and the technologies in MicrosoftMicrosoft SQL ServerSQL Server that you can use to complete each step.

    데이터 마이닝 프로세스의 핵심 단계Key steps in data mining process

    다이어그램에서 보여 주는 프로세스는 순환 프로세스로서, 데이터 마이닝 모델 생성은 동적이고도 반복적인 프로세스입니다.The process illustrated in the diagram is cyclical, meaning that creating a data mining model is a dynamic and iterative process. 데이터 탐색 후 적절한 마이닝 모델을 만들기에는 데이터가 불충분하여 보다 많은 데이터를 수집해야 한다는 사실을 발견할 수도 있고After you explore the data, you may find that the data is insufficient to create the appropriate mining models, and that you therefore have to look for more data. 여러 모델을 작성한 후에 모델이 정의한 문제를 해결하는 데 충분하지 않아 문제를 다시 정의해야 한다는 사실을 발견할 수도 있습니다.Alternatively, you may build several models and then realize that the models do not adequately answer the problem you defined, and that you therefore must redefine the problem. 또한 모델을 배포한 후 사용 가능한 추가 데이터가 발생하여 모델을 업데이트해야 할 수 있습니다.You may have to update the models after they have been deployed because more data has become available. 좋은 모델을 만들기 위해 프로세스의 각 단계를 여러 번 반복해야 할 수도 있습니다.Each step in the process might need to be repeated many times in order to create a good model.

    Microsoft SQL Server 데이터 마이닝은 데이터 마이닝 모델 생성 및 작업을 위한 통합 환경을 제공합니다.Microsoft SQL Server Data Mining provides an integrated environment for creating and working with data mining models. 이 환경에는 다양한 프로젝트를 위한 포괄적인 솔루션을 손쉽게 구축할 수 있도록 도와 주는 데이터 마이닝 알고리즘과 쿼리 도구를 제공하는 SQL Server Development Studio와, 모델 검색 및 데이터 마이닝 개체 관리를 위한 도구를 제공하는 SQL Server Management StudioSQL Server Management Studio가 포함됩니다.This environment includes SQL Server Development Studio, which contains data mining algorithms and query tools that make it easy to build a comprehensive solution for a variety of projects, and SQL Server Management StudioSQL Server Management Studio, which contains tools for browsing models and managing data mining objects. 자세한 내용은 SSDT(SQL Server Data Tools)를 사용하여 다차원 모델 만들기를 참조하세요.For more information, see Creating Multidimensional Models Using SQL Server Data Tools (SSDT).

    SQL ServerSQL Server 도구를 비즈니스 시나리오에 적용하는 방법의 예는 기본 데이터 마이닝 자습서를 참조하세요.For an example of how the SQL ServerSQL Server tools can be applied to a business scenario, see the Basic Data Mining Tutorial.

문제 정의 Defining the Problem

데이터 마이닝 프로세스의 첫 번째 단계는 다음 다이어그램에 강조 표시된 바와 같이 문제를 명확하게 정의하고, 문제에 대한 답을 제공하기 위해 데이터를 활용할 수 있는 방법을 고려하는 것입니다.The first step in the data mining process, as highlighted in the following diagram, is to clearly define the problem, and consider ways that data can be utilized to provide an answer to the problem.

데이터 마이닝 1 단계: 문제 정의Data mining first step: defining the problem

이 단계에는 비즈니스 요구 사항 분석, 문제 영역 정의, 모델을 평가할 메트릭 정의 및 데이터 마이닝 프로젝트의 구체적 목표 정의가 포함됩니다.This step includes analyzing business requirements, defining the scope of the problem, defining the metrics by which the model will be evaluated, and defining specific objectives for the data mining project. 이러한 태스크를 질문으로 바꾸면 다음과 같습니다.These tasks translate into questions such as the following:

  • 찾으려는 것이 무엇입니까?What are you looking for? 찾을 관계의 유형은 무엇입니까?What types of relationships are you trying to find?

  • 해결할 문제가 비즈니스의 정책 또는 프로세스를 반영합니까?Does the problem you are trying to solve reflect the policies or processes of the business?

  • 데이터 마이닝 모델을 사용하여 예측을 만들 것입니까 아니면 주목할 만한 패턴 및 관계만 찾을 것입니까?Do you want to make predictions from the data mining model, or just look for interesting patterns and associations?

  • 예측할 결과 또는 특성은 무엇입니까?Which outcome or attribute do you want to try to predict?

  • 어떤 종류의 데이터가 있으며 각 열에 어떤 종류의 정보가 들어 있습니까?What kind of data do you have and what kind of information is in each column? 테이블이 여러 개인 경우 테이블 간의 관계는 어떻습니까?If there are multiple tables, how are the tables related? 데이터를 사용 가능하게 만들기 위해 정리, 집계 또는 처리를 수행해야 합니까?Do you need to perform any cleansing, aggregation, or processing to make the data usable?

  • 데이터가 어떻게 배포되어 있습니까?How is the data distributed? 데이터가 주기적입니까?Is the data seasonal? 데이터가 비즈니스의 프로세스를 정확하게 나타냅니까?Does the data accurately represent the processes of the business?

    이러한 질문에 답하려면 데이터 가용성 및 사용 가능한 데이터에 대한 비즈니스 사용자의 요구 사항을 조사해야 할 수 있습니다.To answer these questions, you might have to conduct a data availability study, to investigate the needs of the business users with regard to the available data. 데이터가 사용자의 요구 사항에 부합하지 않으면 프로젝트를 다시 정의해야 할 수 있습니다.If the data does not support the needs of the users, you might have to redefine the project.

    모델의 결과를 비즈니스 프로세스를 측정하는 데 사용되는 KPI(핵심 성과 지표)로 통합할 방법을 고려해야 할 수도 있습니다.You also need to consider the ways in which the results of the model can be incorporated in key performance indicators (KPI) that are used to measure business progress.

데이터 준비 Preparing Data

데이터 마이닝 프로세스의 두 번째 단계는 다음 다이어그램에 강조 표시된 바와 같이 문제 정의 단계에서 식별한 데이터를 통합하고 정리하는 것입니다.The second step in the data mining process, as highlighted in the following diagram, is to consolidate and clean the data that was identified in the Defining the Problem step.

데이터 마이닝 2 단계: 데이터 준비Data mining second step: preparing data

데이터가 회사의 여러 부서에 흩어져 서로 다른 형식으로 저장되기도 하고 항목이 잘못되었거나 항목이 누락되는 등 데이터가 불일치할 수도 있습니다.Data can be scattered across a company and stored in different formats, or may contain inconsistencies such as incorrect or missing entries. 예를 들어 제품이 시장에 공급되기도 전에 고객이 제품을 구입했다거나 집에서 3220km나 떨어진 매장에서 정기적으로 제품을 구입한다고 데이터에 표시되어 있을 수 있습니다.For example, the data might show that a customer bought a product before the product was offered on the market, or that the customer shops regularly at a store located 2,000 miles from her home.

데이터 정리는 단지 잘못된 데이터를 제거하거나 누락된 값을 보간하는 것만이 아니라 데이터의 숨겨진 상관 관계를 찾아내고, 가장 정확한 데이터 원본을 식별하고, 분석에 사용할 가장 적절한 열을 확인하는 것입니다.Data cleaning is not just about removing bad data or interpolating missing values, but about finding hidden correlations in the data, identifying sources of data that are the most accurate, and determining which columns are the most appropriate for use in analysis. 예를 들어 운송 날짜나 주문 날짜를 사용해야 합니까?For example, should you use the shipping date or the order date? 수량, 총 가격 또는 할인 가격 중 판매에 가장 큰 영향을 주는 요인은 무엇입니까?Is the best sales influencer the quantity, total price, or a discounted price? 불완전한 데이터, 잘못된 데이터 및 개별적인 것으로 보이지만 실제로는 매우 밀접한 상관 관계에 있는 모든 입력은 모델의 결과에 예상치 않은 영향을 줄 수 있습니다.Incomplete data, wrong data, and inputs that appear separate but in fact are strongly correlated all can influence the results of the model in ways you do not expect.

따라서 마이닝 모델 작성을 시작하기 전에 이러한 문제를 파악하고 수정 방법을 확인해야 합니다.Therefore, before you start to build mining models, you should identify these problems and determine how you will fix them. 데이터 마이닝의 경우 일반적으로 매우 큰 데이터 집합으로 작업하므로 모든 트랜잭션의 데이터 품질을 검사할 수 없습니다. 따라서 데이터를 탐색하고 불일치하는 사항을 찾아내기 위해 Integration ServicesIntegration Services, Microsoft SQL Server 2012 Master Data ServicesMicrosoft SQL Server 2012 Master Data Services또는 SQL Server Data Quality ServicesSQL Server Data Quality Services 에 제공되는 도구 등과 같이 특정 형태의 데이터 프로파일링 도구와 자동 데이터 정리 및 필터링 도구가 필요할 수 있습니다.For data mining typically you are working with a very large dataset and cannot examine every transaction for data quality; therefore, you might need to use some form of data profiling and automated data cleansing and filtering tools, such as those supplied in Integration ServicesIntegration Services, Microsoft SQL Server 2012 Master Data ServicesMicrosoft SQL Server 2012 Master Data Services, or SQL Server Data Quality ServicesSQL Server Data Quality Services to explore the data and find the inconsistencies. 자세한 내용은 다음 리소스를 참조하십시오.For more information, see these resources:

데이터 탐색 Exploring Data

데이터 마이닝 프로세스의 3번째 단계는 다음 다이어그램에 강조 표시된 바와 같이 준비된 데이터를 탐색하는 것입니다.The third step in the data mining process, as highlighted in the following diagram, is to explore the prepared data.

데이터 마이닝 3 단계: 데이터 탐색Data mining third step: exploring data

마이닝 모델을 만들 때 적절한 결정을 내리기 위해서는 데이터를 이해해야 합니다.You must understand the data in order to make appropriate decisions when you create the mining models. 탐색 기술에는 최소값 및 최대값 계산, 평균 및 표준 편차 계산, 데이터 배포 검토 등이 포함됩니다.Exploration techniques include calculating the minimum and maximum values, calculating mean and standard deviations, and looking at the distribution of the data. 예를 들어 최대값, 최소값 및 평균 값을 검토하여 데이터가 고객 또는 비즈니스 프로세스를 대표하지 않는지 확인하고, 그러한 경우 보다 균형 있는 데이터를 가져오거나 예상의 기초가 된 가정을 검토해야 하는지 확인할 수 있습니다.For example, you might determine by reviewing the maximum, minimum, and mean values that the data is not representative of your customers or business processes, and that you therefore must obtain more balanced data or review the assumptions that are the basis for your expectations. 표준 편차 및 기타 분포 값은 결과의 안정성과 정확도에 대한 유용한 정보를 제공할 수 있습니다.Standard deviations and other distribution values can provide useful information about the stability and accuracy of the results. 표준 편차가 크면 다른 데이터를 추가하여 모델을 개선할 수 있습니다.A large standard deviation can indicate that adding more data might help you improve the model. 표준 분포에서 지나치게 벗어나는 데이터는 왜곡된 것일 수도 있고 실제 문제를 정확히 나타낸 것일 수도 있지만 이러한 데이터가 있으면 데이터에 맞는 모델을 만들기가 어려워집니다.Data that strongly deviates from a standard distribution might be skewed, or might represent an accurate picture of a real-life problem, but make it difficult to fit a model to the data.

비즈니스 문제를 정확히 이해하고 데이터를 탐색하면 데이터 집합에 결함이 있는 데이터가 있는지 확인한 다음 문제를 해결할 수 있는 전략을 고안하거나 비즈니스의 일반적인 동작을 보다 깊이 있게 이해할 수 있습니다.By exploring the data in light of your own understanding of the business problem, you can decide if the dataset contains flawed data, and then you can devise a strategy for fixing the problems or gain a deeper understanding of the behaviors that are typical of your business.

Master Data ServicesMaster Data Services 등과 같은 도구를 사용하여 사용 가능한 데이터 원본을 조사하고 데이터 마이닝을 위한 가용성을 확인할 수 있습니다.You can use tools such as Master Data ServicesMaster Data Services to canvass available sources of data and determine their availability for data mining. SQL Server Data Quality ServicesSQL Server Data Quality Services등과 같은 도구 또는 Integration Services의 데이터 프로파일러를 사용하여 데이터 배포를 분석하고 잘못된 데이터나 누락된 데이터 등과 같은 문제를 복구할 수 있습니다.You can use tools such as SQL Server Data Quality ServicesSQL Server Data Quality Services, or the Data Profiler in Integration Services, to analyze the distribution of your data and repair issues such as wrong or missing data.

원본을 정의한 후 SQL Server Data ToolsSQL Server Data Tools의 데이터 원본 뷰 디자이너를 사용하여 데이터 원본 뷰에서 그러한 원본을 조합합니다.After you have defined your sources, you combine them in a Data Source view by using the Data Source View Designer in SQL Server Data ToolsSQL Server Data Tools. 자세한 내용은 다차원 모델의 데이터 원본 뷰를 참조하세요.For more information, see Data Source Views in Multidimensional Models. 또한 이 디자이너에는 데이터를 탐색하여 모델 생성에 사용할 수 있는지를 확인하는 데 사용할 수 있는 몇 가지 도구도 있습니다.This designer also contains some several tools that you can use to explore the data and verify that it will work for creating a model. 자세한 내용은 데이터 원본 뷰에서 데이터 탐색(Analysis Services)을 참조하세요.For more information, see Explore Data in a Data Source View (Analysis Services).

모델을 만들 때 Analysis ServicesAnalysis Services 에서 모델에 포함된 데이터의 통계 요약을 자동으로 만들며 이를 쿼리하여 보고서 또는 추가 분석에 사용할 수 있습니다.Note that when you create a model, Analysis ServicesAnalysis Services automatically creates statistical summaries of the data contained in the model, which you can query to use in reports or further analysis. 자세한 내용은 데이터 마이닝 쿼리를 참조하세요.For more information, see Data Mining Queries.

모델 작성 Building Models

데이터 마이닝 프로세스의 4번째 단계는 다음 다이어그램에 강조 표시된 바와 같이 마이닝 모델을 작성하는 것입니다.The fourth step in the data mining process, as highlighted in the following diagram, is to build the mining model or models. 데이터 탐색 단계에서 얻은 정보를 사용하면 모델을 정의하고 만드는 데 도움이 됩니다.You will use the knowledge that you gained in the Exploring Data step to help define and create the models.

데이터 마이닝 4 단계: 마이닝 모델을 작성Data mining fourth step: building mining models

마이닝 구조를 만들어 사용할 데이터 열을 정의합니다.You define the columns of data that you want to use by creating a mining structure. 마이닝 구조는 데이터 원본에 링크되지만 처리되기 전까지는 실제로 데이터가 포함되지 않습니다.The mining structure is linked to the source of data, but does not actually contain any data until you process it. 마이닝 구조를 처리하면 Analysis ServicesAnalysis Services 에서는 분석에 사용할 수 있는 집계 및 기타 통계 정보를 생성합니다.When you process the mining structure, Analysis ServicesAnalysis Services generates aggregates and other statistical information that can be used for analysis. 이 정보는 해당 구조를 기반으로 하는 마이닝 모델에서 사용할 수 있습니다.This information can be used by any mining model that is based on the structure. 마이닝 구조와 마이닝 모델의 관계에 대한 자세한 내용은 논리적 아키텍처(Analysis Services - 데이터 마이닝)를 참조하세요.For more information about how mining structures are related to mining models, see Logical Architecture (Analysis Services - Data Mining).

구조 및 모델이 처리되기 전에는 데이터 마이닝 모델 역시 단지 입력에 사용되는 열, 예측할 특성 및 알고리즘에 데이터 처리 방식을 알려 주는 매개 변수를 지정하는 컨테이너입니다.Before the structure and model is processed, a data mining model too is just a container that specifies the columns used for input, the attribute that you are predicting, and parameters that tell the algorithm how to process the data. 모델을 처리하는 작업을 학습이라고도 합니다.Processing a model is often called training. 학습은 패턴을 추출하기 위해 구조의 데이터에 특정 수학적 알고리즘을 적용하는 프로세스입니다.Training refers to the process of applying a specific mathematical algorithm to the data in the structure in order to extract patterns. 학습 프로세스에서 찾은 패턴은 선택한 학습 데이터, 선택한 알고리즘 및 알고리즘의 구성 방식에 따라 달라집니다.The patterns that you find in the training process depend on the selection of training data, the algorithm you chose, and how you have configured the algorithm. SQL Server 2017SQL Server 2017 에는 각기 다른 유형의 태스크에 적합하며 각기 다른 유형의 모델을 만드는 다양한 알고리즘이 포함되어 있습니다. contains many different algorithms, each suited to a different type of task, and each creating a different type of model. SQL Server 2017SQL Server 2017에서 제공되는 알고리즘 목록은 데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)을 참조하세요.For a list of the algorithms provided in SQL Server 2017SQL Server 2017, see Data Mining Algorithms (Analysis Services - Data Mining).

매개 변수를 사용하여 각 알고리즘을 조정하고 일부 데이터만 사용하도록 학습 데이터에 필터를 적용하여 다른 결과를 만들 수도 있습니다.You can also use parameters to adjust each algorithm, and you can apply filters to the training data to use just a subset of the data, creating different results. 모델을 통해 데이터를 전달한 후 마이닝 모델 개체에는 예측을 위해 쿼리하거나 사용할 수 있는 요약 및 패턴이 포함됩니다.After you pass data through the model, the mining model object contains summaries and patterns that can be queried or used for prediction.

SQL Server Data ToolsSQL Server Data Tools의 데이터 마이닝 마법사를 사용하거나 DMX(Data Mining Extensions) 언어를 사용하여 새 모델을 정의할 수 있습니다.You can define a new model by using the Data Mining Wizard in SQL Server Data ToolsSQL Server Data Tools, or by using the Data Mining Extensions (DMX) language. 데이터 마이닝 마법사를 사용하는 방법에 대한 자세한 내용은 데이터 마이닝 마법사(Analysis Services - 데이터 마이닝)를 참조하세요.For more information about how to use the Data Mining Wizard, see Data Mining Wizard (Analysis Services - Data Mining). DMX를 사용하는 방법에 대한 자세한 내용은 DMX(Data Mining Extensions) 참조를 참조하세요.For more information about how to use DMX, see Data Mining Extensions (DMX) Reference.

데이터가 변경될 때마다 마이닝 구조와 마이닝 모델을 모두 업데이트해야 합니다.It is important to remember that whenever the data changes, you must update both the mining structure and the mining model. 마이닝 구조를 다시 처리하여 업데이트하면 Analysis ServicesAnalysis Services 에서는 원본에서 데이터를 검색하고 마이닝 구조를 다시 채웁니다. 원본이 동적으로 업데이트된 경우에는 검색 시 새 데이터도 포함됩니다.When you update a mining structure by reprocessing it, Analysis ServicesAnalysis Services retrieves data from the source, including any new data if the source is dynamically updated, and repopulates the mining structure. 해당 구조를 기반으로 하는 모델이 있는 경우 이러한 모델을 업데이트하여 새 데이터에 대해 다시 학습되도록 할 수도 있고 모델을 그대로 둘 수도 있습니다.If you have models that are based on the structure, you can choose to update the models that are based on the structure, which means they are retrained on the new data, or you can leave the models as is. 자세한 내용은 처리 요구 사항 및 고려 사항(데이터 마이닝)을 참조하세요.For more information, see Processing Requirements and Considerations (Data Mining).

모델 탐색 및 유효성 검사 Exploring and Validating Models

데이터 마이닝 프로세스의 5번째 단계는 다음 다이어그램에 강조 표시된 바와 같이 작성한 마이닝 모델을 탐색하고 모델의 효율성을 테스트하는 것입니다.The fifth step in the data mining process, as highlighted in the following diagram, is to explore the mining models that you have built and test their effectiveness.

데이터 마이닝 5 단계: 마이닝 모델 유효성 검사Data mining fifth step: validating mining models

모델을 프로덕션 환경에 배포하기 전에 모델의 효율성을 테스트해야 합니다.Before you deploy a model into a production environment, you will want to test how well the model performs. 또한 모델을 작성할 때는 일반적으로 각기 다른 구성으로 여러 모델을 만들고 모든 모델을 테스트하여 어떤 모델에서 문제 및 데이터에 대한 최상의 결과가 얻어지는지 확인합니다.Also, when you build a model, you typically create multiple models with different configurations and test all models to see which yields the best results for your problem and your data.

Analysis ServicesAnalysis Services 에서는 동일한 데이터에 대한 모든 모델의 성능을 정확하게 평가할 수 있도록 데이터를 학습 데이터 집합과 테스트 데이터 집합으로 분리하는 데 유용한 도구를 제공합니다. provides tools that help you separate your data into training and testing datasets so that you can accurately assess the performance of all models on the same data. 학습 데이터 집합으로는 모델을 작성할 수 있고 테스트 데이터 집합으로는 예측 쿼리를 만들어 모델의 정확도를 테스트할 수 있습니다.You use the training dataset to build the model, and the testing dataset to test the accuracy of the model by creating prediction queries. 이 분할 방법은 마이닝 모델을 작성 하는 동안 자동으로 합니다.This partitioning can be done automatically while building the mining model. 자세한 내용은 테스트 및 유효성 검사(데이터 마이닝)템플릿을 사용하여 데이터 마이닝 프로젝트를 작성할 수 있습니다.For more information, see Testing and Validation (Data Mining).

SQL Server Data ToolsSQL Server Data Tools의 데이터 마이닝 디자이너에 있는 뷰어를 사용하여 알고리즘이 검색한 추세 및 패턴을 탐색할 수 있습니다.You can explore the trends and patterns that the algorithms discover by using the viewers in Data Mining Designer in SQL Server Data ToolsSQL Server Data Tools. 자세한 내용은 데이터 마이닝 모델 뷰어를 참조하세요.For more information, see Data Mining Model Viewers. 또한 리프트 차트 및 분류 행렬과 같은 디자이너의 도구를 사용하여 모델의 예측 정확도를 테스트할 수 있습니다.You can also test how well the models create predictions by using tools in the designer such as the lift chart and classification matrix. 모델이 데이터와 관련되어 있는지 또는 일반적인 모집단에 대해 유추하는 데 사용할 수 있는지 확인하려면 교차 유효성 검사라는 통계 기법을 사용하여 데이터의 하위 집합을 자동으로 만들고 각 하위 집합에 대해 모델을 테스트합니다.To verify whether the model is specific to your data, or may be used to make inferences on the general population, you can use the statistical technique called cross-validation to automatically create subsets of the data and test the model against each subset. 자세한 내용은 테스트 및 유효성 검사(데이터 마이닝)를 참조하세요.For more information, see Testing and Validation (Data Mining).

모델 작성 단계에서 만든 모델의 효율성이 모두 떨어지는 경우 프로세스의 이전 단계로 돌아가서 문제를 다시 정의하거나 원래 데이터 집합의 데이터를 다시 조사해야 할 수 있습니다.If none of the models that you created in the Building Models step perform well, you might have to return to a previous step in the process and redefine the problem or reinvestigate the data in the original dataset.

모델 배포 및 업데이트 Deploying and Updating Models

데이터 마이닝 프로세스의 마지막 단계는 다음 다이어그램에 강조 표시된 바와 같이 가장 효율적인 모델을 프로덕션 환경에 배포하는 것입니다.The last step in the data mining process, as highlighted in the following diagram, is to deploy the models that performed the best to a production environment.

데이터 마이닝 6 단계: 마이닝 모델 배포Data mining sixth step: deploying mining models

프로덕션 환경에 마이닝 모델을 배포한 다음에는 필요에 따라 다양한 태스크를 수행할 수 있습니다.After the mining models exist in a production environment, you can perform many tasks, depending on your needs. 다음은 수행할 수 있는 일부 태스크입니다.The following are some of the tasks you can perform:

  • 모델을 사용하여 예측 만들기. 이러한 예측을 사용하여 비즈니스상의 의사 결정을 내릴 수 있습니다.Use the models to create predictions, which you can then use to make business decisions. SQL ServerSQL Server 에서는 예측 쿼리를 만드는 데 사용할 수 있는 DMX 언어와 쿼리 작성에 도움이 되는 예측 쿼리 작성기를 제공합니다. provides the DMX language that you can use to create prediction queries, and Prediction Query Builder to help you build the queries. 자세한 내용은 DMX(Data Mining Extensions) 참조를 참조하세요.For more information, see Data Mining Extensions (DMX) Reference.

  • 내용 쿼리를 만들어 모델에서 통계, 규칙 또는 수식 검색.Create content queries to retrieve statistics, rules, or formulas from the model. 자세한 내용은 데이터 마이닝 쿼리를 참조하세요.For more information, see Data Mining Queries.

  • 데이터 마이닝 기능을 직접 응용 프로그램에 포함할 수 있습니다.Embed data mining functionality directly into an application. 마이닝 구조 및 마이닝 모델의 생성, 변경, 처리 및 삭제를 위해 응용 프로그램에서 사용할 수 있는 개체 집합이 들어 있는 AMO(Analysis Management Objects)를 포함할 수 있습니다.You can include Analysis Management Objects (AMO), which contains a set of objects that your application can use to create, alter, process, and delete mining structures and mining models. 또는 Analysis ServicesAnalysis Services인스턴스에 XMLA(XML for Analysis) 메시지를 직접 보낼 수도 있습니다.Alternatively, you can send XML for Analysis (XMLA) messages directly to an instance of Analysis ServicesAnalysis Services. 자세한 내용은 개발(Analysis Services - 데이터 마이닝)을 참조하세요.For more information, see Development (Analysis Services - Data Mining).

  • Integration ServicesIntegration Services 를 사용하여 마이닝 모델을 통해 들어오는 데이터를 여러 테이블에 논리적으로 분리하는 패키지 만들기.Use Integration ServicesIntegration Services to create a package in which a mining model is used to intelligently separate incoming data into multiple tables. 예를 들어 잠재적인 고객으로 데이터베이스를 계속 업데이트하는 경우 Integration ServicesIntegration Services 와 함께 마이닝 모델을 사용하여 들어오는 데이터를 제품을 구매할 가능성이 높은 고객과 제품을 구매하지 않을 가능성이 높은 고객으로 분할할 수 있습니다.For example, if a database is continually updated with potential customers, you could use a mining model together with Integration ServicesIntegration Services to split the incoming data into customers who are likely to purchase a product and customers who are likely to not purchase a product. 자세한 내용은 Integration Services의 일반적인 사용을 참조하세요.For more information, see Typical Uses of Integration Services.

  • 사용자가 기존 마이닝 모델에 대해 직접 쿼리할 수 있는 보고서 만들기.Create a report that lets users directly query against an existing mining model. 자세한 내용은 SQL Server Data Tools의 Reporting Services(SSDT)를 참조하세요.For more information, see Reporting Services in SQL Server Data Tools (SSDT).

  • 검토 및 분석 후 모델 업데이트.Update the models after review and analysis. 업데이트 시 모델을 다시 처리해야 합니다.Any update requires that you reprocess the models. 자세한 내용은 Processing Data Mining Objects를 참조하세요.For more information, see Processing Data Mining Objects.

  • 조직에 더 많은 데이터가 들어올 때 모델을 동적으로 업데이트. 지속적인 변경을 통해 솔루션의 효율성을 높이는 것은 배포 전략의 일부가 되어야 합니다.Update the models dynamically, as more data comes into the organization, and making constant changes to improve the effectiveness of the solution should be part of the deployment strategy. 자세한 내용은 데이터 마이닝 솔루션 및 개체 관리를 참조하세요.For more information, see Management of Data Mining Solutions and Objects

관련 항목:See Also

데이터 마이닝 솔루션 Data Mining Solutions
데이터 마이닝 도구Data Mining Tools