데이터 마이닝 마법사(Analysis Services - 데이터 마이닝)Data Mining Wizard (Analysis Services - Data Mining)

적용 대상:예SQL Server Analysis Services아니요Azure Analysis ServicesAPPLIES TO:yesSQL Server Analysis ServicesnoAzure Analysis Services데이터 마이닝 마법사에서 MicrosoftMicrosoft SQL ServerSQL Server Analysis ServicesAnalysis Services 데이터 마이닝 프로젝트에 새 마이닝 구조를 추가할 때마다 시작 합니다. The Data Mining Wizard in MicrosoftMicrosoft SQL ServerSQL Server Analysis ServicesAnalysis Services starts every time that you add a new mining structure to a data mining project. 이 마법사를 사용하면 데이터 원본을 선택하고, 분석에 사용할 데이터를 정의하는 데이터 원본 뷰를 설정한 다음 초기 모델을 만들 수 있습니다.The wizard helps you choose a data source and set up a data source view that defines the data to be used for analysis, and then helps you create an initial model.

마법사의 마지막 단계에서는 원하는 경우 데이터를 학습 및 테스트 집합으로 나누고 드릴스루와 같은 기능을 사용하도록 설정할 수 있습니다.In the final phase of the wizard, you can optionally divide your data into training and testing sets, and enable features such as drillthrough.

시작하기 전에 확인할 사항What to Know Before You Start

마법사를 시작하기 전에 확인해야 하는 사항은 다음과 같습니다.Here are the things you need to know before you start the wizard.

  • 데이터 마이닝 구조 및 모델을 관계형 데이터베이스에서 작성합니까 아니면 OLAP 데이터베이스의 기존 큐브에서 작성합니까?Will you build the data mining structure and models from a relational database or from an existing cube in an OLAP database?

  • 사례 레코드를 고유하게 식별하는 키가 들어 있는 열은 무엇입니까?Which columns contain the keys that uniquely identify a case record?

  • 예측에 사용할 열 또는 특성은 무엇입니까?Which columns or attributes do you want to use for prediction? 분석에 대한 입력으로 사용하기에 적합한 열 또는 특성은 무엇입니까?Which columns or attributes are good to use as input for analysis?

  • 어떤 알고리즘을 사용해야 합니까?Which algorithm should you use? SQL ServerSQL Server Analysis ServicesAnalysis Services 에 제공되는 알고리즘은 모두 다른 특징을 가지고 있으며 생성되는 결과도 다릅니다.The algorithms provided in SQL ServerSQL Server Analysis ServicesAnalysis Services all have different characteristics and produce different results. 각 데이터 집합에 대해 하나의 모델만 사용할 수 있는 것은 아니므로 원하는 대로 다양한 모델을 추가해 볼 수 있습니다.Fortunately you are not limited to one model for each set of data, so feel free to experiment by adding different models.

  • 통합된 데이터 집합에서 모델을 테스트할 수 있어야 합니까?Do you need to be able to test your models on a unified data set? 그런 경우 일부 데이터를 테스트용으로 따로 떼어놓는 옵션을 사용하는 것이 좋습니다.If so, consider using the option to set some data aside for testing. 백분율을 선택할 수 있으며 원하는 경우 지정된 행 수로 상한을 정할 수 있습니다.You can choose a percentage, and cap that by a specified number of rows if desired.

데이터 마이닝 마법사 시작Starting the Data Mining Wizard

데이터 마이닝 마법사를 사용하려면 SQL Server Data Tools(SSDT)SQL Server Data Tools (SSDT) 에서 데이터 마이닝 또는 OLAP 프로젝트가 하나 이상 포함된 솔루션을 열어야 합니다.To use the Data Mining Wizard, you must have opened a solution in SQL Server Data Tools(SSDT)SQL Server Data Tools (SSDT) that contains at least one data mining or OLAP project.

  • 솔루션이 데이터 마이닝을 사용할 준비가 되어 있는 경우 솔루션 탐색기에서 마이닝 구조 노드를 마우스 오른쪽 단추로 클릭하고 새 마이닝 구조 를 선택하면 마법사가 시작됩니다.If your solution is ready for data mining, you can simply right-click the Mining Structures node in Solution Explorer and select New Mining Structure to start the wizard.

  • 솔루션에 기존 프로젝트가 포함되어 있지 않은 경우 새 데이터 마이닝 프로젝트를 추가할 수 있습니다.If your solution does not contain any existing projects, you can add a new data mining project. 파일 메뉴에서 새로 만들기를 선택한 다음 프로젝트를 선택합니다.From the File menu, select New, and then select Project. Analysis Services 다차원 및 데이터 마이닝 프로젝트템플릿을 선택합니다.Be sure to choose the template, Analysis Services Multidimensional and Data Mining Project.

  • Analysis Services 가져오기 마법사를 사용하여 기존 데이터 마이닝 솔루션의 메타데이터를 가져올 수도 있습니다.You can also use the Analysis Services Import Wizard to obtain metadata from an existing data mining solution. 하지만 개별 개체를 가져오도록 선택할 수는 없습니다. 모든 큐브, 데이터 원본 뷰 등이 포함된 전체 데이터베이스를 가져와야 합니다. 가져오기를 통해 만들어지는 새 솔루션은 자동으로 로컬 기본 데이터베이스를 사용하도록 구성됩니다.However, you cannot select the individual objects to import; the entire database is imported, including any cubes, data source views, etc. Also note that the new solution that is created via import is automatically configured to use the local default database. 개체를 처리하거나 찾아보기 전에 다른 인스턴스를 사용하도록 이 설정을 변경할 수 있습니다. 이전 버전의 Analysis ServicesAnalysis Services에서 가져오는 경우 공급자에 대한 참조를 업데이트해야 합니다.You might need to change this to another instance before you can process or browse the objects, and if you are importing from a previous version of Analysis ServicesAnalysis Services, you might need to update references to providers.

    다음에는 마이닝 구조 및 이와 연결된 하나의 데이터 마이닝 모델을 만듭니다.Next, you will create the mining structure and one associated data mining model. 마이닝 구조만 만들고 모델은 나중에 추가할 수도 있지만 일반적으로 테스트 모델을 먼저 만드는 것이 더 편리합니다.You can also create just the mining structure and add models later, but it is generally easiest to create a test model first.

관계형 마이닝 모델과 OLAP 마이닝 모델 비교Relational vs. OLAP Mining Models

다음으로는 관계형 데이터 원본을 사용할지 아니면 다차원(OLAP) 데이터를 기반으로 모델을 만들지 선택해야 합니다.The next important option that you have is whether to use a relational data source, or to base your model on multidimensional (OLAP) data.

이 시점에서 데이터 원본이 관계형인지, 아니면 큐브에 있는지에 따라 데이터 마이닝 마법사는 두 경로로 나뉩니다.The Data Mining Wizard branches into two paths at this point, depending on whether your data source is relational or in a cube. 데이터 선택 과정 이외의 모든 과정(예: 알고리즘 선택, 홀드아웃 데이터 집합을 추가하는 기능 등)은 동일합니다. 하지만 큐브 데이터를 선택하는 과정은 관계형 데이터를 사용하는 경우보다 좀 더 복잡합니다.Everything else except the data selection process is the same—the choice of algorithm, the ability to add a holdout data set, etc.—but selecting cube data is a bit more complex than using relational data. 큐브를 기반으로 모델을 만드는 경우 마지막에 몇 가지 옵션을 더 선택해야 합니다.(You also get some additional options at the end if you create a model based on a cube.)

각 옵션에 대한 자세한 내용은 다음 항목을 참조하십시오.See the following topics for a walkthrough of each option in more detail:

관계형 마이닝 구조 만들기Create a Relational Mining Structure
관계형 데이터 마이닝 모델을 작성할 때 결정하는 사항을 살펴봅니다.Walks you through the decisions you make when building a relational data mining model.

OLAP 마이닝 구조 만들기Create an OLAP Mining Structure
OLAP 큐브에서 데이터를 선택하는 경우의 추가 옵션과 선택 사항에 대해 설명합니다.Describes the additional options and selections to make when choosing data from an OLAP cube.

참고

데이터 마이닝을 위해 큐브 또는 OLAP 데이터베이스가 반드시 필요한 것은 아닙니다.You do not need to have a cube or an OLAP database to do data mining. 데이터가 큐브에 이미 저장되어 있거나 OLAP 차원 또는 OLAP 집계/계산 결과를 마이닝하려는 경우가 아니면 데이터 마이닝에 관계형 테이블 또는 데이터 원본을 사용하는 것이 좋습니다.Unless your data is already stored in a cube, or you want to mine OLAP dimensions or the results of OLAP aggregations or calculations, we recommend that you use a relational table or data source for data mining.

알고리즘 선택Choosing an Algorithm

다음에는 데이터를 처리할 때 사용할 알고리즘을 결정해야 합니다.Next, you must decide on which algorithm to use in processing your data. 이 결정은 내리기 어려운 결정일 수 있습니다.This decision can be difficult to make. Analysis ServicesAnalysis Services 에서 제공하는 각 알고리즘은 기능이 서로 다르며 서로 다른 결과를 생성하므로 사용자의 데이터와 비즈니스 문제에 가장 적합한 알고리즘을 결정하려면 여러 모델을 실험해 보는 것이 좋습니다.Each algorithm provided in Analysis ServicesAnalysis Services has different features and produces different results, so you can experiment and try several different models before determining which is most appropriate for your data and your business problem. 알고리즘별로 가장 적합한 태스크에 대한 설명을 보려면 다음 항목을 참조하십시오.See the following topic for an explanation of the tasks to which each algorithm is best suited:

데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)Data Mining Algorithms (Analysis Services - Data Mining)

다양한 알고리즘을 사용하여 여러 모델을 만들거나 알고리즘의 매개 변수를 변경하여 다양한 모델을 만들 수 있습니다.Again, you can create multiple models using different algorithms, or change parameters for the algorithms to create different models. 선택한 알고리즘으로만 제한되는 것이 아니므로 하나의 데이터에 대해 여러 가지 다른 모델을 만드는 것이 좋습니다.You are not locked into your choice of algorithm, and it is good practice to create several different models on the same data.

모델링에 사용되는 데이터 정의Define the Data Used for Modeling

원본에서 데이터를 선택하는 것 외에도 데이터 원본 뷰에서 사례 데이터를 포함하는 테이블을 지정해야 합니다.In addition to choosing the data from a source, you must specify which of the table in the data source view contains the case data. 사례 테이블은 데이터 마이닝 모델을 학습하는 데 사용되므로 고객 및 고객의 인구 통계 정보와 같이 분석할 엔터티를 포함해야 합니다.The case table will be used to train the data mining model, and as such should contain the entities that you want to analyze: for example, customers and their demographic information. 각 사례는 고유해야 하며 사례 키로 식별할 수 있어야 합니다.Each case must be unique, and must be identifiable by a case key.

사례 테이블 지정 외에도 데이터에 중첩 테이블 을 포함할 수 있습니다.In addition to specifying the case table, you can include nested tables in your data. 중첩 테이블에는 일반적으로 고객이 수행한 트랜잭션 또는 엔터티와 다 대 일 관계에 있는 특성과 같은 사례 테이블의 엔터티에 대한 추가 정보가 포함되어 있습니다.A nested table usually contains additional information about the entities in the case table, such as transactions conducted by the customer, or attributes that have a many-to-one relationship with the entity. 예를 들어 Customers 사례 테이블에 조인된 중첩 테이블에는 각 고객이 구매한 제품 목록이 포함될 수 있습니다.For example, a nested table joined to the Customers case table might include a list of products purchased by each customer. 웹 사이트에 대한 트래픽을 분석하는 모델에서 중첩 테이블은 사용자가 방문한 페이지 시퀀스를 포함할 수 있습니다.In a model that analyzes traffic to a Web site, the nested table might include the sequences of pages that the user visited. 자세한 내용은 중첩 테이블(Analysis Services - 데이터 마이닝)을 참조하세요.For more information, see Nested Tables (Analysis Services - Data Mining)

추가 기능Additional Features

적절한 데이터를 선택하고 데이터 원본을 올바르게 구성할 수 있도록 데이터 마이닝 마법사는 다음과 같은 추가 기능을 제공합니다.To assist you in choosing the right data, and configuring the data sources correctly, the Data Mining Wizard provides these additional features:

  • 데이터 형식 자동 검색: 마법사는 열 값의 고유성 및 분포를 검사한 다음 최적의 데이터 형식을 추천하고 데이터의 사용 유형을 제안합니다.Auto -detection of data types: The wizard will examine the uniqueness and distribution of column values and then recommend the best data type, and suggest a usage type for the data. 목록에서 값을 선택하여 이러한 제안을 무시할 수 있습니다.You can override these suggestions by selecting values from a list.

  • 변수 제안: 대화 상자를 클릭하여 현재까지의 모델 구성을 기준으로 모델에 포함된 열 사이의 상관 관계를 계산하고 결과 특성을 예측하는 요소가 될 수 있는 열을 결정하는 분석기를 시작할 수 있습니다.Suggestions for variables: You can click on a dialog box and start an analyzer that calculates correlations across the columns included in the model, and determines whether any columns are likely predictors of the outcome attribute, given the configuration of the model so far. 다른 값을 입력하여 이러한 제안을 무시할 수 있습니다.You can override these suggestions by typing different values.

  • 기능 선택: 대부분의 알고리즘은 적절한 예측 요소가 될 수 있는 열을 자동으로 검색하여 이러한 열을 우선적으로 사용합니다.Feature selection: Most algorithms will automatically detect columns that are good predictors and use those preferentially. 값이 너무 많이 포함된 열의 경우 데이터 카디널리티를 줄이고 의미 있는 패턴을 찾는 기회를 늘리기 위해 기능 선택 이 적용됩니다.In columns that contain too many values, feature selection will be applied, to reduce the cardinality of the data and improve the chances for finding a meaningful pattern. 모델 매개 변수를 사용하여 기능 선택 동작을 조정할 수 있습니다.You can affect feature selection behavior by using model parameters.

  • 자동 큐브 조각화: 마이닝 모델이 OLAP 데이터 원본을 기반으로 하는 경우 큐브 특성을 사용하여 모델을 조각화하는 기능이 자동으로 제공됩니다.Automatic cube slicing: If your mining model is based on an OLAP data source, the ability to slice the model by using cube attributes is automatically provided. 이 기능은 큐브 데이터의 하위 집합을 기반으로 모델을 만드는 데 유용합니다.This is handy for crating models based on subsets of cube data.

마법사 완료Completing the Wizard

마법사의 마지막 단계는 마이닝 구조 및 관련 마이닝 모델의 이름을 지정하는 것입니다.The last step in the wizard is to name the mining structure and the associated mining model. 만들어진 모델의 유형에 따라 다음과 같은 옵션을 선택할 수도 있습니다.Depending on the type of model you created, you might also have the following important options:

  • 드릴스루 허용을 선택하는 경우 모델에 드릴스루 기능이 설정됩니다.If you select Allow drill through, the ability to drill through is enabled in the model. 적절한 권한이 있는 사용자는 드릴스루 기능을 통해 모델을 작성하는 데 사용된 원본 데이터를 탐색할 수 있습니다.With drillthrough, users who have the appropriate permissions can explore the source data that is used to build the model.

  • OLAP 모델을 작성하는 경우 새 마이닝 모델 큐브 만들기또는 데이터 마이닝 차원 만들기옵션을 선택할 수 있습니다.If you are building an OLAP model, you can select the options, Create a new data mining cube, or Create a data mining dimension. 이러한 옵션을 사용하면 더 쉽게 완성된 모델을 검색하고 기본 데이터로 드릴스루할 수 있습니다.Both these options make it easier to browse the completed model and drill through to the underlying data.

    데이터 마이닝 마법사를 완료한 후에는 데이터 마이닝 디자이너를 사용하여 마이닝 구조 및 모델을 수정하거나, 모델의 정확도를 보거나, 구조 및 모델의 특징을 보거나, 모델을 사용하여 예측을 수행합니다.After you complete the Data Mining Wizard, you use Data Mining Designer to modify the mining structure and models, to view the accuracy of the model, view characteristics of the structure and models, or make predictions by using the models.

    맨 위로 이동Back to Top

데이터 마이닝 모델을 만들 때 결정해야 하는 사항에 대해 더 자세히 알아보려면 다음 링크를 참조하십시오.To learn more about the decisions you need to make when creating a data mining model, see the following links:

데이터 마이닝 알고리즘(Analysis Services - 데이터 마이닝)Data Mining Algorithms (Analysis Services - Data Mining)

콘텐츠 형식(데이터 마이닝)Content Types (Data Mining)

데이터 형식(데이터 마이닝)Data Types (Data Mining)

기능 선택(데이터 마이닝)Feature Selection (Data Mining)

누락 값(Analysis Services - 데이터 마이닝)Missing Values (Analysis Services - Data Mining)

마이닝 모델에 대한 드릴스루Drillthrough on Mining Models

관련 항목:See Also

데이터 마이닝 도구 Data Mining Tools
데이터 마이닝 솔루션Data Mining Solutions