Основные понятия интеллектуального анализа данныхData Mining Concepts

Применимо к: SQL Server Analysis Services Azure Analysis Services Power BI Premium

Важно!

В SQL Server Analysis Services 2017 не рекомендуется использовать интеллектуальный анализ данных.Data mining is deprecated in SQL Server Analysis Services 2017. Документация не обновлена для устаревших функций.Documentation is not updated for deprecated features. Analysis Services обратной совместимости.Analysis Services backward compatibility.

Интеллектуальный анализ данных представляет собой процесс обнаружения пригодных к использованию сведений в крупных наборах данных.Data mining is the process of discovering actionable information from large sets of data. В интеллектуальном анализе данных применяется математический анализ для выявления закономерностей и тенденций, существующих в данных.Data mining uses mathematical analysis to derive patterns and trends that exist in data. Обычно такие закономерности нельзя обнаружить при традиционном просмотре данных, поскольку связи слишком сложны, или из-за чрезмерного объема данных.Typically, these patterns cannot be discovered by traditional data exploration because the relationships are too complex or because there is too much data.

Эти закономерности и тренды можно собрать вместе и определить как модель интеллектуального анализа данных.These patterns and trends can be collected and defined as a data mining model. Модели интеллектуального анализа данных могут применяться к конкретным сценариям, а именно:Mining models can be applied to specific scenarios, such as:

  • Прогнозирование: оценка продаж, прогнозирование нагрузки сервера или времени простоя сервераForecasting: Estimating sales, predicting server loads or server downtime

  • Риск и вероятность: выбор наиболее подходящих заказчиков для целевой рассылки, определение точки равновесия для рискованных сценариев, назначение вероятностей диагнозам или другим результатамRisk and probability: Choosing the best customers for targeted mailings, determining the probable break-even point for risk scenarios, assigning probabilities to diagnoses or other outcomes

  • Рекомендации: определение продуктов, которые с высокой долей вероятности могут быть проданы вместе, создание рекомендацийRecommendations: Determining which products are likely to be sold together, generating recommendations

  • Поиск последовательностей: анализ выбора заказчиков во время совершения покупок, прогнозирование следующего возможного событияFinding sequences: Analyzing customer selections in a shopping cart, predicting next likely events

  • Группирование: разделение заказчиков или событий на кластеры связанных элементов, анализ и прогнозирование общих чертGrouping: Separating customers or events into cluster of related items, analyzing and predicting affinities

Построение модели интеллектуального анализа данных является частью более масштабного процесса, в который входят все задачи, от формулировки вопросов относительно данных и создания модели для ответов на эти вопросы до развертывания модели в рабочей среде.Building a mining model is part of a larger process that includes everything from asking questions about the data and creating a model to answer those questions, to deploying the model into a working environment. Этот процесс можно представить как последовательность следующих шести базовых шагов.This process can be defined by using the following six basic steps:

  1. Постановка задачиDefining the Problem

  2. Подготовка данныхPreparing Data

  3. изучение данных;Exploring Data

  4. построение моделей;Building Models

  5. Исследование и проверка моделейExploring and Validating Models

  6. Развертывание и обновление моделейDeploying and Updating Models

На следующей схеме описываются связи между каждым этапом процесса и технологиями MicrosoftMicrosoft SQL ServerSQL Server , которые можно использовать для выполнения каждого шага.The following diagram describes the relationships between each step in the process, and the technologies in MicrosoftMicrosoft SQL ServerSQL Server that you can use to complete each step.

Основные этапы процесса интеллектуального анализа данныхKey steps in data mining process

Процесс, представленный на следующей диаграмме, является циклическим, то есть создание аналитической модели данных является динамическим и повторяющимся процессом.The process illustrated in the diagram is cyclical, meaning that creating a data mining model is a dynamic and iterative process. Выполнив просмотр данных, пользователь может обнаружить, что данных недостаточно для создания требуемых моделей интеллектуального анализа данных, что ведет к необходимости поиска дополнительных данных.After you explore the data, you may find that the data is insufficient to create the appropriate mining models, and that you therefore have to look for more data. Также может возникнуть ситуация, когда после построения нескольких моделей окажется, что они не дают адекватный ответ на поставленную задачу, и поэтому необходимо поставить задачу по-другому.Alternatively, you may build several models and then realize that the models do not adequately answer the problem you defined, and that you therefore must redefine the problem. Может возникнуть необходимость в обновлении уже развернутых моделей за счет новых поступивших данных.You may have to update the models after they have been deployed because more data has become available. Для создания хорошей модели может понадобиться многократно повторить каждый шаг процесса.Each step in the process might need to be repeated many times in order to create a good model.

Интеллектуальный анализ данных Microsoft SQL Server предоставляет интегрированную среду для создания моделей интеллектуального анализа данных и работы с ними.Microsoft SQL Server Data Mining provides an integrated environment for creating and working with data mining models. Эта среда включает программу SQL Server Development Studio, которая содержит алгоритмы интеллектуального анализа данных и средства создания запросов, которые облегчают создание полноценного решения для нескольких проектов. Кроме того, эта среда включает компонент SQL Server Management StudioSQL Server Management Studio, который содержит средства для поиска моделей и управления объектами интеллектуального анализа данных.This environment includes SQL Server Development Studio, which contains data mining algorithms and query tools that make it easy to build a comprehensive solution for a variety of projects, and SQL Server Management StudioSQL Server Management Studio, which contains tools for browsing models and managing data mining objects. Дополнительные сведения см. в разделе Создание многомерных моделей с помощью SQL Server Data Tools (SSDT).For more information, see Creating Multidimensional Models Using SQL Server Data Tools (SSDT).

Пример применения средств SQL ServerSQL Server в бизнес-сценарии см. в разделе Учебник по основам интеллектуального анализа данных.For an example of how the SQL ServerSQL Server tools can be applied to a business scenario, see the Basic Data Mining Tutorial.

Определение проблемыDefining the Problem

Первым шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является четкое определение проблемы и рассмотрение способов использования данных для решения проблемы.The first step in the data mining process, as highlighted in the following diagram, is to clearly define the problem, and consider ways that data can be utilized to provide an answer to the problem.

Первый шаг интеллектуального анализа данных: постановка задачиData mining first step: defining the problem

Этот шаг включает анализ бизнес-требований, определение области проблемы, метрик, по которым будет выполняться оценка модели, а также определение задач для проекта интеллектуального анализа данных.This step includes analyzing business requirements, defining the scope of the problem, defining the metrics by which the model will be evaluated, and defining specific objectives for the data mining project. Эти задачи можно сформулировать в виде следующих вопросов.These tasks translate into questions such as the following:

  • Что необходимо найти?What are you looking for? Какие типы связей необходимо найти?What types of relationships are you trying to find?

  • Отражает ли решаемая задача бизнес-правила или бизнес-процессы?Does the problem you are trying to solve reflect the policies or processes of the business?

  • Надо ли делать прогнозы на основании модели интеллектуального анализа данных или просто найти содержательные закономерности и взаимосвязи?Do you want to make predictions from the data mining model, or just look for interesting patterns and associations?

  • Какой результат или атрибут необходимо спрогнозировать?Which outcome or attribute do you want to try to predict?

  • Какие виды данных нужно иметь и какого рода информация находится в каждом столбце?What kind of data do you have and what kind of information is in each column? Если существует несколько таблиц, как они связаны?If there are multiple tables, how are the tables related? Нужно ли выполнять очистку, статистическую обработку или обработку, чтобы данные стали применимыми?Do you need to perform any cleansing, aggregation, or processing to make the data usable?

  • Каким образом распределяются данные?How is the data distributed? Являются ли данные сезонными?Is the data seasonal? Дают ли данные точное представление бизнес-процессов?Does the data accurately represent the processes of the business?

Чтобы ответить на эти вопросы, возможно, потребуется исследовать уровень доступности данных, изучить потребности пользователей в отношении доступных данных.To answer these questions, you might have to conduct a data availability study, to investigate the needs of the business users with regard to the available data. Если данные не поддерживают потребности пользователей, то может возникнуть необходимость в изменении определения проекта.If the data does not support the needs of the users, you might have to redefine the project.

Также необходимо рассмотреть способы для учета результатов модели в ключевых показателях эффективности, которые используются для оценки ведения бизнеса.You also need to consider the ways in which the results of the model can be incorporated in key performance indicators (KPI) that are used to measure business progress.

Подготовка данныхPreparing Data

Вторым шагом процесса интеллектуального анализа данных, как видно из следующей диаграммы, является объединение и очистка данных, определенных во время шага Постановка задачи .The second step in the data mining process, as highlighted in the following diagram, is to consolidate and clean the data that was identified in the Defining the Problem step.

Второй шаг интеллектуального анализа данных: подготовка данныхData mining second step: preparing data

Данные могут находиться в разных частях компании и храниться в различных форматах или содержать такие ошибки согласования, как неверные или отсутствующие записи.Data can be scattered across a company and stored in different formats, or may contain inconsistencies such as incorrect or missing entries. Например, согласно данным, может оказаться, что клиент купил товар до того, как тот появился на рынке, или регулярно делает покупки в магазине, расположенном за 3 000 километров от дома.For example, the data might show that a customer bought a product before the product was offered on the market, or that the customer shops regularly at a store located 2,000 miles from her home.

Очистка данных — это не только удаление недопустимых данных или интерполяция отсутствующих значений, но и поиск в данных скрытых зависимостей, определение источников самых точных данных и подбор столбцов, которые больше всего подходят для использования в анализе.Data cleaning is not just about removing bad data or interpolating missing values, but about finding hidden correlations in the data, identifying sources of data that are the most accurate, and determining which columns are the most appropriate for use in analysis. Например, следует ли использовать дату отгрузки или дату заказа?For example, should you use the shipping date or the order date? Какой фактор сильнее всего влияет на продажи — количество товара, итоговая цена или цена со скидкой?Is the best sales influencer the quantity, total price, or a discounted price? Неполные данные, ошибочные данные и входные параметры, которые выглядят как независимые, но на самом деле имеют прочную взаимосвязь, могут непредвиденным образом повлиять на результаты модели.Incomplete data, wrong data, and inputs that appear separate but in fact are strongly correlated all can influence the results of the model in ways you do not expect.

Поэтому перед началом построения моделей интеллектуального анализа данных следует выявить такие проблемы и определить, как их устранить.Therefore, before you start to build mining models, you should identify these problems and determine how you will fix them. Во время интеллектуального анализа данных выполняется работа с большими наборами данных и нет возможности проверить каждую транзакцию на предмет качества данных. Поэтому иногда может потребоваться использовать некую форму профилирования данных и средства автоматической очистки и фильтрации данных, например средства, содержащиеся в Службы Integration ServicesIntegration Services, Службы Microsoft SQL Server 2012 Master Data ServicesMicrosoft SQL Server 2012 Master Data Servicesили Службы SQL Server Data Quality ServicesSQL Server Data Quality Services , чтобы исследовать данные и определить несоответствия.For data mining typically you are working with a very large dataset and cannot examine every transaction for data quality; therefore, you might need to use some form of data profiling and automated data cleansing and filtering tools, such as those supplied in Службы Integration ServicesIntegration Services, Службы Microsoft SQL Server 2012 Master Data ServicesMicrosoft SQL Server 2012 Master Data Services, or Службы SQL Server Data Quality ServicesSQL Server Data Quality Services to explore the data and find the inconsistencies. Для получения дополнительных сведений см. следующие ресурсы.For more information, see these resources:

Важно заметить, что данные, используемые для интеллектуального анализа, не обязательно хранить в кубе аналитической обработки в сети (OLAP) или в реляционной базе данных, хотя оба эти типа объектов можно использовать в качестве источника данных.It is important to note that the data you use for data mining does not need to be stored in an Online Analytical Processing (OLAP) cube, or even in a relational database, although you can use both of these as data sources. Интеллектуальный анализ данных можно проводить с помощью любого источника, определенного как источник данных служб Службы Analysis ServicesAnalysis Services .You can conduct data mining using any source of data that has been defined as an Службы Analysis ServicesAnalysis Services data source. Сюда могут относиться текстовые файлы, книги Excel или данные из других внешних поставщиков.These can include text files, Excel workbooks, or data from other external providers. Дополнительные сведения см. в разделе Поддерживаемые источники данных (службы SSAS — многомерные базы данных).For more information, see Supported Data Sources (SSAS - Multidimensional).

Просмотр данныхExploring Data

Третьим шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является просмотр подготовленных данных.The third step in the data mining process, as highlighted in the following diagram, is to explore the prepared data.

Третий шаг интеллектуального анализа данных: изучение данныхData mining third step: exploring data

Для принятия правильных решений при создании моделей интеллектуального анализа данных необходимо понимать данные.You must understand the data in order to make appropriate decisions when you create the mining models. Методы исследования данных включают в себя расчет минимальных и максимальных значений, вычисление средневероятного и стандартного отклонения и изучение распределения данных.Exploration techniques include calculating the minimum and maximum values, calculating mean and standard deviations, and looking at the distribution of the data. Например, по максимальному, минимальному и среднему значениям можно заключить, что выборка данных не является репрезентативной для имеющихся клиентов или бизнес-процессов, и поэтому необходимо получить более сбалансированные данные или изменить предположения, лежащие в основе ожидаемых результатов.For example, you might determine by reviewing the maximum, minimum, and mean values that the data is not representative of your customers or business processes, and that you therefore must obtain more balanced data or review the assumptions that are the basis for your expectations. Стандартное отклонение и другие характеристики распределения могут сообщить полезные сведения о стабильности и точности результатов.Standard deviations and other distribution values can provide useful information about the stability and accuracy of the results. Большая величина стандартного отклонения может свидетельствовать о том, что добавление новых данных поможет усовершенствовать модель.A large standard deviation can indicate that adding more data might help you improve the model. Данные, которые сильно отклоняются от стандартного распределения, могут оказаться искаженными или представлять точную картину реальной проблемы, которая делает сложным подбор соответствующей модели для данных.Data that strongly deviates from a standard distribution might be skewed, or might represent an accurate picture of a real-life problem, but make it difficult to fit a model to the data.

Изучение данных в свете собственных представлений о бизнес-проблеме может привести к выводу о наличии ошибок в наборе данных, и затем можно выработать стратегию для устранения проблем или получить более глубокое представление о моделях поведения, характерных для бизнеса.By exploring the data in light of your own understanding of the business problem, you can decide if the dataset contains flawed data, and then you can devise a strategy for fixing the problems or gain a deeper understanding of the behaviors that are typical of your business.

Для просмотра доступных источников данных и определения их доступности для интеллектуального анализа данных используйте средства Службы Master Data ServicesMaster Data Services .You can use tools such as Службы Master Data ServicesMaster Data Services to canvass available sources of data and determine their availability for data mining. Для анализа распределения данных и устранения проблем, таких как неверные или отсутствующие данные, воспользуйтесь таким средством, как Службы SQL Server Data Quality ServicesSQL Server Data Quality Services, или профилировщиком данных в службах Integration Services.You can use tools such as Службы SQL Server Data Quality ServicesSQL Server Data Quality Services, or the Data Profiler in Integration Services, to analyze the distribution of your data and repair issues such as wrong or missing data.

После определения источников их следует объединить в представлении источников данных с помощью конструктора представлений источников данных в SQL Server Data ToolsSQL Server Data Tools.After you have defined your sources, you combine them in a Data Source view by using the Data Source View Designer in SQL Server Data ToolsSQL Server Data Tools. Дополнительные сведения см. в разделе Представления источников данных в многомерных моделях.For more information, see Data Source Views in Multidimensional Models. Конструктор содержит также ряд средств, которые можно использовать для просмотра данных и определения того, подходят ли они для создания модели.This designer also contains some several tools that you can use to explore the data and verify that it will work for creating a model. Дополнительные сведения см. в разделе Просмотр данных в представлении источника данных (службы Analysis Services).For more information, see Explore Data in a Data Source View (Analysis Services).

Обратите внимание, что во время создания модели службы Службы Analysis ServicesAnalysis Services автоматически создают статистические сводки по данным, содержащимся в модели, и эти сводки можно запрашивать для использования в отчетах или при дальнейшем анализе.Note that when you create a model, Службы Analysis ServicesAnalysis Services automatically creates statistical summaries of the data contained in the model, which you can query to use in reports or further analysis. Дополнительные сведения см. в статье Запросы интеллектуального анализа данных.For more information, see Data Mining Queries.

Создание моделейBuilding Models

Четвертым шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является построение моделей интеллектуального анализа данных.The fourth step in the data mining process, as highlighted in the following diagram, is to build the mining model or models. Знания, полученные при выполнении шага Просмотр данных , помогут определить и создать модели.You will use the knowledge that you gained in the Exploring Data step to help define and create the models.

Четвертый шаг интеллектуального анализа данных: построение моделей интеллектуального анализа данныхData mining fourth step: building mining models

Пользователь определяет столбцы данных, которые должны быть использованы, путем создания структуры интеллектуального анализа данных.You define the columns of data that you want to use by creating a mining structure. Структура интеллектуального анализа связана с источником данных, но не содержит никаких данных до обработки.The mining structure is linked to the source of data, but does not actually contain any data until you process it. Во время обработки структуры интеллектуального анализа службы Службы Analysis ServicesAnalysis Services создают статистические выражения и другие статистические данные, которые могут использоваться в анализе.When you process the mining structure, Службы Analysis ServicesAnalysis Services generates aggregates and other statistical information that can be used for analysis. Эти данные могут использоваться любой моделью интеллектуального анализа данных, которая основана на этой структуре.This information can be used by any mining model that is based on the structure. Дополнительные сведения о связи между структурами и моделями интеллектуального анализа данных см. в разделе Логическая архитектура (службы Analysis Services — интеллектуальный анализ данных).For more information about how mining structures are related to mining models, see Logical Architecture (Analysis Services - Data Mining).

Модель интеллектуального анализа данных перед обработкой структуры и модели является просто контейнером, который задает столбцы, используемые для входных данных, прогнозируемый атрибут и параметры, управляющие алгоритмом обработки данных.Before the structure and model is processed, a data mining model too is just a container that specifies the columns used for input, the attribute that you are predicting, and parameters that tell the algorithm how to process the data. Обработку модели часто называют обучением.Processing a model is often called training. Обучение обозначает процесс применения некоторого математического алгоритма к данным в структуре с целью выявить закономерности.Training refers to the process of applying a specific mathematical algorithm to the data in the structure in order to extract patterns. Закономерности, обнаруженные в процессе обучения, зависят от выбора обучающих данных, выбранного алгоритма и его конфигурации.The patterns that you find in the training process depend on the selection of training data, the algorithm you chose, and how you have configured the algorithm. SQL Server 2017SQL Server 2017 содержит множество различных алгоритмов, каждый из которых предназначен для задач различных типов и создает модель, отличную от других.contains many different algorithms, each suited to a different type of task, and each creating a different type of model. Список алгоритмов в SQL Server 2017SQL Server 2017 см. в разделе Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).For a list of the algorithms provided in SQL Server 2017SQL Server 2017, see Data Mining Algorithms (Analysis Services - Data Mining).

Для настройки каждого алгоритма используются параметры, и кроме того, можно применить фильтры к обучающим данным, чтобы использовать только их подмножество, что приведет к получению других результатов.You can also use parameters to adjust each algorithm, and you can apply filters to the training data to use just a subset of the data, creating different results. После прохождения данных через модель объект модели интеллектуального анализа данных будет содержать сводные данные и закономерности, которые можно запрашивать и использовать для прогнозирования.After you pass data through the model, the mining model object contains summaries and patterns that can be queried or used for prediction.

Новую модель можно определить с помощью мастера интеллектуального анализа данных в среде SQL Server Data ToolsSQL Server Data Toolsили с помощью языка расширений интеллектуального анализа данных.You can define a new model by using the Data Mining Wizard in SQL Server Data ToolsSQL Server Data Tools, or by using the Data Mining Extensions (DMX) language. Дополнительные сведения об использовании мастера интеллектуального анализа данных см. в разделе Мастер интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).For more information about how to use the Data Mining Wizard, see Data Mining Wizard (Analysis Services - Data Mining). Дополнительные сведения об использовании расширений интеллектуального анализа данных см. в разделе Справочник по расширениям интеллектуального анализа данных.For more information about how to use DMX, see Data Mining Extensions (DMX) Reference.

Важно помнить, что при любом изменении данных необходимо обновить и структуру, и модель интеллектуального анализа данных.It is important to remember that whenever the data changes, you must update both the mining structure and the mining model. Когда структура интеллектуального анализа данных обновляется путем повторной обработки, службы Службы Analysis ServicesAnalysis Services получают данные из источника, в том числе новые данные, если источник динамически обновляется, и повторно заполняет структуру интеллектуального анализа данных.When you update a mining structure by reprocessing it, Службы Analysis ServicesAnalysis Services retrieves data from the source, including any new data if the source is dynamically updated, and repopulates the mining structure. Если на этой структуре основаны существующие модели, можно обновить эти модели, что будет означать их повторное обучение с новыми данными, или оставить модели без изменений.If you have models that are based on the structure, you can choose to update the models that are based on the structure, which means they are retrained on the new data, or you can leave the models as is. Дополнительные сведения см. в разделе Требования к обработке и связанные замечания (интеллектуальный анализ данных).For more information, see Processing Requirements and Considerations (Data Mining).

Исследование и проверка моделейExploring and Validating Models

Пятым шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является исследование построенных моделей интеллектуального анализа данных и проверка их эффективности.The fifth step in the data mining process, as highlighted in the following diagram, is to explore the mining models that you have built and test their effectiveness.

Пятый шаг интеллектуального анализа данных: проверка моделей интеллектуального анализа данныхData mining fifth step: validating mining models

Перед развертыванием модели в рабочей среде необходимо проверить эффективность работы модели.Before you deploy a model into a production environment, you will want to test how well the model performs. Кроме того, во время построения модели обычно создается несколько моделей с различной конфигурацией, а затем проверяются все модели, чтобы определить, какая из них обеспечивает лучшие результаты для поставленной задачи и имеющихся данных.Also, when you build a model, you typically create multiple models with different configurations and test all models to see which yields the best results for your problem and your data.

Службы Analysis ServicesAnalysis Services предоставляют средства, упрощающие разделение данных на набор данных для обучения и проверочный набор данных, чтобы можно было точно оценить производительность всех моделей, основанных на одних и тех же данных.provides tools that help you separate your data into training and testing datasets so that you can accurately assess the performance of all models on the same data. Набор данных для обучения используется в ходе построения модели, а набор проверочных данных — для проверки точности модели путем создания прогнозирующих запросов.You use the training dataset to build the model, and the testing dataset to test the accuracy of the model by creating prediction queries. Это секционирование можно выполнить автоматически при построении модели интеллектуального анализа данных.This partitioning can be done automatically while building the mining model. Дополнительные сведения см. в разделе Тестирование и проверка (интеллектуальный анализ данных).For more information, see Testing and Validation (Data Mining).

Тенденции и закономерности, обнаруживаемые алгоритмами, можно исследовать при помощи средств просмотра в конструкторе интеллектуального анализа данных в среде SQL Server Data ToolsSQL Server Data Tools.You can explore the trends and patterns that the algorithms discover by using the viewers in Data Mining Designer in SQL Server Data ToolsSQL Server Data Tools. Дополнительные сведения см. в статье Средства просмотра моделей интеллектуального анализа данных.For more information, see Data Mining Model Viewers. Точность прогнозов, создаваемых моделями, можно проверить при помощи таких средств конструктора, как диаграмма точности прогнозов и матрица классификации.You can also test how well the models create predictions by using tools in the designer such as the lift chart and classification matrix. Чтобы проверить, ограничена применимость модели имеющимися данными или она может использоваться для совершения выводов относительно генеральной совокупности, можно применить статистический метод, называемый перекрестной проверкой , чтобы автоматически создать подмножества данных и проверить модель по каждому подмножеству.To verify whether the model is specific to your data, or may be used to make inferences on the general population, you can use the statistical technique called cross-validation to automatically create subsets of the data and test the model against each subset. Дополнительные сведения см. в разделе Тестирование и проверка (интеллектуальный анализ данных).For more information, see Testing and Validation (Data Mining).

Если ни одна из моделей, созданных при выполнении шага Построение моделей , не обладает нужной эффективностью, может возникнуть необходимость вернуться к предыдущему шагу процесса и либо изменить постановку задачи либо выполнить повторное изучение данных в исходном наборе данных.If none of the models that you created in the Building Models step perform well, you might have to return to a previous step in the process and redefine the problem or reinvestigate the data in the original dataset.

Развертывание и обновление моделейDeploying and Updating Models

Последним шагом процесса интеллектуального анализа данных, как видно из диаграммы ниже, является развертывание наиболее эффективных моделей в рабочей среде.The last step in the data mining process, as highlighted in the following diagram, is to deploy the models that performed the best to a production environment.

Шестой шаг интеллектуального анализа данных: развертывание моделей интеллектуального анализа данныхData mining sixth step: deploying mining models

После развертывания моделей интеллектуального анализа данных в рабочей среде можно выполнять множество задач, соответствующих потребностям пользователя.After the mining models exist in a production environment, you can perform many tasks, depending on your needs. Ниже перечислены некоторые задачи, доступные для выполнения.The following are some of the tasks you can perform:

  • Используйте модели для создания прогнозов, которые можно затем использовать для принятия бизнес-решений.Use the models to create predictions, which you can then use to make business decisions. SQL ServerSQL Server предоставляет язык расширений интеллектуального анализа данных, который можно использовать для создания запросов прогнозирования, и построитель запросов прогнозирования, облегчающий процесс построения запросов.provides the DMX language that you can use to create prediction queries, and Prediction Query Builder to help you build the queries. Дополнительные сведения см. в разделе Справочник по расширениям интеллектуального анализа данных.For more information, see Data Mining Extensions (DMX) Reference.

  • Создание запросов содержимого для получения статистики, правил или формул из модели.Create content queries to retrieve statistics, rules, or formulas from the model. Дополнительные сведения см. в статье Запросы интеллектуального анализа данных.For more information, see Data Mining Queries.

  • Внедрение функций интеллектуального анализа данных непосредственно в приложение.Embed data mining functionality directly into an application. Можно включать объекты AMO, содержащие набор объектов, которые приложение может использовать для создания, изменения, обработки и удаления структур и моделей интеллектуального анализа данных.You can include Analysis Management Objects (AMO), which contains a set of objects that your application can use to create, alter, process, and delete mining structures and mining models. Кроме того, можно отправлять сообщения XML для аналитики (XMLA) напрямую в экземпляр служб Службы Analysis ServicesAnalysis Services.Alternatively, you can send XML for Analysis (XMLA) messages directly to an instance of Службы Analysis ServicesAnalysis Services. Дополнительные сведения см. в статье Разработка (службы Analysis Services — интеллектуальный анализ данных).For more information, see Development (Analysis Services - Data Mining).

  • Использование служб Службы Integration ServicesIntegration Services для создания пакета, в котором модель интеллектуального анализа данных используется для интеллектуального распределения входящих данных по разным таблицам.Use Службы Integration ServicesIntegration Services to create a package in which a mining model is used to intelligently separate incoming data into multiple tables. Например, если база данных постоянно обновляется за счет добавления потенциальных клиентов, модель интеллектуального анализа данных может использоваться совместно со службами Службы Integration ServicesIntegration Services для разбиения входящих данных на клиентов, которые с высокой долей вероятности купят товар, и клиентов, которые с высокой долей вероятности не купят товар.For example, if a database is continually updated with potential customers, you could use a mining model together with Службы Integration ServicesIntegration Services to split the incoming data into customers who are likely to purchase a product and customers who are likely to not purchase a product. Дополнительные сведения см. в статье Типовое использование служб Integration Services.For more information, see Typical Uses of Integration Services.

  • Создание отчета, который позволит пользователям составлять прямые запросы к существующей модели интеллектуального анализа данных.Create a report that lets users directly query against an existing mining model. Дополнительные сведения см. в разделе Службы Reporting Services в SQL Server Data Tools (службы SSDT).For more information, see Reporting Services in SQL Server Data Tools (SSDT).

  • Обновление моделей после просмотра и анализа.Update the models after review and analysis. После любого обновления необходимо выполнить повторную обработку моделей.Any update requires that you reprocess the models. Дополнительные сведения см. в статье Processing Data Mining Objects.For more information, see Processing Data Mining Objects.

  • Динамическое обновление моделей по мере поступления в организацию новых данных и постоянные изменения, направленные на повышение эффективности решения, должны быть частью стратегии развертывания.Update the models dynamically, as more data comes into the organization, and making constant changes to improve the effectiveness of the solution should be part of the deployment strategy. Дополнительные сведения см. в разделе Управление решениями и объектами интеллектуального анализа данных .For more information, see Management of Data Mining Solutions and Objects

См. также:See Also

Решения для интеллектуального анализа данных Data Mining Solutions
Средства интеллектуального анализа данныхData Mining Tools