Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)Data Mining Algorithms (Analysis Services - Data Mining)

Область применения: ДаSQL Server Analysis Services неAzure Analysis ServicesAPPLIES TO: yesSQL Server Analysis Services noAzure Analysis Services

В интеллектуальном анализе данных (или машинном обучении) алгоритм — это набор эвристики и вычислений, который создает на основе данных модель.An algorithm in data mining (or machine learning) is a set of heuristics and calculations that creates a model from data. Чтобы создать модель, алгоритм сначала анализирует предоставленные данные, осуществляя поиск определенных закономерностей и тенденций.To create a model, the algorithm first analyzes the data you provide, looking for specific types of patterns or trends. Алгоритм применяет результаты этого анализа ко множеству итераций, чтобы подобрать оптимальные параметры для создания модели интеллектуального анализа данных.The algorithm uses the results of this analysis over many iterations to find the optimal parameters for creating the mining model. Затем эти параметры применяются ко всему набору данных, чтобы выявить пригодные к использованию закономерности и получить подробную статистику.These parameters are then applied across the entire data set to extract actionable patterns and detailed statistics.

Модель интеллектуального анализа данных, создаваемая алгоритмом из предоставленных данных, может иметь различные формы, включая следующие.The mining model that an algorithm creates from your data can take various forms, including:

  • Набор кластеров, описывающих связи вариантов в наборе данных.A set of clusters that describe how the cases in a dataset are related.

  • Дерево решений, которое предсказывает результат и описывает, какое влияние на этот результат оказывают различные критерии.A decision tree that predicts an outcome, and describes how different criteria affect that outcome.

  • Математическую модель, прогнозирующую продажи.A mathematical model that forecasts sales.

  • Набор правил, описывающих группирование продуктов в транзакции, а также вероятности одновременной покупки продуктов.A set of rules that describe how products are grouped together in a transaction, and the probabilities that products are purchased together.

    В интеллектуальном анализе данных SQL ServerSQL Server используются наиболее популярные и изученные методы выявления закономерностей в данных.The algorithms provided in SQL ServerSQL Server Data Mining are the most popular, well-researched methods of deriving patterns from data. Например, алгоритм кластеризации методом К-средних является одним из старейших алгоритмов кластеризации и широко применяется во многих инструментах и со многими реализациями и параметрами.To take one example, K-means clustering is one of the oldest clustering algorithms and is available widely in many different tools and with many different implementations and options. При этом алгоритм кластеризации методом К-средних, реализованный в интеллектуальном анализе данных SQL ServerSQL Server , был разработан группой Microsoft Research, а затем оптимизирован для работы со службами Службы Analysis ServicesAnalysis Services.However, the particular implementation of K-means clustering used in SQL ServerSQL Server Data Mining was developed by Microsoft Research and then optimized for performance with Службы Analysis ServicesAnalysis Services. Все алгоритмы интеллектуального анализа данных Майкрософт доступны для гибкой настройки и программирования с использованием предоставляемых API.All of the Microsoft data mining algorithms can be extensively customized and are fully programmable, using the provided APIs. С помощью компонентов интеллектуального анализа данных в службах Службы Integration ServicesIntegration Servicesможно также автоматизировать создание, обучение и переобучение моделей.You can also automate the creation, training, and retraining of models by using the data mining components in Службы Integration ServicesIntegration Services.

    Кроме того, поддерживается использование сторонних алгоритмов, соответствующих спецификации OLE DB для интеллектуального анализа данных. Имеется также возможность разрабатывать собственные алгоритмы, которые можно зарегистрировать в качестве служб, а затем использовать в платформе интеллектуального анализа данных SQL ServerSQL Server .You can also use third-party algorithms that comply with the OLE DB for Data Mining specification, or develop custom algorithms that can be registered as services and then used within the SQL ServerSQL Server Data Mining framework.

Выбор правильного алгоритмаChoosing the Right Algorithm

Выбор правильного алгоритма для использования в конкретной аналитической задаче может быть достаточно сложным.Choosing the best algorithm to use for a specific analytical task can be a challenge. В то время как можно использовать различные алгоритмы для выполнения одной и той же задачи, каждый алгоритм выдает различный результат, а некоторые алгоритмы могут выдавать более одного типа результатов.While you can use different algorithms to perform the same business task, each algorithm produces a different result, and some algorithms can produce more than one type of result. Например, можно использовать алгоритм дерева принятия решений MicrosoftMicrosoft не только для прогнозирования, но также в качестве способа уменьшения количества столбцов в наборе данных, поскольку дерево принятия решений может идентифицировать столбцы, не влияющие на конечную модель интеллектуального анализа данных.For example, you can use the MicrosoftMicrosoft Decision Trees algorithm not only for prediction, but also as a way to reduce the number of columns in a dataset, because the decision tree can identify columns that do not affect the final mining model.

Выбор алгоритма по типуChoosing an Algorithm by Type

SQL ServerSQL Server Интеллектуальный анализ данных включает указанные ниже типы алгоритмов. Data Mining includes the following algorithm types:

  • Алгоритмы классификации осуществляют прогнозирование одной или нескольких дискретных переменных на основе других атрибутов в наборе данных.Classification algorithms predict one or more discrete variables, based on the other attributes in the dataset.

  • Регрессивные алгоритмы осуществляют прогнозирование одной или нескольких непрерывных числовых переменных, например прибыли или убытков, на основе других атрибутов в наборе данных.Regression algorithms predict one or more continuous numeric variables, such as profit or loss, based on other attributes in the dataset.

  • Алгоритмы сегментации делят данные на группы или кластеры элементов, имеющих схожие свойства.Segmentation algorithms divide data into groups, or clusters, of items that have similar properties.

  • Алгоритмы взаимосвязей осуществляют поиск корреляции между различными атрибутами в наборе данных.Association algorithms find correlations between different attributes in a dataset. Наиболее частым применением этого типа алгоритма является создание правил взаимосвязи, которые могут использоваться для анализа потребительской корзины.The most common application of this kind of algorithm is for creating association rules, which can be used in a market basket analysis.

  • Алгоритмы анализа последовательностей обобщают часто встречающиеся в данных последовательности, такие как серия переходов по веб-сайту или событий, зарегистрированных в журнале перед ремонтом оборудования.Sequence analysis algorithms summarize frequent sequences or episodes in data, such as a series of clicks in a web site, or a series of log events preceding machine maintenance.

    Однако ничто не заставляет пользователя ограничиваться одним алгоритмом в своих решениях.However, there is no reason that you should be limited to one algorithm in your solutions. Опытные аналитики часто используют один алгоритм для выявления наиболее эффективных входных данных (то есть переменных), после чего применяют другой алгоритм для прогнозирования определенного результата на основе этих данных.Experienced analysts will sometimes use one algorithm to determine the most effective inputs (that is, variables), and then apply a different algorithm to predict a specific outcome based on that data. SQL ServerSQL Server Интеллектуальный анализ данных позволяет на базе одной структуры интеллектуального анализа построить много моделей таким образом, что в рамках одного решения для интеллектуального анализа данных можно было использовать алгоритм кластеризации, модель дерева решений, а также модель упрощенного алгоритма Байеса для получения разных представлений данных. Data Mining lets you build multiple models on a single mining structure, so within a single data mining solution you could use a clustering algorithm, a decision trees model, and a Naïve Bayes model to get different views on your data. В одном решении также можно использовать несколько алгоритмов для выполнения отдельных задач. Например, с помощью регрессии можно получать финансовые прогнозы, а с помощью алгоритма нейронной сети выполнять анализ факторов, влияющих на прогнозы.You might also use multiple algorithms within a single solution to perform separate tasks: for example, you could use regression to obtain financial forecasts, and use a neural network algorithm to perform an analysis of factors that influence forecasts.

Выбор алгоритма по задачеChoosing an Algorithm by Task

Чтобы облегчить выбор алгоритмов для решения определенной задачи, в следующей таблице приведены типы задач, для решения которых обычно используется каждый алгоритм.To help you select an algorithm for use with a specific task, the following table provides suggestions for the types of tasks for which each algorithm is traditionally used.

Примеры задачExamples of tasks Подходящие алгоритмы МайкрософтMicrosoft algorithms to use
Прогнозирование дискретного атрибута:Predicting a discrete attribute:

Пометка клиентов из списка потенциальных покупателей как хороших и плохих кандидатов.Flag the customers in a prospective buyers list as good or poor prospects.

Вычисление вероятности отказа сервера в течение следующих шести месяцев.Calculate the probability that a server will fail within the next 6 months.

Классификация вариантов развития болезней пациентов и исследование связанных факторов.Categorize patient outcomes and explore related factors.
Алгоритм дерева принятия решений (Майкрософт)Microsoft Decision Trees Algorithm

Алгоритма Байеса (Майкрософт)Microsoft Naive Bayes Algorithm

Алгоритм кластеризации (Майкрософт)Microsoft Clustering Algorithm

Алгоритм нейронной сети (Майкрософт)Microsoft Neural Network Algorithm
Прогнозирование непрерывного атрибута:Predicting a continuous attribute:

Прогноз продаж на следующий год.Forecast next year's sales.

Прогноз количества посетителей сайта с учетом прошлых лет и сезонных тенденций.Predict site visitors given past historical and seasonal trends.

Формирование оценки риска с учетом демографии.Generate a risk score given demographics.
Алгоритм дерева принятия решений (Майкрософт)Microsoft Decision Trees Algorithm

Алгоритм временных рядов (Майкрософт)Microsoft Time Series Algorithm

Алгоритм линейной регрессии (Майкрософт)Microsoft Linear Regression Algorithm
Прогнозирование последовательности:Predicting a sequence:

Анализ маршрута перемещения по веб-сайту компании.Perform clickstream analysis of a company's Web site.

Анализ факторов, ведущих к отказу сервера.Analyze the factors leading to server failure.

Отслеживание и анализ последовательностей действий во время посещения поликлиники с целью формулирования рекомендаций по общим действиям.Capture and analyze sequences of activities during outpatient visits, to formulate best practices around common activities.
Алгоритм кластеризации последовательностей (Майкрософт)Microsoft Sequence Clustering Algorithm
Нахождение групп общих элементов в транзакциях:Finding groups of common items in transactions:

Использование анализа потребительской корзины для определения мест размещения продуктов.Use market basket analysis to determine product placement.

Выявление дополнительных продуктов, которые можно предложить купить клиенту.Suggest additional products to a customer for purchase.

Анализ данных опроса, проведенного среди посетителей события, с целью выявления того, какие действия и стенды были связаны, чтобы планировать будущие действия.Analyze survey data from visitors to an event, to find which activities or booths were correlated, to plan future activities.
Алгоритм взаимосвязей (Майкрософт)Microsoft Association Algorithm

Алгоритм дерева принятия решений (Майкрософт)Microsoft Decision Trees Algorithm
Нахождение групп схожих элементов:Finding groups of similar items:

Создание профилей рисков для пациентов на основе таких атрибутов, как демография и поведение.Create patient risk profiles groups based on attributes such as demographics and behaviors.

Анализ пользователей по шаблонам просмотра и покупки.Analyze users by browsing and buying patterns.

Определение серверов, которые имеют аналогичные характеристики использования.Identify servers that have similar usage characteristics.
Алгоритм кластеризации (Майкрософт)Microsoft Clustering Algorithm

Алгоритм кластеризации последовательностей (Майкрософт)Microsoft Sequence Clustering Algorithm

В приведенной ниже таблице содержатся ссылки на ресурсы по обучению применению каждого из алгоритмов интеллектуального анализа данных, используемых в интеллектуальном анализе данных SQL ServerSQL Server .The following table provides links to learning resources for each of the data mining algorithms that are provided in SQL ServerSQL Server Data Mining:

Общее описание алгоритмаBasic algorithm description Объясняет работу алгоритма и содержит примеры возможных бизнес-сценариев, в которых этот алгоритм может быть полезен.Explains what the algorithm does and how it works, and outlines possible business scenarios where the algorithm might be useful.
Алгоритм взаимосвязей (Майкрософт)Microsoft Association Algorithm

Алгоритм кластеризации (Майкрософт)Microsoft Clustering Algorithm

Алгоритм дерева принятия решений (Майкрософт)Microsoft Decision Trees Algorithm

Алгоритм линейной регрессии (Майкрософт)Microsoft Linear Regression Algorithm

Алгоритм логистической регрессии МайкрософтMicrosoft Logistic Regression Algorithm

Алгоритма Байеса (Майкрософт)Microsoft Naive Bayes Algorithm

Алгоритм нейронной сети (Майкрософт)Microsoft Neural Network Algorithm

Алгоритм кластеризации последовательностей (Майкрософт)Microsoft Sequence Clustering Algorithm

Алгоритм временных рядов (Майкрософт)Microsoft Time Series Algorithm
Технический справочникTechnical reference Содержит технические данные о реализации алгоритма со ссылками на соответствующую литературу при необходимости.Provides technical detail about the implementation of the algorithm, with academic references as necessary. Содержит список параметров, с помощью которых можно управлять работой алгоритма и изменять результаты в модели.Lists the parameters that you can set to control the behavior of the algorithm and customize the results in the model. Описывает требования к данным и содержит советы по повышению производительности, когда это возможно.Describes data requirements and provides performance tips if possible.
Технический справочник по алгоритму взаимосвязей (Майкрософт)Microsoft Association Algorithm Technical Reference

Технический справочник по алгоритму кластеризации (Майкрософт)Microsoft Clustering Algorithm Technical Reference

Технический справочник по алгоритму дерева принятия решений МайкрософтMicrosoft Decision Trees Algorithm Technical Reference

Технический справочник по алгоритму линейной регрессии (Майкрософт)Microsoft Linear Regression Algorithm Technical Reference

Технический справочник по алгоритму логистической регрессии МайкрософтMicrosoft Logistic Regression Algorithm Technical Reference

Технический справочник Майкрософт упрощенный алгоритм БайесаMicrosoft Naive Bayes Algorithm Technical Reference

Технический справочник по алгоритму нейронной сети МайкрософтMicrosoft Neural Network Algorithm Technical Reference

Технический справочник по алгоритму кластеризации последовательностей (Майкрософт)Microsoft Sequence Clustering Algorithm Technical Reference

Технический справочник по алгоритму временных рядов (Майкрософт)Microsoft Time Series Algorithm Technical Reference
Содержимое моделиModel content Описывает, каким образом данные структурируются для каждого типа модели и объясняет, как интерпретировать данные, хранящиеся в каждом из узлов.Explains how information is structured within each type of data mining model, and explains how to interpret the information stored in each of the nodes.
Содержимое модели интеллектуального анализа данных для моделей взаимосвязей & #40; Службы Analysis Services — Интеллектуальный анализ данных & #41;Mining Model Content for Association Models (Analysis Services - Data Mining)

Содержимое моделей интеллектуального анализа данных для моделей кластеризации (службы Analysis Services — интеллектуальный анализ данных)Mining Model Content for Clustering Models (Analysis Services - Data Mining)

Содержимое моделей интеллектуального анализа данных для моделей дерева принятия решений (службы Analysis Services — интеллектуальный анализ данных)Mining Model Content for Decision Tree Models (Analysis Services - Data Mining)

Содержимое модели интеллектуального анализа данных для модели линейной регрессии & #40; Службы Analysis Services — Интеллектуальный анализ данных & #41;Mining Model Content for Linear Regression Models (Analysis Services - Data Mining)

Содержимое моделей интеллектуального анализа данных для моделей логистической регрессии (службы Analysis Services — интеллектуальный анализ данных)Mining Model Content for Logistic Regression Models (Analysis Services - Data Mining)

Содержимое моделей интеллектуального анализа данных для моделей упрощенного алгоритма Байеса (службы Analysis Services — интеллектуальный анализ данных)Mining Model Content for Naive Bayes Models (Analysis Services - Data Mining)

Содержимое моделей интеллектуального анализа данных для моделей нейронных сетей (службы Analysis Services — интеллектуальный анализ данных)Mining Model Content for Neural Network Models (Analysis Services - Data Mining)

Содержимое модели интеллектуального анализа данных для моделей кластеризации последовательностей & #40; Службы Analysis Services — Интеллектуальный анализ данных & #41;Mining Model Content for Sequence Clustering Models (Analysis Services - Data Mining)

Содержимое моделей интеллектуального анализа данных для моделей временных рядов (службы Analysis Services — интеллектуальный анализ данных)Mining Model Content for Time Series Models (Analysis Services - Data Mining)
Запросы интеллектуального анализа данныхData mining queries Содержит примеры запросов, которые могут быть использованы с моделями каждого типа.Provides multiple queries that you can use with each model type. Содержит описание запросов содержимого, позволяющих получить подробные сведения о закономерностях в модели, а также прогнозирующих запросов, позволяющих строить прогнозы на основе этих закономерностей.Examples include content queries that let you learn more about the patterns in the model, and prediction queries to help you build predictions based on those patterns.
Примеры запросов к модели взаимосвязейAssociation Model Query Examples

Примеры запросов к модели кластеризацииClustering Model Query Examples

Примеры запросов к модели дерева принятия решенийDecision Trees Model Query Examples

Примеры запросов модели линейной регрессииLinear Regression Model Query Examples

Примеры запросов модели логистической регрессииLogistic Regression Model Query Examples

Примеры запросов к упрощенной модели БайесаNaive Bayes Model Query Examples

Примеры запросов к модели нейронной сетиNeural Network Model Query Examples

Примеры запросов к модели кластеризации последовательностейSequence Clustering Model Query Examples

Примеры запросов моделей временных рядовTime Series Model Query Examples
РазделTopic DescriptionDescription
Определение алгоритма, используемого моделью интеллектуального анализа данныхDetermine the algorithm used by a data mining model Запрос параметров, используемых для создания модели интеллектуального анализа данныхQuery the Parameters Used to Create a Mining Model
Создание пользовательского подключаемого алгоритмаCreate a Custom Plug-In Algorithm Подключаемые алгоритмыPlugin Algorithms
Исследование модели с помощью средства просмотра конкретного алгоритмаExplore a model using an algorithm-specific viewer Средства просмотра моделей интеллектуального анализа данныхData Mining Model Viewers
Просмотр содержимого модели с помощью общего формата таблицыView the content of a model using a generic table format Просмотр модели в средстве просмотра деревьев содержимого общего вида (Майкрософт)Browse a Model Using the Microsoft Generic Content Tree Viewer
Сведения о настройке данных и использовании алгоритмов для создания моделейLearn about how to set up your data and use algorithms to create models Структуры интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)Mining Structures (Analysis Services - Data Mining)

Модели интеллектуального анализа данных & #40; Службы Analysis Services — Интеллектуальный анализ данных & #41;Mining Models (Analysis Services - Data Mining)

См. такжеSee Also

Средства интеллектуального анализа данныхData Mining Tools