Алгоритм кластеризации последовательностей (Майкрософт)

Статья
10/31/2023

Применимо к: SQL Server 2019 и более ранних версий Analysis Services Azure Analysis Services Fabric/Power BI Premium

Важно!

Интеллектуальный анализ данных не рекомендуется использовать в службах SQL Server 2017 Analysis Services, а в SQL Server 2022 Analysis Services его поддержка прекращена. Документация не обновляется для устаревших и неподдерживаемых функций. Дополнительные сведения см. в статье об обратной совместимости служб Analysis Services.

Алгоритм кластеризации последовательностей (Майкрософт) — это уникальный алгоритм, сочетающий анализ последовательностей с кластеризация. Данный алгоритм можно использовать для просмотра данных, содержащих события, которые могут быть связаны в последовательность. Алгоритм находит наиболее распространенные последовательности и выполняет кластеризация, чтобы найти похожие последовательности. Ниже описаны типы последовательностей, которые можно использовать в качестве данных для машинного обучения, чтобы получить сведения о стандартных проблемах или бизнес-сценариях:

Сведения о посещениях и схемах щелчков, которые создаются, когда пользователи переходят по веб-сайту или просматривают его.
Журналы, в которых перечислены события, предшествовавшие инциденту, такие как сбой жесткого диска или взаимоблокировка сервера.
Записи транзакций, описывающие порядок, в котором клиент добавляет в корзину товары, выбранные в интернет-магазине.
Записи, следящие за взаимодействием с клиентом или пациентом во времени для прогнозирования отмены услуг или других нежелательных итогов.

Этот алгоритм во многом аналогичен алгоритму кластеризации Майкрософт. Однако вместо поиска кластеров вариантов, содержащих похожие атрибуты, алгоритм кластеризации последовательностей (Майкрософт) находит кластеры вариантов, которые содержат похожие пути в последовательности.

Пример

Веб-сайт Adventure Works Cycles собирает сведения о том, какие страницы посещают пользователи сайта, а также о порядке посещения страниц. Поскольку компания предоставляет возможность заказа по сети, клиентам необходимо зарегистрироваться на сайте. Благодаря этому с каждым щелчком мыши клиента компания получает сведения о действиях в рамках узла, выполняемых под клиентским профилем. Используя алгоритм кластеризации последовательностей (Майкрософт) для этих данных, компания может находить группы или кластеры клиентов, которые имеют похожие шаблоны или последовательности щелчков. Компания затем может использовать данные кластеры для анализа перемещения пользователей в рамках веб-сайта, определения страниц, которые ближе всех связаны с продажей конкретного продукта, а также прогнозирования страниц, которые клиент с наибольшей долей вероятности посетит в следующий раз.

Принцип работы алгоритма

Алгоритм кластеризации последовательностей (Майкрософт) — это гибридный алгоритм, который объединяет кластеризация методы с анализом цепочек Маркова для идентификации кластеров и их последовательностей. Одной из отличительных черт алгоритма кластеризации последовательностей (Майкрософт) является использование данных последовательности. Такие данные обычно представляют ряд событий или переходов между состояниями в наборе данных, например ряд приобретений продуктов или щелчков мышью на веб-узле для конкретного пользователя. Алгоритм изучает вероятность переходов и измеряет различия, или расстояния, между всеми возможными последовательностями в наборе данных, чтобы определить, какие последовательности лучше всего использовать в качестве входных данных для кластеризации. После создания алгоритмом списка вероятных последовательностей он использует эти сведения в качестве входных данных для кластеризации методом максимизации ожиданий (EM).

Подробное описание этой реализации см. в разделе Microsoft Sequence Clustering Algorithm Technical Reference.

Данные, необходимые для моделей кластеризации последовательностей

При подготовке данных, предназначенных для использования в обучении модели кластеризации последовательностей, следует учитывать требования к конкретному алгоритму, в том числе к объему необходимых данных, и то, как эти данные используются.

К модели кластеризации последовательностей предъявляются следующие требования.

Одиночный ключевой столбец . Модели кластеризации последовательностей требуется ключ, по которому идентифицируются записи.
Столбец последовательности Для данных последовательности модель должна иметь вложенную таблицу, содержащую столбец идентификатора последовательности. Идентификатор последовательности может иметь любой подлежащий сортировке тип данных. Например, можно использовать идентификатор веб-страницы, целое число или текстовую строку с условием, что столбец идентифицирует события в последовательности. Для каждой последовательности допускается только один идентификатор последовательности, а в каждой модели допускается только один тип последовательности.
Необязательные атрибуты, не относящиеся к последовательности алгоритм поддерживает добавление других атрибутов, не связанных с последовательностью. Эти атрибуты могут включать вложенные столбцы.

Например, в приведенном выше примере веб-сайта Adventure Works Cycles модель последовательности кластеризация может включать сведения о заказах в виде таблицы вариантов, демографические данные о конкретном клиенте для каждого заказа в качестве атрибутов без последовательности и вложенную таблицу, содержащую последовательность, в которой клиент просматривал сайт или помещал элементы в корзину в качестве сведений о последовательности.

Дополнительные сведения о типах содержимого и типах данных, поддерживаемых моделями кластеризации последовательностей, см. в подразделе "Требования" раздела Технический справочник по алгоритму кластеризации последовательностей (Майкрософт).

Просмотр модели кластеризации последовательности

Модель интеллектуального анализа данных, создаваемая данным алгоритмом, содержит описания самых распространенных последовательностей в данных. Чтобы исследовать модель, можно использовать Средство просмотра кластеризации последовательностей (Майкрософт). При просмотре модели последовательности кластеризация SQL Server Analysis Services отображаются кластеры, содержащие несколько переходов. Можно также просмотреть соответствующие статистические данные. Дополнительные сведения см. в разделе Просмотр модели с помощью средства просмотра кластеризации последовательностей (Майкрософт).

Чтобы получить более подробные сведения, можно просмотреть модель с помощью средства просмотра деревьев содержимого общего вида (Майкрософт). Содержимое, сохраняемое для модели, включает распределение всех значений в каждом узле, вероятность каждого кластера и подробные сведения о переходах. Дополнительные сведения см. в статье Содержимое модели интеллектуального анализа данных для моделей кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных).

Создание прогнозов

После обучения модели результаты хранятся в виде набора шаблонов. Можно использовать описания наиболее распространенных последовательностей в данных для прогноза следующего наиболее вероятного шага в новой последовательности. Но поскольку алгоритм включает другие столбцы, результирующую модель можно использовать для определения связи между данными, включенными в последовательность, и данными, не включенными в нее. Например, если к модели добавляются демографические данные, можно сделать прогноз для конкретной группы клиентов. Прогнозирующие запросы можно настраивать для того, чтобы они возвращали переменное число прогнозов или описательные статистические данные.

Дополнительные сведения о создании запросов к модели интеллектуального анализа данных см. в разделе Запросы интеллектуального анализа данных. Примеры использования запросов с моделью кластеризации последовательностей см. в разделе Примеры запросов к модели кластеризации последовательностей.

Не поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.
Поддерживается детализация.
Поддерживается использование моделей интеллектуального анализа OLAP и создание измерений интеллектуального анализа данных.

См. также:

Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Технический справочник по алгоритму кластеризации последовательностей (Майкрософт)
Примеры запросов к модели кластеризации последовательностей
Просмотр модели с помощью средства просмотра кластеризации последовательностей (Майкрософт)