Algorithme MSC (Microsoft Sequence Clustering)

Article
12/15/2008

L'algorithme MSC (Microsoft Sequence Clustering) est un algorithme d'analyse de séquence fourni par Microsoft SQL Server 2005 Analysis Services (SSAS). Cet algorithme vous permet d'explorer des données qui contiennent des événements qui peuvent être liés en suivant des chemins ou des séquences. L'algorithme recherche les séquences les plus communes en groupant, ou en regroupant en clusters, les séquences identiques. Ces séquences peuvent être d'une forme quelconque, comme par exemple :

Des données qui décrivent la séquence de clics que les utilisateurs effectuent sur un site Web.
Des données qui décrivent l'ordre dans lequel un client ajoute des éléments dans son panier d'achat sur un site de vente en ligne.

Cet algorithme est similaire à Algorithme Clusters Microsoft. Toutefois, au lieu de rechercher des clusters de cas qui contiennent des attributs similaires, l'algorithme MSC (Microsoft Sequence Clustering) recherche des clusters de cas qui contiennent des chemins similaires dans une séquence.

Le modèle d'exploration de données que crée cet algorithme contient les descriptions des séquences les plus courantes dans les données. Vous pouvez utiliser ces descriptions pour prévoir l'étape probable suivante d'une nouvelle séquence. Lorsque l'algorithme groupe en clusters des enregistrements, il peut également représenter les colonnes dans les données qui ne sont pas directement associées aux séquences. Comme l'algorithme inclut les colonnes non liées, vous pouvez utiliser le modèle résultant pour identifier les relations entre les données en séquence et les données qui ne figurent pas dans une séquence.

Exemple

Le site Web de la société Adventure Works collecte des informations sur les pages que les utilisateurs du site visitent et sur l'ordre de consultation de ces pages. Comme la société permet de commander en ligne, les clients doivent se connecter au site. Cela fournit à la société des informations sur les clics effectués pour chaque profil de client. En utilisant l'algorithme MSC (Microsoft Sequence Clustering) sur ces données, la société peut détecter des groupes, ou des clusters, de clients qui présentent des modèles ou des séquences de clics similaires. La société peut ensuite utiliser ces clusters pour analyser comment les utilisateurs se déplacent sur le site Web, pour identifier les pages les plus étroitement liées à la vente d'un produit particulier et pour prévoir les pages qui ont le plus de chance d'être consultées ensuite.

Fonctionnement de l'algorithme

L'algorithme utilise la méthode de clustering EM (Expectation Maximization) pour identifier les clusters et leurs séquences. En particulier, l'algorithme utilise une méthode probabiliste pour déterminer la probabilité qu'un point de données existe dans un cluster. Pour obtenir une description de l'utilisation de cette méthode de clustering dans l'algorithme Clusters Microsoft, consultez Algorithme Clusters Microsoft.

Une des colonnes d'entrée que l'algorithme MSC (Microsoft Sequence Clustering) utilise est une table imbriquée qui contient des séquences de données. Ces données représentent une série de transitions d'état de cas individuels dans un jeu de données, telles que des achats de produits ou des clics Web. Pour déterminer les colonnes de séquence à traiter comme colonnes d'entrée pour le clustering, l'algorithme mesure les différences, ou les distances, entre toutes les séquences possibles dans le jeu de données. Une fois que l'algorithme a mesuré ces distances, il peut utiliser la colonne de séquence comme entrée pour la méthode EM de clustering.

Utilisation de l'algorithme

Un modèle Sequence Clustering requiert une clé qui identifie les enregistrements et une table imbriquée contenant une colonne liée à une séquence, telle qu'un identificateur de page Web, qui identifie les événements d'une séquence. Une seule colonne liée à une séquence est autorisée pour chaque séquence, et un seul type de séquence est autorisé dans chaque modèle. Pour créer un modèle dans le scénario de l'exemple présenté auparavant dans cette rubrique, vous avez besoin d'une source de données contenant deux tables. La première table contiendrait les commandes et la seconde table contiendrait la séquence dans laquelle les commandes ont été placées dans un panier d'achat.

L'algorithme MSC (Microsoft Sequence Clustering) prend en charge des types de contenu de colonne d'entrée, des types de contenu de colonne prévisible et des indicateurs de modélisation spécifiques, lesquels sont répertoriés dans le tableau ci-dessous.

Types de contenu de colonne d'entrée	Continu, cyclique, discret, discrétisé, clé, séquence de clés, table et trié
Types de contenu de colonne prévisible	Continu, cyclique, discret, discrétisé, table et trié
Indicateurs de modélisation	MODEL_EXISTENCE_ONLY et NOT NULL

Tous les algorithmes Microsoft prennent en charge un ensemble commun de fonctions. Toutefois, l'algorithme MSC (Microsoft Sequence Clustering) prend en charge des fonctions supplémentaires, répertoriées dans le tableau ci-dessous.

Cluster	PredictHistogram
ClusterProbability	PredictNodeId
IsDescendant	PredictProbability
IsInNode	PredictSequence
PredictAdjustedProbability	PredictStdev
PredictAssociation	PredictSupport
PredictCaseLikelihood	PredictVariance

Pour obtenir la liste des fonctions communes à tous les algorithmes Microsoft, consultez Algorithmes d'exploration de données. Pour plus d'informations sur l'utilisation de ces fonctions, consultez Fonctions DMX (Data Mining Extensions).

L'algorithme MSC (Microsoft Sequence Clustering) ne prend pas en charge l'utilisation du langage PMML (Predictive Model Markup Language) pour créer des modèles d'exploration de données.

L'algorithme MSC (Microsoft Sequence Clustering) prend en charge plusieurs paramètres qui affectent les performances et la précision du modèle d'exploration de données résultant. Le tableau ci-dessous décrit chaque paramètre.

Paramètre	Description
CLUSTER_COUNT	Spécifie le nombre approximatif de clusters que l'algorithme doit générer. S'il est impossible de générer ce nombre approximatif de clusters à partir des données, l'algorithme génère autant de clusters que possible. Si le paramètre CLUSTER_COUNT est défini sur 0, l'algorithme utilise des valeurs heuristiques pour déterminer de manière optimale le nombre de clusters à générer. La valeur par défaut est 10.
MINIMUM_SUPPORT	Spécifie le nombre minimal de cas dans chaque cluster. La valeur par défaut est 10.
MAXIMUM_SEQUENCE_STATES	Spécifie le nombre maximal d'états qu'une séquence peut avoir. Si cette valeur est supérieure à 100, l'algorithme peut créer un modèle qui ne fournit pas d'informations significatives. La valeur par défaut est 64.
MAXIMUM_STATES	Spécifie le nombre maximal d'états pour un attribut non-séquence que l'algorithme prend en charge. Si le nombre d'états pour un attribut non-séquence est supérieur au nombre maximal d'états, l'algorithme emploie les états les plus utilisés de l'attribut et traite les autres états comme étant absents. La valeur par défaut est 100.

Voir aussi

Algorithme MSC (Microsoft Sequence Clustering)

Exemple

Fonctionnement de l'algorithme

Utilisation de l'algorithme

Voir aussi

Concepts

Autres ressources

Aide et Informations

Ressources supplémentaires