Contenu du modèle d'exploration de données pour les modèles de clustering (Analysis Services - Exploration de données)

Cette rubrique décrit le contenu du modèle d'exploration de données qui est spécifique aux modèles qui utilisent l'algorithme de gestion de clusters Microsoft. Pour obtenir une explication générale du contenu du modèle d'exploration de données pour tous les types de modèles, consultez Contenu du modèle d'exploration de données (Analysis Services - Exploration de données).

Présentation de la structure d'un modèle de clustering

Un modèle de clustering a une structure simple. Chaque modèle a un nœud parent unique qui représente le modèle et ses métadonnées, et chaque nœud parent possède une liste plate de clusters (NODE_TYPE = 5). Cette organisation est illustrée dans l'image suivante.

structure de contenu du modèle pour le clustering

Chaque nœud enfant représente un cluster unique et contient des statistiques détaillées sur les attributs des cas dans ce cluster, notamment le nombre de cas dans le cluster et la distribution des valeurs qui distinguent le cluster d'autres clusters.

Notes

Il est inutile de parcourir les nœuds pour obtenir le nombre ou une description des clusters ; le nœud parent du modèle compte et répertorie aussi les clusters.

Le nœud parent contient des statistiques utiles qui décrivent la distribution réelle de tous les cas d'apprentissage. Ces statistiques se trouvent dans la colonne de table imbriquée NODE_DISTRIBUTION. Par exemple, la table suivante contient plusieurs lignes de la table NODE_DISTRIBUTION qui décrivent la distribution des données démographiques pour le modèle de clustering, TM_Clustering, que vous créez dans le Didacticiel sur l'exploration de données de base:

ATTRIBUTE_NAME

ATTRIBUTE_VALUE

SUPPORT

PROBABILITY

VARIANCE

VALUE_TYPE

Age

Manquante

0

0

0

1 (Manquante)

Age

44.9016152716593

12939

1

125.663453102554

3 (Continue)

Gender

Manquante

0

0

0

1 (Manquante)

Gender

F

6350

0.490764355823479

0

4 (Discrete)

Gender

M

6589

0.509235644176521

0

4 (Discrete)

D'après ces résultats, vous pouvez voir que 12939 cas ont été utilisés pour générer le modèle, que le rapport entre les hommes et les femmes est d'environ 50/50 et que l'âge moyen est 44 ans. Les statistiques descriptives varient selon que le type de l'attribut signalé est un type de données numériques continues, tel que l'âge, ou un type de valeur discrète, tel que le sexe. Les mesures statistiques de moyenne et de variance sont calculées pour les types de données continues, tandis que la probabilité et la prise en charge sont calculés pour les types de données discrètes.

Notes

La variance représente la variance totale pour le cluster. Lorsque la valeur de la variance est faible, cela signifie que la plupart des valeurs dans la colonne sont assez proches de la moyenne. Pour obtenir l'écart type, calculez la racine carrée de la variance.

Notez qu'il existe, pour chacun des attributs, un type de valeur Missing qui vous indique combien de cas ne possèdent pas de données pour cet attribut. Les données manquantes peuvent être importantes et affecter les calculs de différentes manières en fonction du type de données. Pour plus d'informations, consultez Valeurs manquantes (Analysis Services - Exploration de données).

Contenu du modèle pour un modèle de clustering

Cette section fournit des informations et des exemples pour les colonnes du contenu du modèle d'exploration de données qui s'appliquent aux modèles de clustering.

Pour plus d'informations sur les colonnes à caractère général dans l'ensemble de lignes de schéma, telles que MODEL_CATALOG et MODEL_NAME, consultez Contenu du modèle d'exploration de données (Analysis Services - Exploration de données).

  • MODEL_CATALOG
    Nom de la base de données où le modèle est stocké.

  • MODEL_NAME
    Nom du modèle.

  • ATTRIBUTE_NAME
    Toujours vide dans les modèles de clustering parce qu'il n'y a aucun attribut prévisible dans le mode.

  • NODE_NAME
    Toujours identique à NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Identificateur unique pour le nœud dans le modèle. Cette valeur ne peut pas être modifiée.

  • NODE_TYPE
    Un modèle de clustering génère en sortie les types de nœuds suivants :

    ID et nom du nœud

    Description

    1 (modèle)

    Nœud racine pour le modèle.

    5 (cluster)

    Contient le nombre de cas dans le cluster, les caractéristiques des cas dans le cluster et des statistiques qui décrivent les valeurs dans le cluster.

  • NODE_CAPTION
    Nom convivial utilisé à des fins d'affichage. Lorsque vous créez un modèle, la valeur de NODE_UNIQUE_NAME est utilisée automatiquement comme légende. Toutefois, vous pouvez modifier la valeur de NODE_CAPTION pour mettre à jour le nom d'affichage du cluster, par programmation ou à l'aide la visionneuse.

    Notes

    Lorsque vous retraitez le modèle, toutes les modifications de nom sont remplacées par les nouvelles valeurs. Vous ne pouvez pas rendre des noms persistants dans le modèle, ni faire le suivi des modifications dans l'appartenance au cluster entre différentes versions d'un modèle.

  • CHILDREN_CARDINALITY
    Estimation du nombre d'enfants de ce nœud.

    Nœud parent   Indique le nombre de clusters dans le modèle.

    Nœuds du cluster   Toujours 0.

  • PARENT_UNIQUE_NAME
    Nom unique du parent du nœud.

    Nœud parent   Toujours NULL.

    Nœuds du cluster   Généralement 000.

  • NODE_DESCRIPTION
    Description du nœud.

    Nœud parent   Toujours (Tout).

    Nœuds du cluster   Liste séparée par des virgules des attributs principaux qui distinguent le cluster des autres clusters.

  • NODE_RULE
    Non utilisé pour les modèles de clustering.

  • MARGINAL_RULE
    Non utilisé pour les modèles de clustering.

  • NODE_PROBABILITY
    Probabilité associée à ce nœud. Nœud parent   Toujours 1

    Nœuds du cluster   La probabilité représente la probabilité composée des attributs, avec quelques réglages selon l'algorithme utilisé pour créer le modèle de clustering.

  • MARGINAL_PROBABILITY
    Probabilité d'accès au nœud à partir du nœud parent. Dans un modèle de clustering, la probabilité marginale est toujours la même que la probabilité du nœud.

  • NODE_DISTRIBUTION
    Table qui contient l'histogramme de probabilité du nœud.

    Nœud parent   Consultez l'introduction de cette rubrique.

    Nœuds du cluster   Représente la distribution des attributs et des valeurs pour les cas inclus dans ce cluster.

  • NODE_SUPPORT
    Nombre de cas qui prennent en charge ce nœud. Nœud parent   Indique le nombre de cas d'apprentissage pour tout le modèle.

    Nœuds du cluster   Indique la taille du cluster sous forme de nombre de cas.

    Remarque   Si le modèle utilise le clustering K-means, chaque cas peut appartenir à un seul cluster. Toutefois, si le modèle utilise le clustering EM, chaque cas peut appartenir à un cluster différent, et une distance pondérée est attribuée au cas pour chaque cluster auquel il appartient. Par conséquent, pour les modèles EM, la somme de la prise en charge pour un cluster individuel est supérieure à la prise en charge pour le modèle global.

  • MSOLAP_MODEL_COLUMN
    Non utilisé pour les modèles de clustering.

  • MSOLAP_NODE_SCORE
    Affiche un score associé au nœud.

    Nœud parent   Score BIC (Bayesian Information Criterion) du modèle de clustering.

    Nœuds du cluster   Toujours 0.

  • MSOLAP_NODE_SHORT_CAPTION
    Étiquette utilisée à des fins d'affichage. Vous ne pouvez pas modifier cette légende.

    Nœud parent   Type de modèle : modèle de cluster.

    Nœuds du cluster   Nom du cluster. Par exemple : Cluster 1.

Notes

Analysis Services fournit plusieurs méthodes pour créer un modèle de clustering. Si vous ne savez pas quelle méthode a été utilisée pour créer le modèle avec lequel vous travaillez, vous pouvez récupérer les métadonnées du modèle par programmation en utilisant un client ADOMD ou un objet AMO, ou encore en interrogeant l'ensemble de lignes de schéma d'exploration de données. Pour plus d'informations, consultez Procédure : interroger les paramètres utilisés pour créer un modèle d'exploration de données.

Notes

La structure et le contenu du modèle restent les même, indépendamment de la méthode de clustering ou des paramètres que vous utilisez.