Algorithme MLR (Microsoft Logistic Regression)

L'algorithme MLR (Microsoft Logistic Regression) est une variante de l'algorithme MNN (Microsoft Neural Network), où le paramètre HIDDEN_NODE_RATIO a la valeur 0. Cette valeur de paramètre crée un modèle de réseau de neurones qui ne contient pas de couche cachée et qui est par conséquent équivalent à la régression logistique.

Supposons que la colonne prévisible contient uniquement deux états mais que vous voulez tout de même effectuer une analyse de régression, en associant les colonnes d'entrée à la probabilité que la colonne prévisible contiendra un état spécifique. Le diagramme suivant représente les résultats obtenus en attribuant les valeurs 1 et 0 aux états de la colonne prévisible, en calculant la probabilité que la colonne contiendra un état spécifique et en effectuant une régression linéaire par rapport à une variable d'entrée.

Données incorrectement modélisées utilisant une régression linéaire

L'axe des abscisses (X) contient les valeurs d'une colonne d'entrée. L'axe des ordonnées (Y) contient les probabilités que la colonne prévisible contiendra l'un ou l'autre des états. Le problème de cette méthode est que la régression linéaire ne contraint pas la colonne à avoir une valeur comprise entre 0 et 1, même s'il s'agit des valeurs minimale et maximale de la colonne. Vous pouvez effectuer une régression logistique pour résoudre ce problème. Au lieu de créer une ligne droite, l'analyse de régression logistique crée une courbe en forme de « S » contenant les contraintes de valeur maximale et minimale. Par exemple, le diagramme suivant représente les résultats obtenus en effectuant une régression logistique par rapport aux mêmes données que pour l'exemple précédent.

Données modélisées à l'aide d'une régression logistique

Notez que la courbe reste toujours entre la valeur 1 et la valeur 0. Vous pouvez utiliser la régression logistique pour identifier les colonnes d'entrée qui jouent un rôle important dans la détermination de l'état de la colonne prévisible.

Utilisation de l'algorithme

Utilisez la Visionneuse de l'algorithme MNN (Microsoft Neural Network) pour explorer un modèle d'exploration de données de régression linéaire.

Un modèle de régression logistique doit contenir une colonne clé, une ou plusieurs colonnes d'entrée et une ou plusieurs colonnes prévisibles.

L'algorithme MLR (Microsoft Logistic Regression) prend en charge des types de contenu de colonne d'entrée, des types de contenu de colonne prévisible et des indicateurs de modélisation spécifiques qui sont répertoriés dans le tableau suivant.

Types de contenu de colonne d'entrée

Continu, Cyclique, Discret, Discrétisé, Clé, Table et Ordonné

Types de contenu de colonne prévisible

Continu, Cyclique, Discret, Discrétisé et Ordonné

Indicateurs de modélisation

MODEL_EXISTENCE_ONLY et NOT NULL

Tous les algorithmes Microsoft prennent en charge un ensemble commun de fonctions. Toutefois, l'algorithme MLR (Microsoft Logistic Regression) prend en charge des fonctions supplémentaires qui sont décrites dans le tableau suivant.

IsDescendant

PredictStdev

PredictAdjustedProbability

PredictSupport

PredictHistogram

PredictVariance

PredictProbability

   

Pour obtenir la liste des fonctions qui sont communes à tous les algorithmes Microsoft, consultez Algorithmes d'exploration de données. Pour plus d'informations sur l'utilisation de ces fonctions, consultez Fonctions DMX (Data Mining Extensions).

Les modèles qui utilisent l'algorithme MLR (Microsoft Logistic Regression) ne prennent pas en charge l'extraction ni les dimensions d'exploration de données, car la structure des nœuds du modèle d'exploration de données ne correspond pas nécessairement directement aux données sous-jacentes.

L'algorithme MLR (Microsoft Logistic Regression) prend en charge plusieurs paramètres qui affectent les performances et la précision du modèle d'exploration de données obtenu. Le tableau suivant décrit chacun de ces paramètres.

Paramètre Description

HOLDOUT_PERCENTAGE

Spécifie le pourcentage de cas extraits des données d'apprentissage pour calculer l'erreur d'exclusion. HOLDOUT_PERCENTAGE constitue l'un des critères d'arrêt pendant l'apprentissage du modèle d'exploration de données.

La valeur par défaut est 30.

HOLDOUT_SEED

Spécifie un nombre à utiliser en tant que valeur de départ du générateur de nombres pseudo-aléatoires lors de la détermination aléatoire des données d'exclusion. Si la valeur de HOLDOUT_SEED est définie sur 0, l'algorithme génère la valeur de départ en fonction du nom du modèle d'exploration de données, afin de garantir que le contenu du modèle reste inchangé pendant le retraitement.

La valeur par défaut est 0.

MAXIMUM_INPUT_ATTRIBUTES

Définit le nombre d'attributs d'entrée que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités.

La valeur par défaut est 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Définit le nombre d'attributs de sortie que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités.

La valeur par défaut est 255.

MAXIMUM_STATES

Spécifie le nombre maximal d'états d'attribut que l'algorithme prend en charge. Si le nombre d'états d'un attribut est supérieur au nombre maximal d'états, l'algorithme sélectionne les états les plus fréquents pour cet attribut et ignore le reste des états.

La valeur par défaut est 100.

SAMPLE_SIZE

Spécifie le nombre de cas à utiliser pour l'apprentissage du modèle. Le fournisseur d'algorithme utilise soit ce nombre, soit le pourcentage du nombre total de cas qui ne sont pas inclus dans le pourcentage d'exclusion conformément au paramètre HOLDOUT_PERCENTAGE : c'est la plus petite valeur qui est retenue.

En d'autres termes, si HOLDOUT_PERCENTAGE a la valeur 30, l'algorithme utilisera soit la valeur de ce paramètre, soit une valeur égale à 70 % du nombre total de cas, en prenant la plus petite valeur des deux.

La valeur par défaut est 10000.

Voir aussi

Concepts

Algorithmes d'exploration de données
Sélection des fonctionnalités pour l'exploration de données
Utilisation des outils d'exploration de données
Affichage d'un modèle d'exploration de données à l'aide de la Visionneuse de l'algorithme MNN (Microsoft Neural Network)

Autres ressources

CREATE MINING MODEL (DMX)

Aide et Informations

Assistance sur SQL Server 2005