Algorithme MNB (Microsoft Naive Bayes)

L'algorithme MNB (Microsoft Naive Bayes) est un algorithme de classification fourni par Microsoft SQL Server 2005 Analysis Services (SSAS) qui est conçu pour la modélisation prédictive. Cet algorithme calcule la probabilité conditionnelle entre les colonnes d'entrée et les colonnes prévisibles, et suppose que les colonnes sont indépendantes. C'est en raison de cette supposition d'indépendance que l'algorithme s'appelle algorithme bayésien naïf (Naive Bayes). En effet, la supposition est souvent naïve étant donné que, en faisant cette supposition, l'algorithme ne prend pas en compte les dépendances qui peuvent exister.

Cet algorithme est informatiquement moins lourd que d'autres algorithmes Microsoft et est, par conséquent, utile pour générer rapidement des modèles d'exploration de données permettant de découvrir les relations entre les colonnes d'entrée et les colonnes prévisibles. Vous pouvez utiliser cet algorithme pour effectuer des explorations initiales de données et appliquer ensuite les résultats pour créer des modèles d'exploration de données supplémentaires avec d'autres algorithmes qui sont informatiquement plus lourds et plus précis.

Exemple

Dans le cadre d'une stratégie promotionnelle continue, le service marketing de la société Adventure Works Cycle a décidé de cibler les clients potentiels en envoyant des prospectus. Afin de réduire les coûts de la campagne, ils ne veulent envoyer des prospectus qu'aux clients susceptibles de répondre. La société stocke des informations dans une base de données sur des statistiques démographiques et la réponse à un publipostage antérieur. Ils souhaitent utiliser ces données pour déterminer si les statistiques démographiques, telles que l'âge et la situation géographique, peuvent permettre de prédire la réponse à une promotion, en comparant les clients potentiels aux clients existants qui présentent des caractéristiques similaires. Plus particulièrement, ils veulent déterminer les différences entre les clients ayant acheté un vélo et ceux qui n'en ont pas acheté.

En utilisant l'algorithme MNB (Microsoft Naive Bayes), le service marketing peut rapidement prédire un résultat pour un profil de client spécifique et peut ainsi déterminer quels clients sont les plus susceptibles de répondre aux prospectus. En utilisant la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes) de Business Intelligence Development Studio, le service marketing peut aussi identifier visuellement les colonnes d'entrée contribuant aux réponses positives aux prospectus.

Fonctionnement de l'algorithme

L'algorithme MNB (Microsoft Naive Bayes) calcule la probabilité de tous les états de chaque colonne d'entrée, en fonction de chaque état possible de la colonne prévisible. Vous pouvez utiliser la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes) dans Business Intelligence Development Studio pour voir comment l'algorithme distribue les états, comme le montre le graphique suivant.

Distribution de l'algorithme MNB (Naive Bayes) des états

La Visionneuse de l'algorithme MNB (Microsoft Naive Bayes) répertorie chacune des colonnes d'entrée du jeu de données et montre comment les états de chaque colonne sont distribués, en fonction de chaque état de la colonne prévisible. Vous pouvez utiliser cette vue pour identifier les colonnes d'entrée qui jouent un rôle important dans la différenciation des états de la colonne prévisible. Par exemple, dans la colonne Commute Distance (distance domicile-travail) figurant ci-dessus, la probabilité qu'un client va acheter un vélo est de 0,387 si le client habite de 1,5 à 3 kilomètres de son travail, tandis que la probabilité qu'il ne va pas acheter de vélo est de 0,287 s'il fait la navette entre son domicile et son travail. Dans cet exemple, l'algorithme utilise les données numériques, provenant des caractéristiques du client telles que la distance domicile-travail, pour prédire si un client va ou non acheter un vélo. Pour plus d'informations sur l'utilisation de la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes), consultez Affichage d'un modèle d'exploration de données à l'aide de la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes).

Utilisation de l'algorithme

Un modèle bayésien naïf doit contenir une colonne clé, des colonnes d'entrée et une colonne prévisible. Toutes les colonnes doivent être soit discrètes, soit discrétisées. Pour plus d'informations sur la discrétisation des colonnes, consultez Méthodes de discrétisation.

L'algorithme MNB (Microsoft Naive Bayes) prend en charge des types de contenu de colonne d'entrée, des types de contenu de colonne prévisible et des indicateurs de modélisation spécifiques qui sont répertoriés dans le tableau suivant.

Types de contenu de colonne d'entrée

Cyclique, Discret, Discrétisé, Clé, Table et Ordonné

Types de contenu de colonne prévisible

Cyclique, Discret, Discrétisé, Table et Ordonné

Indicateurs de modélisation

MODEL_EXISTENCE_ONLY et NOT NULL

Tous les algorithmes Microsoft prennent en charge un ensemble commun de fonctions. Toutefois, l'algorithme MNB (Microsoft Naive Bayes) prend en charge des fonctions supplémentaires qui sont décrites dans le tableau suivant.

IsDescendant

PredictNodeId

PredictAdjustedProbability

PredictProbability

PredictAssociation

PredictSupport

PredictHistogram

Pour obtenir la liste des fonctions qui sont communes à tous les algorithmes Microsoft, consultez Algorithmes d'exploration de données. Pour plus d'informations sur l'utilisation de ces fonctions, consultez Fonctions DMX (Data Mining Extensions).

L'algorithme MNB (Microsoft Naive Bayes) ne prend pas en charge l'utilisation du langage PMML (Predictive Model Markup Language) pour créer des modèles d'exploration de données.

L'algorithme MNB (Microsoft Naive Bayes) prend en charge plusieurs paramètres qui affectent les performances et la précision du modèle d'exploration de données obtenu. Le tableau suivant décrit chacun de ces paramètres.

Paramètre Description

MAXIMUM_INPUT_ATTRIBUTES

Spécifie le nombre maximal d'attributs d'entrée que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités pour les attributs d'entrée.

La valeur par défaut est 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Spécifie le nombre maximal d'attributs de sortie que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités pour les attributs de sortie.

La valeur par défaut est 255.

MINIMUM_DEPENDENCY_PROBABILITY

Spécifie la probabilité de dépendance minimale entre les attributs d'entrée et les attributs de sortie. Cette valeur sert à limiter la taille du contenu généré par l'algorithme. Cette propriété peut prendre une valeur comprise entre 0 et 1. Plus la valeur est grande, moins le nombre d'attributs dans le contenu du modèle est élevé.

La valeur par défaut est 0,5.

MAXIMUM_STATES

Spécifie le nombre maximal d'états d'attribut que l'algorithme prend en charge. Si le nombre d'états d'un attribut est supérieur au nombre maximal d'états, l'algorithme sélectionne les états les plus fréquents pour cet attribut et traite les autres comme étant absents.

La valeur par défaut est 100.

Voir aussi

Concepts

Algorithmes d'exploration de données
Méthodes de discrétisation
Sélection des fonctionnalités pour l'exploration de données
Utilisation des outils d'exploration de données
Affichage d'un modèle d'exploration de données à l'aide de la Visionneuse de l'algorithme MNB (Microsoft Naive Bayes)

Autres ressources

CREATE MINING MODEL (DMX)

Aide et Informations

Assistance sur SQL Server 2005