microsoftml.mutualinformation_select : sélection de caractéristiques en fonction de l'information mutuelle

Usage

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Description

Sélectionne les k premières caractéristiques dans toutes les colonnes spécifiées. Celles-ci sont classées d'après leur information mutuelle avec la colonne d'étiquette.

Détails

L'information mutuelle de deux variables aléatoires X et Y mesure la dépendance mutuelle entre les variables. Formellement, l'information mutuelle peut s'écrire de la façon suivante :

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

où l'attente est prise sur la distribution jointe de X et Y. p(x,y) est ici la fonction de densité de probabilité jointe de X et Y ; p(x) et p(y) sont respectivement les fonctions de densité de probabilité marginale de X et Y. En général, une information mutuelle plus élevée entre la variable dépendante (ou étiquette) et une variable indépendante (ou caractéristique) signifie que l'étiquette présente une dépendance mutuelle plus élevée par rapport à cette caractéristique.

Le mode de sélection de caractéristiques d'information mutuelle sélectionne les caractéristiques en fonction de l'information mutuelle. Il conserve les num_features_to_keep premières caractéristiques présentant la plus grande information mutuelle avec l'étiquette.

Arguments

cols

Spécifie une chaîne de caractères ou une liste des noms des variables à sélectionner.

label

Spécifie le nom de l'étiquette.

num_features_to_keep

Si le nombre de caractéristiques à conserver est spécifié comme étant n, la transformation choisit les n caractéristiques qui ont la plus grande information mutuelle avec la variable dépendante. La valeur par défaut est 1000.

num_bins

Nombre maximum de classes pour les valeurs numériques. Les puissances de 2 sont recommandées. La valeur par défaut est 256.

kargs

Arguments supplémentaires envoyés au moteur de calcul.

Retours

Objet définissant la transformation.

Voir aussi

count_select

Références

Wikipédia : Information mutuelle