microsoftml.mutualinformation_select : sélection de caractéristiques en fonction de l'information mutuelle
Usage
microsoftml.mutualinformation_select(cols: [list, str], label: str,
num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)
Description
Sélectionne les k premières caractéristiques dans toutes les colonnes spécifiées. Celles-ci sont classées d'après leur information mutuelle avec la colonne d'étiquette.
Détails
L'information mutuelle de deux variables aléatoires X
et Y
mesure la dépendance mutuelle entre les variables. Formellement, l'information mutuelle peut s'écrire de la façon suivante :
I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]
où l'attente est prise sur la distribution jointe de X
et Y
. p(x,y)
est ici la fonction de densité de probabilité jointe de X
et Y
; p(x)
et p(y)
sont respectivement les fonctions de densité de probabilité marginale de X
et Y
. En général, une information mutuelle plus élevée entre la variable dépendante (ou étiquette) et une variable indépendante (ou caractéristique) signifie que l'étiquette présente une dépendance mutuelle plus élevée par rapport à cette caractéristique.
Le mode de sélection de caractéristiques d'information mutuelle sélectionne les caractéristiques en fonction de l'information mutuelle. Il conserve les num_features_to_keep
premières caractéristiques présentant la plus grande information mutuelle avec l'étiquette.
Arguments
cols
Spécifie une chaîne de caractères ou une liste des noms des variables à sélectionner.
label
Spécifie le nom de l'étiquette.
num_features_to_keep
Si le nombre de caractéristiques à conserver est spécifié comme étant n
, la transformation choisit les n
caractéristiques qui ont la plus grande information mutuelle avec la variable dépendante. La valeur par défaut est 1000.
num_bins
Nombre maximum de classes pour les valeurs numériques. Les puissances de 2 sont recommandées. La valeur par défaut est 256.
kargs
Arguments supplémentaires envoyés au moteur de calcul.
Retours
Objet définissant la transformation.
Voir aussi
Références
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour