microsoftml.mutualinformation_select: seleção de recursos com base em informações mútuas

Uso

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Descrição

Seleciona os mil recursos principais em todas as colunas especificadas, ordenados pelas respectivas informações mútuas com a coluna de rótulo.

Detalhes

As informações mútuas de duas variáveis aleatórias X e Y são uma medida da dependência mútua entre as variáveis. Formalmente, as informações mútuas podem ser escritas como:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

em que a expectativa é obtida sobre a distribuição conjunta de X e Y. Aqui, p(x,y) é a função de densidade de probabilidade conjunta de X e Y. p(x) e p(y) são as funções de densidade de probabilidade marginal de X e Y, respectivamente. Em geral, uma informação mútua mais alta entre a variável (ou o rótulo) dependente e uma variável (ou recurso) independente significa que o rótulo tem maior dependência mútua sobre esse recurso.

O modo de seleção de recursos de informações mútuas seleciona os recursos com base nas informações mútuas. Ele mantém os num_features_to_keep principais recursos com as maiores informações mútuas com o rótulo.

Argumentos

cols

Especifica uma cadeia de caracteres ou lista de nomes de variáveis a ser selecionada.

label

Especifica o nome do rótulo.

num_features_to_keep

Se o número de recursos a serem mantidos for especificado como n, a transformação escolherá os n recursos que têm as maiores informações mútuas com a variável dependente. O valor padrão é 1000.

num_bins

Número máximo de compartimentos para valores numéricos. São recomendadas potências de 2. O valor padrão é 256.

kargs

Argumentos adicionais enviados ao mecanismo de computação.

Retornos

Um objeto que define a transformação.

Confira também

count_select

Referências

Wikipédia: informações mútuas