Converter em Valores Indicadores

Converte valores categóricos em colunas para valores indicadores

Categoria: Transformação de Dados / Manipulação

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como utilizar o módulo Converte para Valores Indicadores no Azure Machine Learning Studio (clássico). O objetivo deste módulo é converter colunas que contenham valores categóricos numa série de colunas indicadoras binárias que podem ser mais facilmente usadas como funcionalidades num modelo de aprendizagem automática.

Como configurar Converter para Valores Indicadores

  1. Adicione o módulo Convertendo-se a Valores Indicadores à sua experiência de Aprendizagem automática Azure e conecte-o ao conjunto de dados que contém as colunas que pretende converter. Pode encontrar este módulo na categoria De Transformações de Dados, na categoria Manipulação.

  2. Utilize o Seletor de Colunas para escolher uma ou mais colunas categóricas.

    Para garantir que as colunas selecionadas são categóricas, utilize Metadados de Edição antes de Converter para Valores indicadores na sua experiência, para marcar a coluna-alvo como categórica.

  3. Selecione a opção Colunas Categóricas Overwrite se quiser descodur apenas as novas colunas Boolean.

    Por predefinição, esta opção está desligada, o que permite ver a coluna categórica que é a fonte, juntamente com as colunas indicadoras relacionadas.

    Dica

    Se escolher a opção de substituir em excesso, a coluna de origem não é realmente eliminada ou modificada. Em vez disso, as novas colunas são geradas e apresentadas no conjunto de dados de saída, e a coluna de origem permanece disponível no espaço de trabalho. Se precisar de ver os dados originais, pode utilizar o módulo Add Columns a qualquer momento para adicionar a coluna de origem de volta.

  4. Execute a experimentação.

Resultados

Por exemplo, suponha que tem uma coluna com pontuações que indicam se um servidor tem uma probabilidade alta, média ou baixa de falha.

ID do servidor Pontuação de falha
10301 Baixo
10302 Médio
10303 Alto

Quando se aplica Converter para Valores Indicadores,a única coluna de etiquetas é convertida em várias colunas contendo valores Boolean:

ID do servidor Pontuação de falha - Baixo Pontuação de falha - Média Pontuação de falha - Alta
10301 1 0 0
10302 0 1 0
10303 0 0 1

Eis como funciona a conversão:

  • Na coluna de pontuação Desídua que descreve o risco, existem apenas três valores possíveis (Alto, Médio e Baixo) e não faltam valores. Portanto, exatamente três novas colunas são criadas.

  • As novas colunas indicadoras são nomeadas com base nas posições e valores da coluna de origem, utilizando este padrão: <source column>- <data value> .

  • Deve haver um 1 em exatamente uma coluna indicadora, e 0 em todas as outras colunas indicadoras. Isto porque cada servidor pode ter apenas uma classificação de risco.

Agora pode usar as três colunas indicadoras como características e analisar a sua correlação com outras propriedades que estão associadas a diferentes níveis de risco.

Exemplos

Para ver exemplos de como este módulo é usado, consulte a Galeria Azure AI:

  • Deteção do cancro da mama:Os pacientes são ligados em grupos com base nos números de identificação do paciente, e depois os Valores indicadores são usados para sinalizar a que grupo o paciente pertence. Posteriormente, os indicadores de grupo são utilizados quando se marcam os modelos.

  • Marketing direto: As probabilidades são comparadas a uma constante utilizando a Operação Matemática Aplicada,e os valores Sim/Não que indicam se a pontuação foi acima ou abaixo da constante são transformados em novas colunas indicadoras.

  • Deteção de intrusão em rede: Os dados de registo são carregados a partir do armazenamento do Azure. A variável de classe (que descreve, por exemplo, se um ataque é um rootkit ou um transbordo de tampão) é convertida para uma coluna categórica e, em seguida, expandida para múltiplos valores indicadores.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Dicas de utilização

  • Apenas colunas marcadas como categóricas podem ser convertidas em colunas indicadoras. Se vir este erro, é provável que uma das colunas selecionadas não seja categórica:

    Erro 0056: Coluna com nome <column name> não está numa categoria permitida.

    Por predefinição, a maioria das colunas de cordas são manuseadas como funcionalidades de corda, pelo que deve marcá-las explicitamente como categóricas usando metadados de edição.

  • É apresentado um erro se não selecionar pelo menos uma coluna categórica.

  • Não há limite para o número de colunas que pode converter em colunas indicadoras. No entanto, como cada coluna de valores pode produzir várias colunas indicadoras, é possível que queira converter e rever apenas algumas colunas de cada vez.

  • Se a coluna contiver valores em falta, é criada uma coluna indicadora separada para a categoria em falta, com este nome: * <source column> - Falta*

  • Se a coluna que converte para valores indicadores contiver números, devem ser marcadas como categóricas como qualquer outra coluna de recurso. Depois de o ter feito, os números são tratados como valores discretos. Por exemplo, se tiver uma coluna numérica com valores de MPG que variam entre 25 e 30, será criada uma nova coluna indicadora para cada valor discreto:

    Criação Autoestrada mpg -25 Autoestrada mpg -26 Autoestrada mpg -27 Autoestrada mpg -28 Autoestrada mpg -29 Autoestrada mpg -30
    Alfa Romeo 0 0 0 0 0 1

    Para evitar obter um grande número de colunas indicadoras, recomendamos que verifique primeiro o número de valores na coluna e coloque ou quantificasse os dados adequadamente.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados com colunas categóricas

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Descrição
Colunas categóricas para converter Qualquer Seleção de Colunas Selecione colunas categóricas para converter em matrizes indicadoras.
Colunas categóricas substitutas Qualquer Booleano false Se for verdade, substitua as colunas categóricas selecionadas; caso contrário, anexar as matrizes indicadoras resultantes ao conjunto de dados.

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados com colunas categóricas convertidas em matrizes indicadoras.

Ver também

Manipulação
Transformação de Dados
Lista de Módulos A-Z