Converter em valores de indicador

Converte valores categóricos em colunas para valores de indicador

Categoria: transformação/manipulação de dados

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo converter para valores de indicador no Azure Machine Learning Studio (clássico). A finalidade desse módulo é converter colunas que contêm valores categóricos em uma série de colunas de indicadores binários que podem ser usadas mais facilmente como recursos em um modelo de aprendizado de máquina.

Como configurar converter para valores de indicador

  1. Adicione o módulo converter para valores de indicador ao seu Azure Machine Learning experimento e conecte-o ao conjunto de módulos que contém as colunas que você deseja converter. Você pode encontrar esse módulo em transformações de dados, na categoria manipulação .

  2. Use o Seletor de Coluna para escolher uma ou mais colunas categóricas.

    Para garantir que as colunas selecionadas sejam categóricas, use Editar metadados antes de converter para valores de indicador em seu experimento, para marcar a coluna de destino como categórica.

  3. Selecione a opção substituir colunas categóricas se desejar gerar apenas as novas colunas booleanas.

    Por padrão, essa opção está desativada, o que permite que você veja a coluna categórica que é a origem, junto com as colunas de indicador relacionadas.

    Dica

    Se você escolher a opção de substituir, a coluna de origem não será realmente excluída nem modificada. Em vez disso, as novas colunas são geradas e apresentadas no conjunto de resultados de saída, e a coluna de origem permanece disponível no espaço de trabalho. Se você precisar ver os dados originais, poderá usar o módulo adicionar colunas a qualquer momento para adicionar a coluna de origem novamente.

  4. Execute o experimento.

Resultados

Por exemplo, suponha que você tenha uma coluna com pontuações que indique se um servidor tem uma probabilidade alta, média ou baixa de falha.

ID de servidor Pontuação de falha
10301 Baixo
10302 Média
10303 Alta

Quando você aplica converter a valores de indicador, a única coluna de rótulos é convertida em várias colunas que contêm valores Boolianos:

ID de servidor Pontuação de falha-baixa Pontuação de falha-média Pontuação de falha-alta
10301 1 0 0
10302 0 1 0
10303 0 0 1

Veja como a conversão funciona:

  • Na coluna Pontuação de falha que descreve o risco, há apenas três valores possíveis (alto, médio e baixo) e nenhum valor ausente. Portanto, exatamente três novas colunas são criadas.

  • As novas colunas de indicador são nomeadas com base nos títulos de coluna e valores da coluna de origem, usando esse padrão: <source column>- <data value> .

  • Deve haver uma coluna de indicador 1 em exatamente uma e 0 em todas as outras colunas de indicador. Isso ocorre porque cada servidor pode ter apenas uma classificação de risco.

Agora você pode usar as três colunas de indicador como recursos e analisar a correlação com outras propriedades associadas a um nível de risco diferente.

Exemplos

Para ver exemplos de como esse módulo é usado, consulte a Galeria de ia do Azure:

  • Detecção de câncer mama: os pacientes são compartimentalizados em grupos com base em números de ID de pacientes e, em seguida, os valores de indicador são usados para sinalizar a qual grupo o paciente pertence. Posteriormente, os indicadores de grupo são usados ao classificar os modelos.

  • Marketing direto: as probabilidades são comparadas a uma constante usando aplicar operação matemáticae os valores Sim/Não que indicam se a pontuação estava acima ou abaixo da constante é transformada em novas colunas de indicador.

  • Detecção de intrusão de rede: os dados de log são carregados do armazenamento do Azure. A variável de classe (que descreve, por exemplo, se um invasor for um estouro de buffer ou de rootkit) é convertida em uma coluna categórica e expandida para vários valores de indicador.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Dicas de uso

  • Somente as colunas que são marcadas como categóricas podem ser convertidas em colunas de indicador. Se você vir esse erro, é provável que uma das colunas selecionadas não seja categórica:

    Erro 0056: a coluna com <column name> o nome não está em uma categoria permitida.

    Por padrão, a maioria das colunas de cadeia de caracteres são tratadas como recursos de cadeia de caracteres, portanto, você deve marcá-las explicitamente como categórica usando Editar metadados

  • Um erro será exibido se você não selecionar pelo menos uma coluna categórica.

  • Não há limite para o número de colunas que você pode converter em colunas de indicador. No entanto, como cada coluna de valores pode produzir várias colunas de indicador, talvez você queira converter e examinar apenas algumas colunas de cada vez.

  • Se a coluna contiver valores ausentes, uma coluna de indicador separada será criada para a categoria ausente, com este nome: <source column> -ausente

  • Se a coluna que você converter em valores de indicador contiver números, elas deverão ser marcadas como categóricas como qualquer outra coluna de recurso. Depois de fazer isso, os números são tratados como valores discretos. Por exemplo, se você tiver uma coluna numérica com valores MPG variando de 25 a 30, uma nova coluna de indicador será criada para cada valor discreto:

    Faça Rodovia MPG-25 Rodovia MPG-26 Rodovia MPG-27 Rodovia MPG-28 Rodovia MPG-29 Rodovia MPG-30
    Alfa Romeu 0 0 0 0 0 1

    Para evitar obter um grande número de colunas de indicador, recomendamos que você primeiro verifique o número de valores na coluna e, em seguida, ou quantificar os dados adequadamente.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados com colunas categóricas

Parâmetros do módulo

Nome Intervalo Type Padrão Descrição
Colunas categóricas a serem convertidas Qualquer ColumnSelection Selecione colunas categóricas para converter em matrizes de indicador.
Substituir colunas categóricas Qualquer Boolean false Se True, substituir colunas categóricas selecionadas; caso contrário, acrescentar as matrizes de indicador resultantes ao conjunto de dados.

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados com colunas categóricas convertidas em matrizes de indicador.

Confira também

Manusei
Transformação de dados
Lista de Módulo A-Z