Converter em valores de indicador

Artigo
05/06/2019

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Converte valores categóricos em colunas para valores de indicador

Categoria: Transformação/manipulação de dados

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Converter em Valores de Indicador no Machine Learning Studio (clássico). A finalidade deste módulo é converter colunas que contêm valores categóricos em uma série de colunas de indicador binário que podem ser usadas mais facilmente como recursos em um modelo de machine learning.

Como configurar Converter para Valores de Indicador

Adicione o módulo Converter em Valores de Indicador ao Machine Learning teste e conecte-o ao conjuntos de dados que contém as colunas que você deseja converter. Você pode encontrar este módulo em Transformações de Dados, na categoria Manipulação .
Use o Seletor de Coluna para escolher uma ou mais colunas categóricas.

Para garantir que as colunas selecionadas sejam categóricas, use Editar Metadados antes de Converter em Valores indicadores em seu experimento, para marcar a coluna de destino como categórica.
Selecione a opção Substituir colunas categóricas se você quiser produzir apenas as novas colunas Boolianas.

Por padrão, essa opção está desligada, o que permite que você veja a coluna categórica que é a origem, junto com as colunas de indicador relacionadas.

Dica

Se você escolher a opção de substituir, a coluna de origem não será realmente excluída nem modificada. Em vez disso, as novas colunas são geradas e apresentadas no conjunto de dados de saída e a coluna de origem permanece disponível no workspace. Se você precisar ver os dados originais, poderá usar o módulo Adicionar Colunas a qualquer momento para adicionar a coluna de origem novamente.
Execute o experimento.

Resultados

Por exemplo, suponha que você tenha uma coluna com pontuações que indicam se um servidor tem uma probabilidade alta, média ou baixa de falha.

ID de servidor	Pontuação de falha
10301	Baixo
10302	Médio
10303	Alto

Quando você aplica Converter em Valores de Indicador, a única coluna de rótulos é convertida em várias colunas que contêm valores boolianas:

ID de servidor	Pontuação de falha – Baixo	Pontuação de falha – Médio	Pontuação de falha – Alto
10301	1	0	0
10302	0	1	0
10303	0	0	1

Veja como funciona a conversão:

Na coluna Pontuação de falha que descreve o risco, há apenas três valores possíveis (Alto, Médio e Baixo) e nenhum valor ausente. Portanto, exatamente três colunas novas são criadas.
As novas colunas de indicador são nomeadas com base nos cabeçalhos da coluna e nos valores da coluna de origem, usando este padrão: <coluna de origem>- <valor de dados>.
Deve haver um 1 em exatamente uma coluna de indicador e 0 em todas as outras colunas de indicador. Isso porque cada servidor pode ter apenas uma classificação de risco.

Agora você pode usar as três colunas de indicador como recursos e analisar sua correlação com outras propriedades associadas a um nível de risco diferente.

Exemplos

Para ver exemplos de como esse módulo é usado, consulte o Galeria de IA do Azure:

Detecção de câncer de câncer de câncer: os pacientes são agrupados em grupos com base nos números de ID do paciente e, em seguida, valores indicadores são usados para sinalizar a qual grupo o paciente pertence. Posteriormente, os indicadores de grupo são usados ao classificar os modelos.
Marketing direto: as probabilidades são comparadas a uma constante usando Aplicar Operação Matemática e os valores Sim/Não que indicam se a pontuação estava acima ou abaixo da constante são transformadas em novas colunas de indicador.
Detecção de intrusão de rede: os dados de log são carregados do armazenamento do Azure. A variável de classe (que descreve, por exemplo, se um invasor for um estouro de buffer ou de rootkit) é convertida em uma coluna categórica e expandida para vários valores de indicador.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Dicas de uso

Somente as colunas que são marcadas como categóricas podem ser convertidas em colunas de indicador. Se você vir esse erro, é provável que uma das colunas selecionadas não seja categórica:

Erro 0056: A coluna com o nome <nome da coluna> não é uma categoria permitida.

Por padrão, a maioria das colunas de cadeia de caracteres é tratada como recursos de cadeia de caracteres, portanto, você deve marcá-las explicitamente como categóricas usando Editar Metadados.
Um erro será exibido se você não selecionar pelo menos uma coluna categórica.
Não há limite para o número de colunas que você pode converter em colunas de indicador. No entanto, como cada coluna de valores pode produzir várias colunas de indicador, talvez você queira converter e revisar apenas algumas colunas por vez.
Se a coluna tiver valores ausentes, uma coluna de indicador separada será criada para a categoria ausente, com este nome: <coluna de origem>- Ausente
Se a coluna que você converter em valores de indicador tiver números, elas deverão ser marcadas como categóricas como qualquer outra coluna de recurso. Depois disso, os números serão tratados como valores discretos. Por exemplo, se você tiver uma coluna numérica com valores MPG variando de 25 a 30, uma nova coluna de indicador será criada para cada valor discreto:

Faça Rodovia mpg – 25 Rodovia mpg – 26 Rodovia mpg – 27 Rodovia mpg – 28 Rodovia mpg – 29 Rodovia mpg – 30

Alfa Alpha 0 0 0 0 0 1

Para evitar obter um grande número de colunas de indicador, recomendamos que você primeiro verifique o número de valores na coluna e, em seguida, ou quantificar os dados adequadamente.

Faça	Rodovia mpg – 25	Rodovia mpg – 26	Rodovia mpg – 27	Rodovia mpg – 28	Rodovia mpg – 29	Rodovia mpg – 30
Alfa Alpha	0	0	0	0	0	1

Entradas esperadas

Nome	Tipo	Descrição
Dataset	Tabela de Dados	Conjunto de dados com colunas categóricas

Parâmetros do módulo

Nome	Intervalo	Type	Padrão	Descrição
Colunas categóricas a serem convertidas	Qualquer	ColumnSelection		Selecione colunas categóricas para converter em matrizes de indicador.
Substituir colunas categóricas	Qualquer	Booliano	false	Se True, substituir colunas categóricas selecionadas; caso contrário, acrescentar as matrizes de indicador resultantes ao conjunto de dados.

Saída

Nome	Tipo	Descrição
Conjunto de dados de resultados	Tabela de Dados	Conjunto de dados com colunas categóricas convertidas em matrizes de indicador.

Confira também

Manipulação
Transformação de dados
Lista de Módulo A-Z