Substituir Valores Discretos

Artigo
05/06/2019

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
Saiba mais sobre Azure Machine Learning.

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Substitui valores discretos de uma coluna por valores numéricos baseados noutra coluna

Categoria: Funções Estatísticas

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como usar o módulo De Valores Discretos em Machine Learning Studio (clássico), para gerar uma pontuação de probabilidade que pode ser usada para representar um valor discreto. Esta pontuação pode ser útil para entender o valor da informação dos valores discretos.

Como funciona:

Selecione uma coluna que contenha o valor discreto (ou categórico) e, em seguida, selecione outra coluna para usar para referência.

Dependendo se a segunda coluna é categórica ou não categórica, o módulo calcula um dos seguintes valores:

A probabilidade condicional para a segunda coluna dado os valores na primeira coluna.
O desvio médio e padrão para cada grupo de valores na primeira coluna.

O módulo produz um conjunto de dados com as pontuações e uma função que pode guardar e aplicar a outros conjuntos de dados.

Como configurar substituir Valores Discretos

Dica

Recomendamos trabalhar com apenas um par de colunas de cada vez. O módulo não levanta um erro se selecionar várias colunas para analisar. No entanto, na prática, se escolher várias colunas, elas são acompanhadas por uma heurística interna, e não por ordem de seleção.

Por isso, recomendamos que selecione um único par de colunas de cada vez, uma para colunas Discretas e outra para colunas de substituição.

Se precisar de gerar pontuações para várias colunas, utilize instâncias separadas de Valores Discretos.

Adicione o módulo Valores Discretos de Substituição à sua experiência. Pode encontrar este módulo no grupo de Funções Estatísticas na lista de itens de experiência no Machine Learning Studio (clássico).
Ligação um conjunto de dados contendo pelo menos uma coluna de dados categóricos.
Colunas discretas: Clique no seletor de colunas de lançamento para escolher uma coluna que contenha valores discretos (ou categóricos).

As colunas discretas que selecionar devem ser categóricas. Se tiver um erro, utilize o módulo de Metadados de Edição para alterar o tipo de coluna.
Colunas de substituição: Clique no seletor de colunas de lançamento para escolher a coluna que contém os valores a utilizar na computação de uma pontuação de substituição.

Se selecionar várias colunas para colunas Discretas, deve escolher um número igual de colunas de substituição.
Execute a experimentação.

Nota

Não é possível escolher qual a função estatística a aplicar. O módulo calcula uma medida adequada, com base no tipo de dados da coluna selecionada para a coluna De substituição.

Resultados

O módulo calcula um dos seguintes valores para cada par de colunas:

Se a segunda coluna contiver valores categóricos, o módulo calcula a probabilidade condicional da segunda coluna, dado os valores na primeira coluna.

Por exemplo, assuma que escolheu occupation do conjunto de dados do Censo como coluna discreta e escolha gender como coluna de substituição. A saída do módulo seria:

P(gender | occupation)
Se a segunda coluna contiver valores não categóricos que podem ser convertidos em números (tais como valores numéricos ou booleanos não marcados como categóricos), o módulo produz o desvio médio e padrão para cada grupo de valores na primeira coluna.

Por exemplo, assuma que usa occupation como coluna Discrete e a outra coluna é a coluna hours-per-weeknumérica . O módulo iria der o resultado destes novos valores:

Mean(hours-per-week | occupation)

Std-Dev(hours-per-week | occupation)

Além das pontuações de probabilidade, o módulo também produz um conjunto de dados transformado. Neste conjunto de dados, a coluna selecionada como colunas de substituição é substituída por uma coluna que contém as pontuações calculadas.

Dica

As colunas do conjunto de dados de origem não são efetivamente alteradas ou eliminadas pela operação; as colunas de pontuação são novas geradas pelo módulo e pela saída em vez dos dados de origem.

Para visualizar os valores de origem juntamente com as pontuações de probabilidade, utilize o módulo Add Columns .

Exemplos

A utilização de Valores Discretos de Substituição pode ser ilustrada por alguns exemplos simples.

Exemplo 1 - Substitua um valor categórico por uma pontuação de probabilidade

A tabela seguinte contém uma coluna categórica X, e uma coluna Y com valores verdadeiros/falsos que são tratados como valores categóricos. Quando utilizas Valores Discretos de Substituição, calcula uma pontuação de probabilidade condicional para a probabilidade de Y dado X, como mostrado na terceira coluna.

X	Y	P(Y\| X)
Blue	0	`P(Y=0\|X=Blue) = 0.5`
Blue	1	`P(Y=1\|X=Blue) = 0.5`
Green	0	`P(Y=0\|X=Green) = 2/3`
Green	0	`P(Y=0\|X=Green) = 2/3`
Green	1	`P(Y=1\|X=Green) = 1/3`
Red	0	`P(Y=0\|X=Red) = .75`
Red	0	`P(Y=0\|X=Red) = .75`
Red	1	`P(Y=1\|X=Red) = .25`
Red	0	`P(Y=0\|X=Red) = .75`

Exemplo 2 - Calcular desvio médio e padrão com base numa coluna não-categorizada

Quando a segunda coluna é numérica, substituir Valores Discretos calcula o desvio médio e padrão em vez de uma pontuação de probabilidade condicional.

O exemplo a seguir baseia-se no conjunto de dados da amostra de Preços Automáticos , simplificado da seguinte forma:

Foi selecionado um pequeno subconjunto de colunas.
Apenas as 30 linhas superiores foram extraídas, utilizando a opção Cabeça do módulo partição e amostra .
O módulo De Valores Discretos foi utilizado para calcular o desvio médio e padrão para o peso da curva do veículo. dada a coluna categórica, num-of-doors.

A tabela a seguir ilustra os resultados:

Corpo	Num-of-doors	Peso-de-calçada	Média (peso de calçada\|num-de-portas)	Std-Dev (peso-curva\|num-of-doors)
std	dois	2548	2429.785714	507.45699
std	Quatro	2337	2625.6	493.409877
std	dois	2507	2429.785714	507.45699
turbo	Quatro	3086	2625.6 5	493.409877
std	Quatro	1989	2625.6	493.409877
turbo		2191
std	Quatro	2535	2625.6	493.409877

Pode verificar a média para cada grupo de valores utilizando a AVERAGEIF função em Excel.

Exemplo 3 - Manuseamento de valores em falta

Este exemplo demonstra como os valores em falta (nulos) se propagam aos resultados quando são calculadas as pontuações de probabilidade condicional.

Se a coluna de valor discreta e a coluna de procuração de cálculo contiverem quaisquer valores em falta, os valores em falta são propagados à nova coluna.
Se a coluna de valor discreta contiver apenas valores em falta, o módulo não pode processar a coluna e aparece uma mensagem de erro.

X	Y	P(Y\| X)
1	Verdadeiro	`P(Y=true\|X=1) = 1/2`
1	Falso	`P(Y=false\|X=1) = 1/2`
2	Verdadeiro	`P(Y=true\|X=2) = 1/3`
2	Falso	`P(Y=false\|X=2) = 1/3`
2	Nulo	`P(Y=null\|X=2) = null`

Notas técnicas

Deve certificar-se de que quaisquer colunas discretas que pretende substituir são categóricas ou o módulo retornará um erro. Para isso, utilize o módulo editar metadados .
Se a segunda coluna contiver valores Boolean, os valores True-False são processados como numéricos com equivalente falso e VERDADEIRO a 0 e 1, respectivamente.
A fórmula para a coluna padrão de desvio calcula o desvio padrão da população. Portanto, N é usado no denominador em vez de (N - 1).
Se a segunda coluna contiver dados não-categorizados (valores numéricos ou booleanos), o módulo calcula o desvio médio e padrão de Y pelo valor dado de X.

Isto é, para cada linha do conjunto de dados indexado por i:

Mean(Y│X)i = Mean(Y│X = Xi)

StdDev(Y│X)i = StdDev(Y│X = Xi)
Se a segunda coluna contiver dados ou valores categóricos que não são nem numéricos nem booleanos, o módulo calcula a probabilidade condicional de Y pelo valor dado de X.
Quaisquer valores Boolean na segunda coluna são tratados como dados numéricos com equivalente FALSO e VERDADEIRO a 0 e 1 respectivamente.
Se houver uma classe na coluna discreta, de tal forma que uma linha com um valor em falta esteja presente na segunda coluna, a soma de probabilidades condicionais dentro da classe é inferior a uma.

Entradas esperadas

Nome	Tipo	Description
Conjunto de dados	Tabela de Dados	Conjunto de dados de entrada

Parâmetros do módulo

Nome	Intervalo	Tipo	Predefinição	Description
Colunas discretas	Qualquer	Seleção de Colunas		Seleciona as colunas que contêm valores discretos
Colunas de substituição	Qualquer	Seleção de Colunas		Seleciona as colunas que contêm os dados a utilizar no lugar dos valores discretos

Saídas

Nome	Tipo	Description
Conjunto de dados suplementar	Tabela de Dados	Conjunto de dados com dados substituídos
Função de transformação	Interface ITransform	Definição da função de transformação, que pode ser aplicada a outros conjuntos de dados

Exceções

Exceção	Description
Erro 0001	A exceção ocorre se uma ou mais colunas especificadas do conjunto de dados não puderem ser encontradas.
Erro 0003	A exceção ocorre se uma ou mais entradas forem nulas ou vazias.
Erro 0020	A exceção ocorre se o número de colunas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno.
Erro 0021	A exceção ocorre se o número de linhas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno.
Erro 0017	A exceção ocorre se uma ou mais colunas especificadas tiverem um tipo que não é suportado pelo módulo atual.
Erro 0026	A exceção ocorre quando não são permitidas colunas com o mesmo nome.
Erro 0022	A exceção ocorre se o número de colunas selecionadas no conjunto de dados de entrada não for igual ao número esperado.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.

Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.

Ver também

Funções Estatísticas

X	Y	P(Y\| X)
Blue	0	`P(Y=0\|X=Blue) = 0.5`
Blue	1	`P(Y=1\|X=Blue) = 0.5`
Green	0	`P(Y=0\|X=Green) = 2/3`
Green	0	`P(Y=0\|X=Green) = 2/3`
Green	1	`P(Y=1\|X=Green) = 1/3`
Red	0	`P(Y=0\|X=Red) = .75`
Red	0	`P(Y=0\|X=Red) = .75`
Red	1	`P(Y=1\|X=Red) = .25`
Red	0	`P(Y=0\|X=Red) = .75`

X	Y	P(Y\| X)
1	Verdadeiro	`P(Y=true\|X=1) = 1/2`
1	Falso	`P(Y=false\|X=1) = 1/2`
2	Verdadeiro	`P(Y=true\|X=2) = 1/3`
2	Falso	`P(Y=false\|X=2) = 1/3`
2	Nulo	`P(Y=null\|X=2) = null`