Recortar valores

Detecta valores atípicos e recorta ou substitui valores

Categoria: transformação de dados/escala e redução

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo valores de clipes no Azure Machine Learning Studio (clássico) para identificar e, opcionalmente, substituir valores de dados que estão acima ou abaixo de um limite especificado. Isso é útil quando você deseja remover exceções ou substituí-las por uma média, uma constante ou outro valor substituto.

Você conecta o módulo a um conjunto de um que tem os números que deseja recortar, escolhe as colunas com as quais trabalhar e, em seguida, define um limite ou intervalo de valores e um método de substituição. O módulo pode gerar apenas os resultados ou os valores alterados anexados ao conjunto de banco de um original.

Como configurar valores de clipe

Antes de começar, identifique as colunas que você deseja recortar e o método a ser usado. Recomendamos que você teste qualquer método de recorte em um pequeno subconjunto de dados primeiro.

O módulo aplica os mesmos critérios e método de substituição a todas as colunas que você incluir na seleção. Portanto, certifique-se de excluir colunas que você não deseja alterar.

Se você precisar aplicar métodos de recorte ou diferentes critérios a algumas colunas, deverá usar uma nova instância de valores de clipe para cada conjunto de colunas semelhantes.

  1. Adicione o módulo valores de clipe ao seu experimento e conecte-o ao conjunto de um que você deseja modificar. Você pode encontrar esse módulo em transformação de dados, na categoria escala e redução .

  2. Em lista de colunas, use o seletor de coluna para escolher as colunas às quais os valores de clipe serão aplicados.

  3. Para o conjunto de limites, escolha uma das opções a seguir na lista suspensa. Essas opções determinam como você define os limites superior e inferior para valores aceitáveis versus valores que devem ser recortados.

    • ClipPeaks: quando você corta valores por picos, você especifica apenas um limite superior. Valores maiores que esse valor de limite são substituídos ou removidos.

    • ClipSubpeaks: quando você corta valores por subpicos, você especifica apenas um limite inferior. Valores menores que esse valor de limite são substituídos ou removidos.

    • ClipPeaksAndSubpeaks: quando você corta valores por picos e picos, você pode especificar os limites superior e inferior. Os valores que estão fora desse intervalo são substituídos ou removidos. Os valores que correspondem aos valores de limite não são alterados.

  4. Dependendo da sua seleção na etapa anterior, você pode definir os seguintes valores de limite:

    • Limite inferior: exibido somente se você escolher ClipSubPeaks
    • Limite superior: exibido somente se você escolher ClipPeaks
    • Limite: exibido somente se você escolher ClipPeaksAndSubPeaks

    Para cada tipo de limite, escolha constante ou percentil.

  5. Se você selecionar constante, digite o valor máximo ou mínimo na caixa de texto. Por exemplo, suponha que você saiba que o valor 999 foi usado como um valor de espaço reservado. Você pode escolher constante para o limite superior e digitar 999 no valor constante do limite superior.

  6. Se você escolher percentil, restringirá os valores de coluna a um intervalo percentual.

    Por exemplo, suponha que você deseja manter apenas os valores no intervalo de 10-80 percentil e substituir todos os outros. Você escolherá percentil e, em seguida, digitará 10 para o valor de percentil do limite inferior e digitará 80 para o valor percentual do limite superior.

    Consulte a seção sobre percentuais para ver alguns exemplos de como usar intervalos de percentil.

  7. Defina um valor de substituição.

    Os números que correspondem exatamente aos limites que você acabou de especificar são considerados dentro do intervalo de valores permitido e, portanto, não são substituídos ou removidos. Todos os números que estão fora do intervalo especificado são substituídos pelo valor de substituição.

    • Valor substituto para picos: define o valor a ser substituído por todos os valores de coluna que são maiores que o limite especificado.
    • Valor de substituição para subpicos: define o valor a ser usado como um substituto para todos os valores de coluna que são menores que o limite especificado.
    • Se você usar a opção ClipPeaksAndSubpeaks , poderá especificar valores de substituição separados para os valores recortados superior e inferior.

    Há suporte para os seguintes valores de substituição:

    • Limite: substitui valores recortados pelo valor de limite especificado.

    • Média: substitui os valores cortados pela média dos valores de coluna. A média é calculada antes que os valores sejam recortados.

    • Mediana: substitui os valores recortados pela mediana dos valores da coluna. A mediana é computada antes que os valores sejam recortados.

    • Ausente. Substitui os valores recortados pelo valor ausente (vazio).

  8. Adicionar colunas de indicador: Selecione esta opção se desejar gerar uma nova coluna que informa se a operação de recorte especificada foi aplicada aos dados nessa linha. Essa opção é particularmente útil quando você está testando um novo conjunto de valores de recorte e substituição.

  9. Substituir sinalizador: indica como você deseja que os novos valores sejam gerados. Por padrão, os valores de clipes constroem uma nova coluna com os valores de pico recortados para o limite desejado. Novos valores substituem a coluna original.

    Para manter a coluna original e adicionar uma nova coluna com os valores recortados, desmarque essa opção.

  10. Execute o experimento.

    Clique com o botão direito do mouse na saída do módulo valores de clipe e selecione Visualizar para examinar os valores e verifique se a operação de recorte atende às suas expectativas.

Exemplos

Para ver como esse módulo é usado em experimentos de aprendizado de máquina, consulte o Galeria de ia do Azure:

  • Exceções de incêndio de floresta: Este exemplo da EdX couse na ciência de dados demonstra métodos de recorte usando o conjunto de dados de exemplo da floresta acionado.

Recorte usando percentils

Para entender como funciona o recorte de percentuais, considere um conjunto de dados com 10 linhas, que tenham uma instância cada dos valores de 1 a 10.

  • Se você estiver usando o percentil como o limite superior, o valor para o 90º percentil, 90 por cento de todos os valores no conjunto de dados deverá ser menor que esse valor.

  • Se você estiver usando o percentil como o limite inferior, o valor para o 10º percentil, 10 por cento de todos os valores no conjunto de dados deverá ser menor que esse valor.

  1. Para o conjunto de limites, escolha ClipPeaksAndSubPeaks.

  2. Para Limite superior, escolha Percentil e para Número de percentil, digite 90.

  3. Para Valor superior de substituição, escolha Valor Ausente.

  4. Para Limite inferior, escolha Percentil e para Número de percentil, digite 10.

  5. Para Valor inferior de substituição, escolha Valor Ausente.

  6. Desmarque a opção Sinalizador de substituição e selecione a opção Adicionar coluna indicadora.

Agora tente a mesma experiência usando 60 como o limite superior de percentil e 30 como o limite inferior de percentil e usar o valor de limite como o valor de substituição. A tabela a seguir compara esses dois resultados:

  1. Substituir por ausente; Limite superior = 90; Limite inferior = 10

  2. Substituir por limite; Percentil superior = 60; Percentil inferior = 30

Dados originais Substituir por ausente Substituir por limite
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSO

4, FALSO

5, FALSO

6, FALSO

7, FALSO

8, FALSO

9, FALSO

TRUE
4, VERDADEIRO

4, VERDADEIRO

4, VERDADEIRO

4, VERDADEIRO

5, FALSO

6, FALSO

7, VERDADEIRO

7, VERDADEIRO

7, VERDADEIRO

7, VERDADEIRO

Observações técnicas

  • Você pode usar valores de clipe somente em colunas que contenham números ou valores de data/hora.

  • Se você incluir colunas que tenham texto ou dados categóricos, as colunas serão ignoradas.

  • Valores ausentes são ignorados quando o valor médio ou mediano for calculado para uma coluna.

  • Valores do Clipe não oferece suporte a dados ordinais.

  • Valores ausentes não são alterados quando eles são propagados para o conjunto de dados de saída. A coluna que indica valores recortados sempre contém FALSE para valores ausentes.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Name Intervalo Type Padrão Descrição
Adicionar colunas de indicador TRUE/FALSE Boolean FALSE Se é feita a adição do indicador para recorte de um valor
Valor constante para o limite inferior any Float -1 Valor abaixo do qual os subpicos serão recortados
Valor constante para o limite superior any Float 1 Valor acima do qual os picos serão recortados
Valor constante do limite inferior any Float -1 Valor abaixo do qual os subpicos são recortados
Valor constante do limite superior >= 1 Float 1 Valor acima do qual os picos são recortados
Lista de colunas ColumnSelection Lista de colunas a serem recortadas
Valor inferior de substituição Limite

Média

Mediana

Ausente
SubstituteValues Limite O valor usado para recortar subpicos
Limite inferior Constante

Percentil
Modo de limite Constante Valor abaixo do qual os subpicos serão o modo recortado
Sinalizador de substituição TRUE/FALSE Boolean TRUE Se colunas de dados recortados devem substituir coluna (s) de dados de entrada
Número de percentual para o limite inferior [1; 99] Integer 1 Número percentual abaixo do qual os subpicos serão recortados
Número de percentual para o limite superior [1; 99] Integer 99 Número percentual acima do qual os picos serão recortados
Número de percentual do limite inferior [1; 99] Integer 1 Número percentual abaixo do qual os subpicos são recortados
Número de percentual do limite superior [1; 99] Integer 99 Número percentual acima do qual os picos são recortados
Conjunto de limites ClipPeaks

ClipSubPeaks

ClipPeaksAndSubPeaks
Conjunto de limites ClipPeaks Especifica o tipo de limite a ser usado
Valor de substituição para picos Limite

Média

Mediana

Ausente
SubstituteValues Limite O valor usado durante picos de corte
Valor de substituição para subpeaks Limite

Média

Mediana

Ausente
SubstituteValues Limite O valor usado durante os subpicos de corte
Limite Constante

Percentil
Modo de limite Constante Valor acima e abaixo do qual os picos serão do modo recortado
Valor superior de substituição Limite

Média

Mediana

Ausente
Limite Limite O valor usado para picos de corte
Limite superior Constante

Percentil
Modo de limite Constante Valor acima do qual os picos serão o modo recortado

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados com colunas recortadas

Exceções

Exceção Descrição
Erro 0011 Ocorrerá uma exceção se o argumento de conjunto de colunas passado não se aplicar a nenhuma das colunas do conjunto de dados.
Erro 0017 Ocorrerá uma exceção se uma ou mais das colunas especificadas tiver um tipo sem suporte por módulo atual.

Para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

Para obter uma lista de exceções de API, consulte Machine Learning códigos de erro da API REST.

Consulte também

Dimensionar e reduzir
Lista de Módulo A-Z