Recortar valores
Detecta valores atípicos e recorta ou substitui valores
Categoria: transformação de dados/escala e redução
Observação
Aplica-se a: Machine Learning Studio (clássico)
Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.
Visão geral do módulo
Este artigo descreve como usar o módulo valores de clipes no Azure Machine Learning Studio (clássico) para identificar e, opcionalmente, substituir valores de dados que estão acima ou abaixo de um limite especificado. Isso é útil quando você deseja remover exceções ou substituí-las por uma média, uma constante ou outro valor substituto.
Você conecta o módulo a um conjunto de um que tem os números que deseja recortar, escolhe as colunas com as quais trabalhar e, em seguida, define um limite ou intervalo de valores e um método de substituição. O módulo pode gerar apenas os resultados ou os valores alterados anexados ao conjunto de banco de um original.
Como configurar valores de clipe
Antes de começar, identifique as colunas que você deseja recortar e o método a ser usado. Recomendamos que você teste qualquer método de recorte em um pequeno subconjunto de dados primeiro.
O módulo aplica os mesmos critérios e método de substituição a todas as colunas que você incluir na seleção. Portanto, certifique-se de excluir colunas que você não deseja alterar.
Se você precisar aplicar métodos de recorte ou diferentes critérios a algumas colunas, deverá usar uma nova instância de valores de clipe para cada conjunto de colunas semelhantes.
Adicione o módulo valores de clipe ao seu experimento e conecte-o ao conjunto de um que você deseja modificar. Você pode encontrar esse módulo em transformação de dados, na categoria escala e redução .
Em lista de colunas, use o seletor de coluna para escolher as colunas às quais os valores de clipe serão aplicados.
Para o conjunto de limites, escolha uma das opções a seguir na lista suspensa. Essas opções determinam como você define os limites superior e inferior para valores aceitáveis versus valores que devem ser recortados.
ClipPeaks: quando você corta valores por picos, você especifica apenas um limite superior. Valores maiores que esse valor de limite são substituídos ou removidos.
ClipSubpeaks: quando você corta valores por subpicos, você especifica apenas um limite inferior. Valores menores que esse valor de limite são substituídos ou removidos.
ClipPeaksAndSubpeaks: quando você corta valores por picos e picos, você pode especificar os limites superior e inferior. Os valores que estão fora desse intervalo são substituídos ou removidos. Os valores que correspondem aos valores de limite não são alterados.
Dependendo da sua seleção na etapa anterior, você pode definir os seguintes valores de limite:
- Limite inferior: exibido somente se você escolher ClipSubPeaks
- Limite superior: exibido somente se você escolher ClipPeaks
- Limite: exibido somente se você escolher ClipPeaksAndSubPeaks
Para cada tipo de limite, escolha constante ou percentil.
Se você selecionar constante, digite o valor máximo ou mínimo na caixa de texto. Por exemplo, suponha que você saiba que o valor 999 foi usado como um valor de espaço reservado. Você pode escolher constante para o limite superior e digitar 999 no valor constante do limite superior.
Se você escolher percentil, restringirá os valores de coluna a um intervalo percentual.
Por exemplo, suponha que você deseja manter apenas os valores no intervalo de 10-80 percentil e substituir todos os outros. Você escolherá percentil e, em seguida, digitará 10 para o valor de percentil do limite inferior e digitará 80 para o valor percentual do limite superior.
Consulte a seção sobre percentuais para ver alguns exemplos de como usar intervalos de percentil.
Defina um valor de substituição.
Os números que correspondem exatamente aos limites que você acabou de especificar são considerados dentro do intervalo de valores permitido e, portanto, não são substituídos ou removidos. Todos os números que estão fora do intervalo especificado são substituídos pelo valor de substituição.
- Valor substituto para picos: define o valor a ser substituído por todos os valores de coluna que são maiores que o limite especificado.
- Valor de substituição para subpicos: define o valor a ser usado como um substituto para todos os valores de coluna que são menores que o limite especificado.
- Se você usar a opção ClipPeaksAndSubpeaks , poderá especificar valores de substituição separados para os valores recortados superior e inferior.
Há suporte para os seguintes valores de substituição:
Limite: substitui valores recortados pelo valor de limite especificado.
Média: substitui os valores cortados pela média dos valores de coluna. A média é calculada antes que os valores sejam recortados.
Mediana: substitui os valores recortados pela mediana dos valores da coluna. A mediana é computada antes que os valores sejam recortados.
Ausente. Substitui os valores recortados pelo valor ausente (vazio).
Adicionar colunas de indicador: Selecione esta opção se desejar gerar uma nova coluna que informa se a operação de recorte especificada foi aplicada aos dados nessa linha. Essa opção é particularmente útil quando você está testando um novo conjunto de valores de recorte e substituição.
Substituir sinalizador: indica como você deseja que os novos valores sejam gerados. Por padrão, os valores de clipes constroem uma nova coluna com os valores de pico recortados para o limite desejado. Novos valores substituem a coluna original.
Para manter a coluna original e adicionar uma nova coluna com os valores recortados, desmarque essa opção.
Execute o experimento.
Clique com o botão direito do mouse na saída do módulo valores de clipe e selecione Visualizar para examinar os valores e verifique se a operação de recorte atende às suas expectativas.
Exemplos
Para ver como esse módulo é usado em experimentos de aprendizado de máquina, consulte o Galeria de ia do Azure:
- Exceções de incêndio de floresta: Este exemplo da EdX couse na ciência de dados demonstra métodos de recorte usando o conjunto de dados de exemplo da floresta acionado.
Recorte usando percentils
Para entender como funciona o recorte de percentuais, considere um conjunto de dados com 10 linhas, que tenham uma instância cada dos valores de 1 a 10.
Se você estiver usando o percentil como o limite superior, o valor para o 90º percentil, 90 por cento de todos os valores no conjunto de dados deverá ser menor que esse valor.
Se você estiver usando o percentil como o limite inferior, o valor para o 10º percentil, 10 por cento de todos os valores no conjunto de dados deverá ser menor que esse valor.
Para o conjunto de limites, escolha ClipPeaksAndSubPeaks.
Para Limite superior, escolha Percentil e para Número de percentil, digite 90.
Para Valor superior de substituição, escolha Valor Ausente.
Para Limite inferior, escolha Percentil e para Número de percentil, digite 10.
Para Valor inferior de substituição, escolha Valor Ausente.
Desmarque a opção Sinalizador de substituição e selecione a opção Adicionar coluna indicadora.
Agora tente a mesma experiência usando 60 como o limite superior de percentil e 30 como o limite inferior de percentil e usar o valor de limite como o valor de substituição. A tabela a seguir compara esses dois resultados:
Substituir por ausente; Limite superior = 90; Limite inferior = 10
Substituir por limite; Percentil superior = 60; Percentil inferior = 30
Dados originais | Substituir por ausente | Substituir por limite |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE TRUE 3, FALSO 4, FALSO 5, FALSO 6, FALSO 7, FALSO 8, FALSO 9, FALSO TRUE |
4, VERDADEIRO 4, VERDADEIRO 4, VERDADEIRO 4, VERDADEIRO 5, FALSO 6, FALSO 7, VERDADEIRO 7, VERDADEIRO 7, VERDADEIRO 7, VERDADEIRO |
Observações técnicas
Você pode usar valores de clipe somente em colunas que contenham números ou valores de data/hora.
Se você incluir colunas que tenham texto ou dados categóricos, as colunas serão ignoradas.
Valores ausentes são ignorados quando o valor médio ou mediano for calculado para uma coluna.
Valores do Clipe não oferece suporte a dados ordinais.
Valores ausentes não são alterados quando eles são propagados para o conjunto de dados de saída. A coluna que indica valores recortados sempre contém FALSE para valores ausentes.
Entradas esperadas
Nome | Tipo | Descrição |
---|---|---|
Conjunto de dados | Tabela de Dados | Conjunto de dados de entrada |
Parâmetros do módulo
Name | Intervalo | Type | Padrão | Descrição |
---|---|---|---|---|
Adicionar colunas de indicador | TRUE/FALSE | Boolean | FALSE | Se é feita a adição do indicador para recorte de um valor |
Valor constante para o limite inferior | any | Float | -1 | Valor abaixo do qual os subpicos serão recortados |
Valor constante para o limite superior | any | Float | 1 | Valor acima do qual os picos serão recortados |
Valor constante do limite inferior | any | Float | -1 | Valor abaixo do qual os subpicos são recortados |
Valor constante do limite superior | >= 1 | Float | 1 | Valor acima do qual os picos são recortados |
Lista de colunas | ColumnSelection | Lista de colunas a serem recortadas | ||
Valor inferior de substituição | Limite Média Mediana Ausente |
SubstituteValues | Limite | O valor usado para recortar subpicos |
Limite inferior | Constante Percentil |
Modo de limite | Constante | Valor abaixo do qual os subpicos serão o modo recortado |
Sinalizador de substituição | TRUE/FALSE | Boolean | TRUE | Se colunas de dados recortados devem substituir coluna (s) de dados de entrada |
Número de percentual para o limite inferior | [1; 99] | Integer | 1 | Número percentual abaixo do qual os subpicos serão recortados |
Número de percentual para o limite superior | [1; 99] | Integer | 99 | Número percentual acima do qual os picos serão recortados |
Número de percentual do limite inferior | [1; 99] | Integer | 1 | Número percentual abaixo do qual os subpicos são recortados |
Número de percentual do limite superior | [1; 99] | Integer | 99 | Número percentual acima do qual os picos são recortados |
Conjunto de limites | ClipPeaks ClipSubPeaks ClipPeaksAndSubPeaks |
Conjunto de limites | ClipPeaks | Especifica o tipo de limite a ser usado |
Valor de substituição para picos | Limite Média Mediana Ausente |
SubstituteValues | Limite | O valor usado durante picos de corte |
Valor de substituição para subpeaks | Limite Média Mediana Ausente |
SubstituteValues | Limite | O valor usado durante os subpicos de corte |
Limite | Constante Percentil |
Modo de limite | Constante | Valor acima e abaixo do qual os picos serão do modo recortado |
Valor superior de substituição | Limite Média Mediana Ausente |
Limite | Limite | O valor usado para picos de corte |
Limite superior | Constante Percentil |
Modo de limite | Constante | Valor acima do qual os picos serão o modo recortado |
Saídas
Nome | Tipo | Descrição |
---|---|---|
Conjunto de dados de resultados | Tabela de Dados | Conjunto de dados com colunas recortadas |
Exceções
Exceção | Descrição |
---|---|
Erro 0011 | Ocorrerá uma exceção se o argumento de conjunto de colunas passado não se aplicar a nenhuma das colunas do conjunto de dados. |
Erro 0017 | Ocorrerá uma exceção se uma ou mais das colunas especificadas tiver um tipo sem suporte por módulo atual. |
Para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.
Para obter uma lista de exceções de API, consulte Machine Learning códigos de erro da API REST.