Recortar valores

Este artigo descreve o componente do Azure Machine Learning Designer.

Use o componente Recortar Valores para identificar e, opcionalmente, substituir valores de dados que estão acima ou abaixo de um limite especificado com uma média, uma constante ou outro valor substituto.

Você conecta o componente a um conjunto de dados que tem os números que deseja recortar, escolhe as colunas com as quais deseja trabalhar e define um limite ou intervalo de valores e um método de substituição. O componente pode gerar apenas os resultados ou os valores alterados anexados ao conjunto de banco de um original.

Como configurar Recortar valores

Antes de começar, identifique as colunas que você deseja recortar e o método a ser usado. Recomendamos que você teste qualquer método de recorte em um pequeno subconjunto de dados primeiro.

O componente aplica os mesmos critérios e método de substituição a todas as colunas que você incluir na seleção. Portanto, exclua as colunas que você não deseja alterar.

Se você precisar aplicar métodos de recorte ou diferentes critérios a algumas colunas, deverá usar uma nova instância de Recortar Valores para cada conjunto de colunas semelhantes.

  1. Adicione o componente Recortar Valores ao seu pipeline e conecte-o ao conjunto de um que você deseja modificar. Encontre esse componente em Transformação de Dados, na categoria Dimensionar e Reduzir.

  2. Em Lista de colunas, use o seletor de coluna para escolher as colunas às quais Recortar valores será aplicado.

  3. Para o Conjunto de limites, escolha uma das opções a seguir na lista suspensa. Essas opções determinam como você define os limites superior e inferior para valores aceitáveis versus valores que devem ser recortados.

    • ClipPeaks: quando você corta valores por picos, especifique apenas um limite superior. Os valores maiores que esse valor de limite são substituídos.

    • ClipSubpeaks: ao cortar valores por subpicos, você especifica apenas um limite inferior. Valores menores que esse valor de limite são substituídos.

    • ClipPeaksAndSubpeaks: quando você recorta valores por picos e subpicos, você pode especificar os limites superior e inferior. Os valores que estão fora desse intervalo são substituídos. Os valores que correspondem aos valores de limite não são alterados.

  4. Dependendo da sua seleção na etapa anterior, você pode definir os seguintes valores de limite:

    • Limite inferior: exibido somente se você escolher ClipSubPeaks
    • Limite superior: exibido somente se você escolher ClipPeaks
    • Limite: exibido somente se você escolher ClipPeaksAndSubPeaks

    Para cada tipo de limite, escolha Constante ou Percentil.

  5. Se você selecionar Constante, digite o valor máximo ou mínimo na caixa de texto. Por exemplo, suponha que você saiba que o valor 999 tenha sido usado como um valor de espaço reservado. Você pode escolher Constante para o limite superior e digitar 999 em Valor de constante para o limite superior.

  6. Se você escolher Percentil, restringirá os valores de coluna a um intervalo percentual.

    Por exemplo, suponha que você queira manter apenas os valores no intervalo percentual de 10 a 80 e substituir todos os outros. Escolha Percentil e digite 10 para o Valor de percentil para o limite inferior e digite 80 para o Valor de percentil para o limite superior.

    Confira a seção sobre percentis para ver alguns exemplos de como usar intervalos de percentil.

  7. Defina um valor de substituição.

    Os números que correspondem exatamente aos limites que você especificou são considerados dentro do intervalo de valores permitido e, portanto, não são substituídos. Todos os números que estão fora do intervalo especificado são substituídos pelo valor de substituição.

    • Valor substituto para picos: define o valor a ser substituído para todos os valores de coluna maiores que o limite especificado.
    • Valor substituto para subpicos: define o valor a ser usado como substituto para todos os valores de coluna menores que o limite especificado.
    • Se você usar a opção ClipPeaksAndSubpeaks, poderá especificar valores de substituição separados para os valores recortados superior e inferior.

    Os seguintes valores de substituição têm suporte:

    • Limite: substitui valores recortados pelo valor de limite especificado.

    • Média: substitui os valores cortados pela média dos valores de coluna. A média é calculada antes que os valores sejam recortados.

    • Média: substitui os valores cortados pela média dos valores de coluna. A média é calculada antes que os valores sejam recortados.

    • Ausente. Substitui os valores recortados pelo valor ausente (vazio).

  8. Adicionar colunas de indicador: selecione esta opção se desejar gerar uma nova coluna que informa se a operação de recorte especificada foi aplicada aos dados nessa linha. Essa opção é útil ao testar um novo conjunto de valores de recorte e substituição.

  9. Substituir sinalizador: indica como você deseja que os novos valores sejam gerados. Por padrão, Recortar valores constrói uma nova coluna com os valores de pico recortados para o limite desejado. Novos valores substituem a coluna original.

    Para manter a coluna original e adicionar uma nova coluna com os valores recortados, desmarque essa opção.

  10. Envie o pipeline.

    Clique com o botão direito do mouse no componente Recortar Valores e selecione Visualizar ou selecione o componente e alterne para a guia Saídas no painel direito, clique no ícone de histograma nas Saídas de porta para examinar os valores e verificar se a operação de recorte atende às suas expectativas.

Exemplos de recorte usando percentis

Para entender como funciona o recorte de percentuais, considere um conjunto de dados com 10 linhas, que tenham uma instância cada dos valores de 1 a 10.

  • Se você estiver usando o percentil como o limite superior, o valor para o 90º percentil, 90 por cento de todos os valores no conjunto de dados deverá ser menor que esse valor.

  • Se você estiver usando o percentil como o limite inferior, o valor para o 10º percentil, 10 por cento de todos os valores no conjunto de dados deverá ser menor que esse valor.

  1. Para Conjunto de limites, escolha ClipPeaksAndSubPeaks.

  2. Para Limite superior, escolha Percentil e para Número de percentil, digite 90.

  3. Para Valor superior de substituição, escolha Valor Ausente.

  4. Para Limite inferior, escolha Percentil e para Número de percentil, digite 10.

  5. Para Valor inferior de substituição, escolha Valor Ausente.

  6. Desmarque a opção Sinalizador de substituição e selecione a opção Adicionar coluna indicadora.

Agora experimente o mesmo pipeline usando 60 como o limite superior de percentil e 30 como o limite inferior de percentil e use o valor de limite como o valor de substituição. A tabela a seguir compara esses dois resultados:

  1. Substituir por ausente; Limite superior = 90; Limite inferior = 20

  2. Substituir por limite; Percentil superior = 60; Percentil inferior = 40

Dados originais Substituir por ausente Substituir por limite
1

2

3

4

5

6

7

8

9

10
TRUE

TRUE

3, FALSO

4, FALSO

5, FALSO

6, FALSO

7, FALSO

8, FALSO

9, FALSO

TRUE
4, VERDADEIRO

4, VERDADEIRO

4, VERDADEIRO

4, VERDADEIRO

5, FALSO

6, FALSO

7, VERDADEIRO

7, VERDADEIRO

7, VERDADEIRO

7, VERDADEIRO

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.