Componente de Partição e Amostra

Artigo
06/01/2023

Este artigo descreve o componente no designer do Azure Machine Learning.

Você pode usar o componente Partição e Amostra para executar amostragem em um conjunto de dados ou para criar partições do seu conjunto de dados.

A amostragem é uma ferramenta importante na aprendizagem por máquina porque permite reduzir o tamanho de um conjunto de dados, mantendo a mesma proporção de valores. Este componente suporta a várias tarefas relacionadas que são importantes no aprendizado de máquina:

Divisão de dados em várias subseções do mesmo tamanho.

As partições podem ser usadas para validação cruzada ou para atribuir casos a grupos aleatórios.
Separação de dados em grupos e trabalhar com os dados de um grupo específico.

Depois de atribuir aleatoriamente os casos a grupos diferentes, talvez seja necessário modificar os recursos associados a apenas um grupo.
Amostragem.

Você pode extrair uma porcentagem dos dados, aplicar a amostragem aleatória ou escolher uma coluna para usar para equilibrar o conjunto de dados e executar a amostragem estratificada nos valores.
Criação de um conjunto de dados menor para teste.

Se você tiver muitos dados, pode usar apenas as primeiras n linhas quando estiver configurando o pipeline, e depois alternar para usar o conjunto de dados completo ao criar seu modelo. Também pode usar a amostragem para criar um conjunto de dados menor para usar no desenvolvimento.

Configurar o componente

Este componente suporta os seguintes métodos para dividir os dados em partições ou para amostragem. Escolha o método primeiro e defina as opções adicionais que o método requer.

Head
amostragem
Atribuir a dobras
Selecionar dobra

Obter as N primeiras linhas de um conjunto de dados

Use este modo para obter apenas as primeiras n linhas. Essa opção é útil para testar um pipeline em um pequeno número de linhas e não precisar que os dados sejam conciliados ou amostrados.

Adicione o componente Partição e Amostra ao pipeline na interface e conecte o conjunto de dados.
Modo de partição ou de amostra: defina essa opção como Head.
Número de linhas a serem selecionadas: insira o número de linhas a serem retornadas.

O número de linhas deve ser um inteiro não negativo. Se o número de linhas selecionadas for maior do que o número de linhas no conjunto de dados, o conjunto inteiro será retornado.
Envie o pipeline.

O componente gera um único conjunto de dados que contém apenas o número especificado de linhas. As linhas são sempre lidas de cima para baixo no conjunto de dados.

Criar uma mostra de dados

Essa opção é compatível com a amostragem aleatória simples ou a amostragem aleatória estratificada. Ela é útil para criar um conjunto de dados de amostra representativa menor para teste.

Adicione o componente Partição e Amostra ao pipeline e conecte o conjunto de dados.
Modo de partição ou de amostra: defina essa opção como Amostragem.
Taxa de amostragem: insira um valor entre 0 e 1. A taxa de amostragem determina a porcentagem de linhas do conjunto de dados de origem que devem ser incluídas no conjunto de dados de saída.

Por exemplo, se você quiser apenas a metade do conjunto de dados original, insira 0.5 para indicar que a taxa de amostragem deve ser de 50%.

As linhas do conjunto de dados de entrada são embaralhadas e colocadas seletivamente no conjunto de dados de saída, de acordo com a taxa especificada.
Seleção aleatória para amostragem: opcionalmente insira um número inteiro para usar como um valor de seleção.

Essa opção é importante se você quiser que as linhas sejam sempre divididas da mesma maneira. O valor padrão é 0, ou seja, uma seleção inicial é gerada com base no relógio do sistema. Esse valor pode levar a resultados ligeiramente diferentes cada vez que você executar o pipeline.
Divisão estratificada para amostragem: selecione esta opção se for importante que as linhas no conjunto de dados sejam divididas uniformemente por alguma coluna de chave antes da amostragem.

Para a Coluna de chave estratificação para amostragem, selecione uma única coluna de estrato para usar ao dividir o conjunto de dados. As linhas no conjunto de dados serão divididas da seguinte maneira:
1. Todas as linhas de entrada são agrupadas (estratificadas) pelos valores na coluna de estrato.
2. As linhas são colocadas em ordem aleatória dentro de cada grupo.
3. Cada grupo é seletivamente adicionado ao conjunto de dados de saída para atender à taxa especificada.
Envie o pipeline.

Com essa opção, o componente gera um único conjunto de dados que contém uma amostragem representativa dos dados. A parte restante, não amostrada do conjunto de dados não faz parte da saída.

Dividir os dados em partições

Use esta opção para dividir o conjunto de dados em subconjuntos de dados. Essa opção também é útil para criar um número personalizado de dobras para validação cruzada ou para dividir linhas em vários grupos.

Adicione o componente Partição e Amostra ao pipeline e conecte o conjunto de dados.
Para o Modo de partição ou de amostra, selecione Atribuir a Dobras.
Usar a substituição no particionamento: selecione esta opção se desejar que a linha de amostra seja colocada de volta no pool de linhas para possível reutilização. Como resultado, a mesma linha pode ser atribuída a várias dobras.

Se você não usar a substituição (a opção padrão), a linha de amostra não será colocada de volta no pool de linhas para possível reutilização. Como resultado, cada linha pode ser atribuída a apenas uma dobra.
Divisão aleatória: selecione esta opção se desejar que as linhas sejam atribuídas aleatoriamente a dobras.

Se você não selecionar esta opção, as linhas serão atribuídas às dobras por meio do método de distribuição equilibrada.
Seleção aleatória: opcionalmente, insira um número inteiro para usar como o valor de seleção. Essa opção é importante se você quiser que as linhas sejam sempre divididas da mesma maneira. Caso contrário, o valor padrão de 0 significa que uma seleção inicial aleatória será usada.
Especificar o método de partição: indique como você deseja que os dados sejam distribuídos para cada partição, usando estas opções:
- Particionar uniformemente: use esta opção para colocar um número igual de linhas em cada partição. Para especificar o número de partições de saída, insira um número inteiro na caixa Especificar o número de dobras a serem divididas uniformemente.
- Partição com proporções personalizadas: use esta opção para especificar o tamanho de cada partição como uma lista separada por vírgulas.
  
  Por exemplo, suponha que você deseja criar três partições. A primeira partição conterá 50% dos dados. As duas partições restantes conterão, cada uma, 25% dos dados. Na caixa Lista de proporções separadas por vírgula, insira estes números: ,5, ,25, ,25.
  
  A soma de todos os tamanhos das partições deve totalizar exatamente 1.
  
  Se você inserir números que totalizam menos de 1, uma partição extra será criada para conter as linhas restantes. Por exemplo, se você inserir os valores ,2 e ,3, uma terceira partição será criada para conter os 50% restantes de todas as linhas.
  
  Se você inserir números que totalizam mais de 1, ocorrerá um erro quando executar o pipeline.
Divisão estratificada: selecione esta opção se desejar que as linhas sejam estratificada ao serem divididas. Depois escolha a coluna de estrato.
Envie o pipeline.

Com essa opção, o componente gera vários conjuntos de dados. Os conjuntos de dados são particionados de acordo com as regras que você especificou.

Usar dados de uma partição predefinida

Use esta opção quando tiver dividido um conjunto de dados em várias partições e quiser carregar cada partição por vez para análise ou processamento posterior.

Adicione o componente Partição e Amostra ao pipeline.
Conecte o componente à saída de uma instância anterior de Partição e Amostra. Essa instância deve ter usado a opção Atribuir a dobras para gerar algumas partições.
Modo de partição ou de amostra: selecione Escolher Dobra.
Especifique a dobra a ser amostrada: selecione uma partição a ser usada por meio da inserção de seu índice. Os índices de partição são baseados em 1. Por exemplo, se você dividir o conjunto de dados em três partes, as partições terão os índices 1, 2 e 3.

Se você inserir um valor de índice inválido, ocorrerá o erro de tempo de design: "Erro 0018: O conjunto de dados contém dados inválidos".

Além de agrupar o conjunto de dados em dobras, você pode separar o conjunto de dados em dois grupos: uma dobra de destino e todo o restante. Para fazer isso, insira o índice de uma única dobra e selecione a opção Escolher complemento da dobra selecionada para obter tudo, exceto os dados na dobra especificada.
Se estiver trabalhando com várias partições, você deve adicionar mais instâncias do componente Partição e Amostra para tratar cada partição.

Por exemplo, o componente Partição e Amostra na segunda linha é definido para Atribuir a Dobras, e o componente na terceira linha é definido para Escolher Dobra.
Envie o pipeline.

Com essa opção, o componente gera um único conjunto de dados que contém apenas as linhas atribuídas a essa dobra.

Observação

Você não pode exibir as designações de dobra diretamente. Elas estão presentes apenas nos metadados.

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.