Partição e Amostra

Cria múltiplas divisórias de um conjunto de dados com base na amostragem

Categoria: Transformação de Dados / Amostra e Divisão

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como utilizar o módulo partição e amostra no Azure Machine Learning Studio (clássico), para realizar amostragem num conjunto de dados ou para criar divisórias a partir do seu conjunto de dados.

A amostragem é uma ferramenta importante na aprendizagem automática porque permite reduzir o tamanho de um conjunto de dados mantendo a mesma relação de valores. Este módulo suporta várias tarefas relacionadas que são importantes na aprendizagem automática:

  • Dividindo os seus dados em várias subsecções do mesmo tamanho.

    Pode usar as divisórias para validação cruzada ou para atribuir casos a grupos aleatórios.

  • Separar dados em grupos e, em seguida, trabalhar com dados de um grupo específico.

    Depois de atribuir casos aleatoriamente a diferentes grupos, poderá ser necessário modificar as funcionalidades que estão associadas a apenas um grupo.

  • A provar.

    Pode extrair uma percentagem dos dados, aplicar amostragem aleatória ou escolher uma coluna para equilibrar o conjunto de dados e efetuar amostragem estratificada sobre os seus valores.

  • Criar um conjunto de dados menor para testes.

    Se tiver muitos dados, talvez queira utilizar apenas as primeiras linhas n durante a configuração da experiência e, em seguida, mudar para usar o conjunto de dados completo quando construir o seu modelo. Também pode utilizar a amostragem para criar um conjunto de dados menor para utilização no desenvolvimento.

Como configurar partição e amostra

Este módulo suporta vários métodos para dividir os seus dados em divisórias ou para amostragem. Escolha primeiro o método e, em seguida, desa estale as opções adicionais exigidas pelo método.

  • Obtenha o maior número de linhas

Obtenha linhas TOP N a partir de um conjunto de dados

Utilize este modo para obter apenas as primeiras linhas n. Esta opção é útil se quiser testar uma experiência em um pequeno número de linhas, e não precisa que os dados sejam equilibrados ou amostrados de forma alguma.

  1. Adicione o módulo de partição e amostra à sua experiência no Studio (clássico) e ligue o conjunto de dados.

  2. Modo de partição ou amostra: Desaje esta opção à cabeça.

  3. Número de linhas a selecionar: Digite o número de linhas a devolver.

    O número de linhas especificada deve ser um número inteiro não negativo. Se o número de linhas selecionadas for maior do que o número de linhas no conjunto de dados, todo o conjunto de dados é devolvido.

  4. Execute a experimentação.

O módulo produz um único conjunto de dados contendo apenas o número especificado de linhas. As linhas são sempre lidas a partir do topo do conjunto de dados.

Criar uma amostra de dados

Esta opção suporta uma amostragem aleatória simples ou uma amostragem aleatória estratificada. Isto é útil se pretender criar um conjunto de dados de amostra representativa mais pequeno para testes.

  1. Adicione o módulo de partição e amostra à sua experiência no Studio (clássico) e ligue o conjunto de dados.

  2. Modo de partição ou amostra: Coloque isto na amostragem.

  3. Taxa de amostragem: Digite um valor entre 0 e 1. este valor especifica a percentagem de linhas do conjunto de dados de origem que devem ser incluídas no conjunto de dados de saída.

    Por exemplo, se quiser apenas metade do conjunto de dados original, 0.5 escreva para indicar que a taxa de amostragem deve ser de 50%.

    As linhas do conjunto de dados de entrada são baralhadas e colocadas seletivamente no conjunto de dados de saída, de acordo com a relação especificada.

  4. Semente aleatória para amostragem: Opcionalmente, escreva um inteiro para usar como valor de sementes.

    Esta opção é importante se quiser que as linhas sejam sempre divididas da mesma forma. O valor predefinido é 0, o que significa que uma semente inicial é gerada com base no relógio do sistema. Isto pode levar a resultados ligeiramente diferentes cada vez que executar a experiência.

  5. Divisão estratificada para amostragem: Selecione esta opção se for importante que as linhas do conjunto de dados sejam divididas uniformemente por alguma coluna-chave antes da amostragem.

    Para a coluna-chave de estratificação para amostragem, selecione uma coluna de estratos única para utilizar ao dividir o conjunto de dados. As linhas do conjunto de dados são então divididas da seguinte forma:

    1. Todas as linhas de entrada são agrupadas (estratificadas) pelos valores na coluna de estratos especificados.

    2. As filas são baralhadas dentro de cada grupo.

    3. Cada grupo é adicionado seletivamente ao conjunto de dados de saída para cumprir a relação especificada.

    Para obter mais informações sobre a amostragem estratificada, consulte a secção de notas técnicas.

  6. Execute a experimentação.

    Com esta opção, o módulo produz um único conjunto de dados que contém uma amostragem representativa dos dados.

    A parte restante não danificada do conjunto de dados não é de saída. No entanto, pode criar uma junção nos conjuntos de dados, utilizando o módulo de Transformação De APPLY SQL, para determinar quais linhas não foram utilizados.

Dividir dados em divisórias

Utilize esta opção quando pretender dividir o conjunto de dados em subconjuntos dos dados. Esta opção também é útil quando pretende criar um número personalizado de dobras para validação cruzada, ou dividir linhas em vários grupos.

  1. Adicione o módulo de partição e amostra à sua experiência no Studio (clássico) e ligue o conjunto de dados.

  2. Para o modo de partição ou amostra, selecione Atribua-se a Dobras.

  3. Utilize a substituição na partição: Selecione esta opção se desejar que a linha amostrada seja colocada novamente no conjunto de linhas para uma reutilização potencial. Como resultado, a mesma linha pode ser atribuída a várias dobras.

    Se não utilizar a substituição (a opção predefinida), a linha amostrada não é colocada novamente no conjunto de linhas para uma reutilização potencial. Como resultado, cada linha pode ser atribuída a apenas uma dobra.

  4. Divisão aleatória: Selecione esta opção se pretender que as linhas sejam atribuídas aleatoriamente a dobras.

    Se não selecionar esta opção, as linhas são atribuídas a dobras utilizando o método de rodada.robin.

  5. Semente aleatória: Opcionalmente, escreva um inteiro para usar como valor de sementes. Esta opção é importante se quiser que as linhas sejam sempre divididas da mesma forma. Caso contrário, o valor predefinido de 0 significa que uma semente inicial aleatória será utilizada.

  6. Especificar o método partitioner: Indicar como pretende que os dados sejam repartidos a cada partição, utilizando estas opções:

    • Partição uniforme: Utilize esta opção para colocar um número igual de linhas em cada divisória. Para especificar o número de divisórias de saída, digite um número inteiro no número de dobras para dividir uniformemente em caixa de texto.

    • Partição com proporções personalizadas: Utilize esta opção para especificar o tamanho de cada partição como uma lista separada por vírgula.

      Por exemplo, se pretender criar três divisórias, com a primeira partição contendo 50% dos dados, e as duas divisórias restantes cada uma contendo 25% dos dados, clique na Lista de proporções separadas por caixa de texto de vírgula e digite estes números: .5, .25, .25

      A soma de todos os tamanhos de partição deve somar exatamente 1.

      • Se introduzir números que somam menos de 1, é criada uma partição extra para manter as restantes linhas. Por exemplo, se escrever os valores .2 e .3, é criada uma terceira partição que detém os restantes 50% de todas as linhas.

      • Se introduzir números que somam mais de 1, um erro é levantado quando executa a experiência.

  7. Divisão estratificada: Selecione esta opção se quiser que as linhas sejam estratificadas quando divididas e, em seguida, escolha a coluna de estratos.

    Para obter mais informações sobre a amostragem estratificada, consulte a secção de notas técnicas.

  8. Execute a experimentação.

    Com esta opção, o módulo produz vários conjuntos de dados, divididos utilizando as regras especificadas.

Utilize dados de uma partição predefinida

Esta opção é utilizada quando dividiu um conjunto de dados em múltiplas divisórias e agora pretende carregar cada partição por sua vez para uma análise ou processamento posterior.

  1. Adicione o módulo de partição e amostra à experiência em Studio (clássico).

  2. Conecte-o à saída de uma instância anterior de Partição e Amostra. Este caso deve ter usado a opção Atribuir a Dobras para gerar um número de divisórias.

  3. Modo de partição ou amostra: Selecione Pick Fold.

  4. Especificar qual a dobra a recolher a partir de: Selecione uma partição para usar digitando o seu índice. Os índices de partição são baseados em 1. Por exemplo, se dividisse o conjunto de dados em três partes, as divisórias teriam os índices 1, 2 e 3.

    Se escrever um valor de índice inválido, é levantado um erro de tempo de conceção: "Error 0018: Dataset contém dados inválidos."

    Além de agrupar o conjunto de dados por dobras, pode separar o conjunto de dados em dois grupos: uma dobra de destino e tudo o resto. Para isso, digite o índice de uma única dobra e, em seguida, selecione a opção, Escolha o complemento da dobra selecionada, para obter tudo menos os dados na dobra especificada.

  5. Se estiver a trabalhar com várias divisórias, deve adicionar instâncias adicionais do módulo partição e amostra para manusear cada partição.

    Por exemplo, digamos, pacientes previamente divididos em cinco dobras usando a idade. Para trabalhar com cada dobra individual, precisa de cinco cópias do módulo de partição e amostra, e em cada uma, seleciona uma dobra diferente.

    Dica

    A experiência da amostra, Split Partition and Sample,demonstra esta técnica.

  6. Execute a experimentação.

    Com esta opção, o módulo produz um único conjunto de dados contendo apenas as linhas atribuídas a essa dobra.

Nota

Não é possível ver diretamente as designações dobráveis; só estão presentes nos metadados.

Exemplos

Por exemplo, de como este módulo é utilizado, consulte a Galeria Azure AI:

  • Validação cruzada para classificação binária: É aplicada uma taxa de amostragem de 20% para criar um conjunto de dados amostrado aleatoriamente mais pequeno. O conjunto de dados do recenseamento original tinha mais de 30.000 linhas; o conjunto de dados amostrado tem cerca de 6500.

  • Validação cruzada para regressão: Os dados são atribuídos aleatoriamente e uniformemente a cinco dobras, sem estratificação, e os resultados são utilizados para validação cruzada.

  • Partição dividida e amostra: Demonstra múltiplas formas de utilizar a partição e a amostragem. Em primeiro lugar, a opção Atribuir a Dobras é utilizada para atribuir linhas no conjunto de dados a um dos três grupos de tamanho uniforme. Em seguida, mais três instâncias de Partição e Amostra são adicionadas usando o modo Pick Fold para aplicar operações em subconjuntos dos dados

    • Na primeira dobra (índice de 1), as linhas são divididas aleatoriamente.
    • Na segunda dobra (índice de 2), as filas são divididas pela educação.
    • Na terceira dobra (índice de 3), as linhas são divididas por idade.

Notas técnicas

  • A coluna de estratificação deve ser categórica com valores discretos. Se a coluna já não for categórica e tiver um erro, utilize metadados para alterar as propriedades da coluna.

  • A coluna de estratos que especifica não pode conter dados contínuos: ou seja, dados numéricos com valores de ponto flutuante em cada célula. Caso contrário, o módulo não pode processar os dados e retornar um erro.

    A razão é que qualquer coluna utilizada para estratificação deve ter um conjunto finito de valores possíveis. Se a coluna de estratos especificados contiver quaisquer valores de ponto flutuante, e a coluna não for do tipo categórico, pode conter um número infinito de valores.

  • Se a coluna de estratos contiver valores Boolean e quiser que sejam interpretados como categóricos, deve utilizar o módulo editar metadados para alterar a etiqueta dos metadados.

  • Se a sua coluna de estratos contém dados de cordas ou numéricos com demasiados valores únicos, a coluna não é um bom candidato para uma amostragem estratificada.

Mais sobre amostragem estratificada

A amostragem estratificada garante que os subconjuntos dos dados possuem uma amostragem representativa da coluna de estratos selecionados. Esta técnica é útil, por exemplo, quando pretende garantir que os seus dados de treino contenham a mesma distribuição dos valores de idade que os dados do teste têm ou vice-versa. Ou talvez queira estratificar uma coluna de género num estudo de saúde para garantir que os machos e as fêmeas são distribuídos uniformemente quando os dados são divididos. A estratificação garante a preservação dos rácios dos valores selecionados.

Especificar valores para separar os dados selecionando uma única coluna para servir como coluna de estratos.

Este módulo requer que a coluna de estratos seja uma coluna categórica. Se quiser utilizar uma coluna de valores inteiros para os estratos, é uma boa prática atribuir um tipo categórico a esta coluna. Pode fazê-lo através do esquema dos dados antes de os adicionar ao Azure Machine Learning Studio (clássico), ou pode atualizar os metadados da coluna utilizando metadados de edição.

Colunas com dados contínuos (isto é, dados numéricos com valores de ponto flutuante em cada célula) não podem ser usadas como colunas de estratos. Se tiver um erro, pode utilizar dados de grupo em caixas para baldear os valores em intervalos discretos e, em seguida, usar Metadados de Edição para garantir que a coluna será tratada como categórica.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados a dividir

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Descrição
Modo de partição ou amostra Lista Métodos de amostragem Amostragem Selecione o modo de partição ou amostragem
Utilize a substituição na partição Qualquer Booleano Falso Indicar se as dobras devem ser desarticuladas (predefinição - sem substituição) ou sobreposição (verdadeira - substituição de utilização)
Divisão aleatória Qualquer Booleano Verdadeiro Indicar se a divisão é aleatória
Sementes aleatórias Qualquer Número inteiro 0 Especificar uma semente para o gerador de números aleatórios
Especificar o método partitioner Lista Métodos de partição Partição uniforme Selecione partição uniformemente para partição em dobras de tamanho igual, ou partição com proporções personalizadas para partição em dobras de tamanho personalizado
Especifique o número de dobras para dividir uniformemente em >=1 Número inteiro 5 Selecione uma série de divisórias para dividir em
Divisão estratificada Lista Tipo verdadeiro/falso Falso Indicar se a divisão está estratificada
Coluna-chave de estratificação Qualquer Seleção de Colunas Contém a chave de estratificação
Lista de proporções separadas por vírgula Qualquer String Proporções de lista, separadas por vírgulas
Divisão estratificada para atribuição de dobra personalizada Qualquer Tipo verdadeiro/falso Falso Indicar se a divisão é estratificada para atribuições de dobras personalizadas
Coluna-chave de estratificação para atribuição de dobra personalizada Qualquer Seleção de Colunas Contém a chave de estratificação para atribuições de dobras personalizadas
Especificar qual dobra a ser amostrada >=1 Número inteiro 1 Contém índice da dobra a amostrar
Escolha o complemento da dobra selecionada Qualquer Booleano Falso Selecione o complemento da dobra especificada
Taxa de amostragem Qualquer Float 0.01 Escolha uma taxa de amostragem
Sementes aleatórias para amostragem Qualquer Número inteiro 0 Especificar uma semente para o gerador de números aleatórios para amostragem
Divisão estratificada para amostragem Qualquer Verdadeiro/Falso Falso Indicar se a divisão é estratificada para amostragem
Coluna-chave de estratificação para amostragem Qualquer Seleção de Colunas Contém chave de estratificação para amostragem
Número de linhas para selecionar >=0 Número inteiro 10 Selecione um número máximo de registos que serão autorizados a passar para o próximo módulo

Saídas

Nome Tipo Descrição
oDataset Tabela de Dados Conjunto de dados resultante da divisão

Ver também

Amostra e Divisão
Dados Divididos
Editar Metadados
Agrupar Dados em Posições