Transformação de Dados - Amostra e Divisão

Este artigo descreve os módulos no Azure Machine Learning Studio (clássico) que pode utilizar para partição ou dados de amostragem.

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

A divisão e a recolha de amostras de conjuntos de dados são tarefas importantes na aprendizagem automática. Por exemplo, é uma prática comum dividir dados em conjuntos de treino e teste para ajudá-lo a avaliar um modelo num conjunto de dados de contenção. A amostragem também é cada vez mais importante na era dos big data, para garantir que haja uma distribuição justa das aulas nos seus dados de formação. A amostragem também ajuda a garantir que não está a processar mais dados do que o necessário.

Pode utilizar módulos machine learning studio (clássicos) para personalizar a forma como divide ou amostra conjuntos de dados:

  • Filtrar dados de treino com base num atributo nos dados.
  • Execute a amostragem estratificada para dividir a variável de classe igualmente entre n número de grupos.
  • Divida os dados de origem num conjunto de dados de treino e teste utilizando uma relação personalizada.
  • Aplicar expressões regulares aos dados para filtrar valores inválidos.

Escolher a operação certa: Dividir ou amostrar

O Machine Learning Studio (clássico) fornece dois módulos que encapsulam tarefas. Os módulos soam semelhantes, mas têm diferentes utilizações, e fornecem funcionalidades complementares. É provável que use ambos os módulos numa experiência, para obter a quantidade certa e a mistura certa de dados.

Em seguida, comparamos o módulo de Dados Divididos e o módulo partição e amostra, vendo para que tarefas cada módulo é normalmente utilizado.

Utilizações do módulo de dados divididos

  • Divida os dados em dois grupos. Utilize o módulo de dados divididos. O módulo produz exatamente duas divisões dos dados. Pode especificar a condição em que os dados são divididos e a proporção dos dados a colocar em cada subconjunto. O Dado Dividido guarda sempre o subconjunto de dados que não satisfaz as condições.
  • Alocar os valores dos rótulos igualmente aos conjuntos de dados. A opção de estratificar numa coluna especificada é suportada por ambos os módulos. No entanto, se pretender criar dois conjuntos de dados e estiver maioritariamente interessado na coluna de etiquetas, o módulo Dados Divididos é uma solução rápida.

Exemplo de utilização do módulo de dados divididos

Suponha que importou um conjunto de dados muito grande de um ficheiro CSV. O conjunto de dados contém demografia do cliente. Pretende criar diferentes modelos para clientes em diferentes países, por isso decide dividir os dados utilizando o valor da Country-Region coluna. Aqui estão os passos que toma para completar esta tarefa:

  1. Adicione o módulo de Dados Divididos e, em seguida, especifique uma expressão no Country-Region campo. Os restantes dados estão disponíveis na produção secundária.
  2. Adicione outra instância do módulo de Dados Divididos.
  3. Repita os passos 1 e 2. Especifique um país diferente na expressão para cada iteração.

O módulo Dados Divididos suporta expressões regulares, para dados de texto e expressões relativas, para dados numéricos.

O módulo Dados Divididos também fornece uma funcionalidade sofisticada que pode usar para dividir conjuntos de dados especializados. Utilize a funcionalidade para criar modelos de recomendação e para gerar previsões.

Utilizações do módulo de partição e amostra

  • Amostragem. Utilize sempre o módulo de partição e amostra. O módulo fornece múltiplos métodos de amostragem personalizáveis, incluindo várias opções para amostragem estratificada.
  • Atribuir casos a vários grupos. Utilize as opções De dobrar ou escolher dobrar no módulo Partição e Amostra.
  • Devolva apenas um subconjunto dos dados. Utilize o módulo de partição e amostra. O módulo dá-lhe o subconjunto especificado na saída primária. Os restantes dados estão disponíveis numa produção secundária.
  • Obtenha apenas as 2.000 linhas de um conjunto de dados. Utilize o módulo de partição e amostra. Selecione a opção Cabeça. Isto é particularmente útil quando você está testando uma nova experiência e quer executar testes curtos de um fluxo de trabalho.

Exemplo da utilização do módulo de partição e amostra

O módulo de partição e amostra pode gerar múltiplas divisórias dos dados, e não apenas duas. Ao mesmo tempo, pode realizar várias operações de amostragem.

Por exemplo, suponha que precisa de obter apenas 10% dos seus dados, garantindo ao mesmo tempo que a distribuição do atributo alvo é a mesma que nos dados de origem. Aqui estão os passos que toma para completar esta tarefa:

  1. Adicione o módulo de partição e amostra.
  2. Escolha o modo de amostragem e, em seguida, especifique 10%.
  3. Selecione a opção de amostragem estratificada e, em seguida, escolha a coluna que contém o atributo alvo.

Se não precisar de guardar todos os dados, utilize o módulo de partição e amostra. Os restantes dados ainda estão presentes no espaço de trabalho, mas não precisam de ser processados mais como parte da experiência.

Lista de módulos

Esta categoria inclui os seguintes módulos:

  • Partição e Amostra: Cria múltiplas divisórias de um conjunto de dados com base na amostragem.
  • Dados divididos: Partições as linhas de um conjunto de dados em dois conjuntos distintos.

Ver também