Dividir Dados

Divide as linhas de um conjunto de dados em dois conjuntos distintos

Categoria: transformação de dados/amostra e divisão

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este tópico descreve como usar o módulo dividir dados no Azure Machine Learning Studio (clássico), para dividir um conjunto em dois conjuntos distintos.

Esse módulo é particularmente útil quando você precisa separar dados em conjuntos de treinamento e teste. Você pode personalizar a maneira como os dados são divididos também. Algumas opções dão suporte à randomização de dados; outras são adaptadas para um determinado tipo de dados ou tipo de modelo.

Como configurar dados divididos

Dica

Antes de escolher o modo de divisão, Leia todas as opções para determinar o tipo de divisão de que você precisa. Se você alterar o modo de divisão, todas as outras opções poderão ser redefinidas.

  1. Adicione o módulo dividir dados ao seu experimento no estúdio. Você pode encontrar esse módulo em transformação de dados, na categoria exemplo e dividir .

  2. Modo de divisão: escolha um dos seguintes modos, dependendo do tipo de dados que você tem e como deseja dividi-lo. Cada modo de divisão tem opções diferentes. Clique nos tópicos a seguir para obter instruções e exemplos detalhados.

    • Dividir linhas: Use essa opção se desejar apenas dividir os dados em duas partes. Você pode especificar a porcentagem de dados a serem colocados em cada divisão, mas por padrão, os dados são divididos 50-50.

      Você também pode tornar aleatória a seleção de linhas em cada grupo e usar a amostragem de sobreratificação. Em amostragem de sobreratificação, você deve selecionar uma única coluna de dados para a qual você deseja que os valores sejam distribuídos igualmente entre os dois conjuntos de dado de resultado.

    • Divisão de recomendação: sempre escolha esta opção se estiver preparando dados para uso em um sistema de recomendação. Ele ajuda a dividir conjuntos de dados em grupos de treinamento e teste, garantindo que valores importantes, como pares de item de usuário ou classificações, sejam divididos uniformemente entre os grupos.

    • Divisão de expressão regular: escolha esta opção quando desejar dividir o conjunto de um testando uma única coluna para um valor.

      Por exemplo, se você estiver analisando sentimentos, poderá verificar a presença de um nome de produto específico em um campo de texto e, em seguida, dividir o conjunto de dado em linhas com o nome do produto de destino e aqueles sem.

    • Divisão de expressão relativa: Use essa opção sempre que desejar aplicar uma condição a uma coluna de número. O número pode ser um campo de data/hora, uma coluna que contém valores de idade ou moeda, ou até mesmo uma porcentagem. Por exemplo, talvez você queira dividir seu conjunto de dados dependendo do custo dos itens, agrupar pessoas por intervalos de idade ou separar dados por uma data de calendário.

Requisitos

  • Os dados divididos podem criar, no máximo, dois conjuntos de DataSets por vez, e esses conjuntos devem ser exclusivos.

    Portanto, se você tiver uma divisão complexa com várias condições e saídas, talvez seja necessário encadear vários módulos de dados divididos .

    Como alternativa, você pode usar uma instrução CASE e o módulo aplicar transformação SQL .

  • Este módulo não exclui dados nem remove-os do conjunto. Ele apenas divide os dados conforme especificado entre a primeira e a segunda saídas do módulo.

  • A divisão de dados para um sistema de recomendação envolve alguns requisitos adicionais. Em geral, o conjunto de um só pode consistir em pares de item de usuário ou em processamentos de classificação de usuário-item. Portanto, o módulo de divisão de dados não pode funcionar em DataSets com mais de três colunas, para evitar confusão com dados do tipo de recurso. Se o conjunto de seus conjuntos de linhas tiver muitas colunas, você poderá receber esse erro:

    Erro 0022: o número de colunas selecionadas no conjunto de dados de entrada não é igual a x

    Como alternativa, você pode usar selecionar colunas no conjunto de linhas para remover algumas colunas e, em seguida, adicionar as colunas posteriormente usando adicionar colunas. Como alternativa, se o conjunto de seus conjuntos de seus recursos você deseja usar no modelo, divida o conjunto de um usando uma opção diferente e treine o modelo usando treinar modelo em vez de treinar o recomendador Matchbox.

Exemplos

Para obter exemplos de como o módulo dividir dados é usado, consulte o Galeria de ia do Azure:

  • Validação cruzada para classificação binária: conjunto de conteúdo adulto: uma taxa de amostragem de 20% é aplicada para criar um conjunto de um DataSet menor de amostra aleatória. (O conjunto de dados de censo original tinha mais de 30.000 linhas; o conjunto de dados de treinamento tem aproximadamente 6.500). O conjunto de dados é limpo para valores ausentes e, em seguida, passado para cinco modelos diferentes para treinamento e validação cruzada.

Observações técnicas

Os seguintes requisitos se aplicam a todos os usos de dados divididos:

  • O conjunto de dados de entrada deve conter pelo menos duas linhas ou um erro é gerado.
  • Se você usar a opção para especificar o número de linhas desejado, o número especificado deve ser um inteiro positivo, e o número deve ser menor do que o número total de linhas no conjunto de dados.
  • Se você especifica um número como uma porcentagem, ou se usar uma cadeia de caracteres que contém o caractere "%", o valor é interpretado como uma porcentagem. Todos os valores de porcentagem devem estar dentro do intervalo (0, 100), sem incluir os valores 0 e 100.
  • Se você especificar um número ou porcentagem que é um número de ponto flutuante menor do que um, e não usar o símbolo de porcento (%), o número é interpretado como um valor proporcional.
  • Se você usar a opção para uma divisão de desratificação, os conjuntos de resultados de saída poderão ser divididos por subgrupos, selecionando uma coluna Strata.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados a ser dividido

Parâmetros do módulo

Nome Tipo Intervalo Opcional Descrição Padrão
Modo de divisão Modo de divisão Dividir linhas, dividir Recomendador, expressão regular ou expressão relativa Necessária Linhas de divisão Escolha o método para dividir o conjunto de dados

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados1 Tabela de Dados Conjunto de dados que contém as linhas selecionadas
Conjunto de dados de resultados2 Tabela de Dados Conjunto de dados que contém todas as outras linhas

Consulte também

Exemplo e divisão
Partição e exemplo
Lista de Módulo A-Z