Dividir Dados

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Divide as linhas de um conjunto de dados em dois conjuntos distintos

Categoria: Transformação de Dados/Exemplo e Divisão

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este tópico descreve como usar o módulo Dividir Dados no Machine Learning Studio (clássico) para dividir um conjunto de dados em dois conjuntos distintos.

Este módulo é particularmente útil quando você precisa separar dados em conjuntos de treinamento e teste. Você também pode personalizar a maneira como os dados são divididos. Algumas opções suportam a aleatoatolização de dados; outros são personalizados para um determinado tipo de dados ou tipo de modelo.

Como configurar Dividir Dados

Dica

Antes de escolher o modo de divisão, leia todas as opções para determinar o tipo de divisão de que você precisa. Se você alterar o modo de divisão, todas as outras opções poderão ser redefinidas.

  1. Adicione o módulo Dividir Dados ao seu experimento no studio. Você pode encontrar esse módulo em Transformação de Dados, na categoria Exemplo e Divisão.

  2. Modo de divisão: escolha um dos seguintes modos, dependendo do tipo de dados que você tem e de como você deseja dividi-los. Cada modo de divisão tem opções diferentes. Clique nos tópicos a seguir para obter instruções detalhadas e exemplos.

    • Dividir linhas: use essa opção se desejar apenas dividir os dados em duas partes. Você pode especificar o percentual de dados a ser colocado em cada divisão, mas, por padrão, os dados são divididos de 50 a 50.

      Você também pode tornar aleatória a seleção de linhas em cada grupo e usar a amostragem estratificada. Na amostragem estratificada, você deve selecionar uma única coluna de dados para a qual você deseja que os valores sejam distribuídos igualmente entre os dois conjuntos de dados de resultado.

    • Divisão de Recomendação: sempre escolha essa opção se você estiver preparando dados para uso em um sistema de recomendação. Ele ajuda a dividir conjuntos de dados em grupos de treinamento e teste, garantindo que valores importantes, como pares de itens de usuário ou classificações, sejam divididos igualmente entre os grupos.

    • Dividir Expressão Regular: escolha essa opção quando desejar dividir o conjunto de dados ao testar uma única coluna para um valor.

      Por exemplo, se você estiver analisando o sentimento, poderá verificar a presença de um nome de produto específico em um campo de texto e, em seguida, dividir o conjuntos de dados em linhas com o nome do produto de destino e aqueles sem.

    • Dividir Expressão de Linguagem: use essa opção sempre que desejar aplicar uma condição a uma coluna de número. O número pode ser um campo de data/hora, uma coluna que contém valores de idade ou em dólares ou até mesmo um percentual. Por exemplo, você pode querer dividir o conjunto de dados dependendo do custo dos itens, agrupar pessoas por intervalos de idade ou separar dados por uma data do calendário.

Requisitos

  • Dividir Dados pode criar um máximo de dois conjuntos de dados por vez, e esses conjuntos devem ser exclusivos.

    Portanto, se você tiver uma divisão complexa com várias condições e saídas, talvez seja necessário encadear vários módulos dividir dados.

    Como alternativa, você pode usar uma instrução CASE e o módulo Aplicar SQL Transformation.

  • Este módulo não exclui dados nem os remove do conjuntos de dados; ele apenas divide os dados conforme especificado entre a primeira e a segunda saídas do módulo.

  • Dividir dados para um sistema de recomendação envolve alguns requisitos adicionais. Em geral, o conjunto de dados só pode consistir em pares de item de usuário ou triplos de classificação de item de usuário. Portanto, o módulo Dividir Dados não pode funcionar em conjuntos de dados que têm mais de três colunas, para evitar confusão com dados do tipo de recurso. Se o seu conjuntos de dados contiver muitas colunas, você poderá receber este erro:

    Erro 0022: O número de colunas selecionadas no conjuntos de dados de entrada não é igual a x

    Como alternativa, você pode usar Selecionar Colunas no Conjuntos de Dados para remover algumas colunas e, em seguida, adicionar as colunas posteriormente usando Adicionar Colunas. Como alternativa, se o seu conjuntos de dados tiver muitos recursos que você deseja usar no modelo, divida o conjuntos de dados usando uma opção diferente e treine o modelo usando Treinar Modelo em vez de Treinar Recomendação de Caixa de Seleção.

Exemplos

Para exemplos de como o módulo Dividir Dados é usado, consulte o Galeria de IA do Azure:

  • Validação cruzada para classificação binária: conjunto de dados adulto: uma taxa de amostragem de 20% é aplicada para criar um conjunto de dados de amostra aleatória menor. (O conjunto de dados de censo original tinha mais de 30.000 linhas; o conjunto de dados de treinamento tem aproximadamente 6.500). O conjunto de dados é limpo para valores ausentes e, em seguida, passado para cinco modelos diferentes para treinamento e validação cruzada.

Observações técnicas

Os seguintes requisitos se aplicam a todos os usos de Dividir Dados:

  • O conjuntos de dados de entrada deve conter pelo menos duas linhas ou um erro é gerado.
  • Se você usar a opção para especificar o número de linhas desejado, o número especificado deve ser um inteiro positivo, e o número deve ser menor do que o número total de linhas no conjunto de dados.
  • Se você especifica um número como uma porcentagem, ou se usar uma cadeia de caracteres que contém o caractere "%", o valor é interpretado como uma porcentagem. Todos os valores de porcentagem devem estar dentro do intervalo (0, 100), sem incluir os valores 0 e 100.
  • Se você especificar um número ou porcentagem que é um número de ponto flutuante menor do que um, e não usar o símbolo de porcento (%), o número é interpretado como um valor proporcional.
  • Se você usar a opção para uma divisão stratified, os conjuntos de dados de saída poderão ser divididos por subgrupos selecionando uma coluna de camadas.

Entradas esperadas

Nome Tipo Descrição
Dataset Tabela de Dados Conjunto de dados a ser dividido

Parâmetros do módulo

Nome Tipo Intervalo Opcional Descrição Padrão
Modo de divisão Modo de divisão Dividir linhas, divisão de recomendação, expressão regular ou expressão relativa Necessária Linhas de divisão Escolha o método para dividir o conjunto de dados

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados1 Tabela de Dados Conjunto de dados que contém as linhas selecionadas
Conjunto de dados de resultados2 Tabela de Dados Conjunto de dados que contém todas as outras linhas

Confira também

Exemplo e divisão
Particionar e Gerar Amostra
Lista de Módulo A-Z