Dividir Dados

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Partições as linhas de um conjunto de dados em dois conjuntos distintos

Categoria: Transformação de Dados / Amostra e Divisão

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este tópico descreve como usar o módulo de Dados Divididos em Machine Learning Studio (clássico), para dividir um conjunto de dados em dois conjuntos distintos.

Este módulo é particularmente útil quando é necessário separar os dados em conjuntos de treino e teste. Também pode personalizar a forma como os dados são divididos. Algumas opções suportam a aleatoriedade de dados; outros são adaptados para um determinado tipo de dados ou tipo de modelo.

Como configurar dados divididos

Dica

Antes de escolher o modo de divisão, leia todas as opções para determinar o tipo de divisão de que necessita. Se alterar o modo de divisão, todas as outras opções poderão ser reiniciadas.

  1. Adicione o módulo De Dados Divididos à sua experiência em estúdio. Pode encontrar este módulo na categoria De Transformação de Dados, na categoria Amostra e Divisão .

  2. Modo de divisão: Escolha um dos seguintes modos, dependendo do tipo de dados que tem e da forma como pretende dividi-lo. Cada modo de divisão tem diferentes opções. Clique nos seguintes tópicos para obter instruções e exemplos detalhados.

    • Linhas Divididas: Utilize esta opção se apenas quiser dividir os dados em duas partes. Pode especificar a percentagem de dados a colocar em cada divisão, mas por padrão, os dados são divididos entre 50 e 50.

      Também pode aleatoriamente a seleção de linhas em cada grupo e utilizar amostragem estratificada. Na amostragem estratificada, deve selecionar uma única coluna de dados para a qual pretende que os valores sejam repartidos igualmente entre os dois conjuntos de dados de resultados.

    • Recomendadora Split: Escolha sempre esta opção se estiver a preparar dados para utilização num sistema de recomendação. Ajuda-o a dividir conjuntos de dados em grupos de treino e teste, garantindo ao mesmo tempo que valores importantes como pares de artigos de utilizador ou classificações são igualmente divididos entre os grupos.

    • Divisão de Expressão Regular: Escolha esta opção quando pretende dividir o conjunto de dados testando uma única coluna por um valor.

      Por exemplo, se estiver a analisar sentimentos, pode verificar a presença de um nome de produto específico num campo de texto e, em seguida, dividir o conjunto de dados em linhas com o nome do produto alvo, e aqueles sem.

    • Divisão de Expressão Relativa: Utilize esta opção sempre que pretender aplicar uma condição a uma coluna numéria. O número pode ser um campo de data/hora, uma coluna contendo valores de idade ou dólar, ou mesmo uma percentagem. Por exemplo, pode querer dividir o seu conjunto de dados dependendo do custo dos itens, grupo de pessoas por faixas etárias ou dados separados por uma data de calendário.

Requisitos

  • Os Dados Divididos podem criar um máximo de dois conjuntos de dados de cada vez, e esses conjuntos devem ser exclusivos.

    Portanto, se tiver uma divisão complexa com múltiplas condições e saídas, poderá ter de acorrentar vários módulos de Dados Divididos .

    Em alternativa, pode utilizar uma declaração CASE e o módulo de Transformação SQL.

  • Este módulo não elimina dados nem os remove do conjunto de dados; apenas divide os dados como especificado entre as primeira e segunda saídas do módulo.

  • A divisão de dados para um sistema de recomendadores implica alguns requisitos adicionais. Em geral, o conjunto de dados só pode ser composto por pares de artigos de utilizador ou triplos de classificação de artigos de utilizador. Portanto, o módulo Dados Divididos não pode funcionar em conjuntos de dados que têm mais de três colunas, para evitar confusão com dados do tipo recurso. Se o seu conjunto de dados contiver demasiadas colunas, poderá obter este erro:

    Erro 0022: Número de colunas selecionadas no conjunto de dados de entrada não é igual a x

    Como solução alternativa, pode utilizar Colunas Selecionadas no Conjunto de Dados para remover algumas colunas e, em seguida, adicionar as colunas mais tarde utilizando Colunas adicionais. Em alternativa, se o seu conjunto de dados tiver muitas funcionalidades que pretende utilizar no modelo, divida o conjunto de dados usando uma opção diferente e treine o modelo usando o Train Model em vez do Train Matchbox Recommender.

Exemplos

Por exemplo, como é utilizado o módulo Dados Divididos , consulte a Galeria Azure AI:

  • Validação cruzada para classificação binária: Conjunto de dados para adultos: É aplicada uma taxa de amostragem de 20% para criar um conjunto de dados amostrado aleatoriamente mais pequeno. (O conjunto de dados do recenseamento original tinha mais de 30.000 linhas; o conjunto de dados de formação tem cerca de 6500). O conjunto de dados é limpo para valores em falta e depois passado para cinco modelos diferentes para treino e validação cruzada.

Notas técnicas

Os seguintes requisitos aplicam-se a todas as utilizações de Dados Divididos:

  • O conjunto de dados de entrada deve conter pelo menos duas linhas, ou um erro é levantado.
  • Se utilizar a opção para especificar o número de linhas pretendido, o número especificado deve ser um número inteiro positivo, e o número deve ser inferior ao número total de linhas no conjunto de dados.
  • Se especificar um número em percentagem, ou se utilizar uma cadeia que contenha o caráter "%", o valor é interpretado em percentagem. Todos os valores percentuais devem estar dentro do intervalo (0,100), sem incluir os valores 0 e 100.
  • Se especificar um número ou percentagem que é um número de ponto flutuante inferior a um, e não utilizar o símbolo por cento (%), o número é interpretado como um valor proporcional.
  • Se utilizar a opção para uma divisão estratificada, os conjuntos de dados de saída podem ser ainda divididos por subgrupos, selecionando uma coluna de estratos.

Entradas esperadas

Nome Tipo Description
Conjunto de dados Tabela de Dados Conjunto de dados para dividir

Parâmetros do módulo

Nome Tipo Intervalo Opcional Descrição Predefinição
Modo de divisão Modo dividido Linhas Divididas, Divisão De Recomendadores, Expressão Regular ou Expressão Relativa Necessário Linhas Divididas Escolha o método para dividir o conjunto de dados

Saídas

Nome Tipo Description
Conjunto de dados de resultados1 Tabela de Dados Conjunto de dados que contém linhas selecionadas
Conjunto de dados de resultados2 Tabela de Dados Conjunto de dados que contém todas as outras linhas

Ver também

Amostra e Divisão
Partição e Amostra
Lista de Módulos A-Z