Dividir dados usando linhas de divisão

Artigo
03/05/2020

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

Confira informações sobre como mover projetos de machine learning do ML Studio (clássico) para o Azure Machine Learning.
Saiba mais sobre o Azure Machine Learning.

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Este artigo descreve como usar a opção Dividir Linhas no módulo Dividir Dados do Machine Learning Studio (clássico). Essa opção é particularmente útil quando você precisa dividir conjuntos de dados usados para treinamento e teste, aleatoriamente ou por alguns critérios.

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

A opção Dividir Linhas dá suporte a divisão aleatória e stratified. Por exemplo, você pode especificar uma divisão de 70 a 30 ou uma divisão de 10 a 90 com a variável de destino igualmente representada em ambos os conjuntos de dados.

Para obter informações gerais sobre o particionamento de dados para experimentos de aprendizado de máquina, consulte Dividir dados e particionar e dividir.

Outras opções no módulo Dividir Dados suportam diferentes maneiras de dividir os dados:

Dividir dados usando expressões regulares: aplique uma expressão regular a uma única coluna de texto e divida o conjuntos de dados com base nos resultados.
Dividir dados usando expressões relativas: aplique uma expressão a uma coluna numérica e divida o conjuntos de dados com base nos resultados
Dividir conjuntos de dados de recomendação: divida conjuntos de dados usados em modelos de recomendação. O conjuntos de dados deve ter três colunas: itens, usuários e classificações.

Dividir um conjuntos de dados em dois grupos

Adicione o módulo Dividir Dados ao seu experimento no Studio (clássico) e conecte o conjuntos de dados que você deseja dividir.
Para Modo de divisão, escolha Dividir linhas.
Fração de linhas no primeiro conjuntos de dados de saída. Use essa opção para determinar quantas linhas vão para a primeira saída (à esquerda). Todas as outras linhas vão para a segunda saída (à direita).

A taxa representa o percentual de linhas enviadas para o primeiro conjuntos de dados de saída, portanto, você deve digitar um número decimal entre 0 e 1.

Por exemplo, se você digitar 0,75 como o valor, o conjunto de dados deve ser dividido usando a razão 75:25, com 75% das linhas enviadas para o primeiro conjunto de saída, e 25% enviadas para o segundo conjunto de saída.
Selecione a opção Divisão aleatória se desejar tornar aleatória a seleção de dados nos dois grupos. Essa é a opção preferencial ao criar conjuntos de dados de treinamento e teste.
Semente Aleatória: digite um valor inteiro não negativo para inicializar a sequência pseudorandom de instâncias a serem usadas. Essa propagação padrão é usada em todos os módulos que geram números aleatórios.

Especificar uma semente torna os resultados geralmente reproduzíveis. Se precisar repetir os resultados de uma operação de divisão você deverá especificar uma semente para o gerador de números aleatórios. Caso contrário, a propagação aleatória é definida por padrão como 0, o que significa que o valor de propagação inicial é obtido a partir do relógio do sistema. Como resultado, a distribuição de dados pode ser ligeiramente diferente cada vez que você executar uma divisão.
Divisão estratificada: defina essa opção como True para garantir que os dois conjuntos de dados de saída contenham uma amostra representativa dos valores na coluna estratificada ou na coluna principal de estratificação.

Com a amostragem estratificada, os dados são divididos para que cada conjunto de dados de saída obtenha quase a mesma porcentagem de cada valor de destino. Por exemplo, talvez você queira garantir que seus conjuntos de treinamento e teste sejam aproximadamente equilibrados em relação ao resultado ou em relação a alguma outra coluna, como gênero.
Execute o experimento ou clique com o botão direito do mouse no módulo e selecione Executar selecionado.

Exemplos

Os exemplos a seguir demonstram como executar divisãos simples usando o modo Dividir Linhas .

Dividir em duas partes iguais

Adicione o módulo Dividir Dados após o conjuntos de dados sem nenhuma outra alteração. Por padrão, o módulo divide o conjunto de dados em duas partes iguais. Para dados com um número ímpar de linhas, a segunda saída obtém o restante.

Dividir em terceiro

Suponha que você queira dividir um conjuntos de dados em duas partes, com um terceiro dos dados usados para treinamento e o restante para teste ou divisão adicional.

Para fazer isso, adicione um módulo Dividir Dados e de definir a Fração de linhas na primeira saída como 0,33. A segunda saída contém os dois terços restantes.

Para dividir a segunda saída em partes iguais, adicione outra instância do módulo Dividir Dados e, desta vez, use o padrão para uma divisão de 50 a 50.

Observações técnicas

Esta seção contém detalhes de implementação, dicas e respostas para perguntas frequentes.

Detalhes de implementação

Este módulo requer que o conjuntos de dados contenham pelo menos duas linhas; caso contrário, um erro será gerado.
Se você usar a opção para especificar o número de linhas desejado, o número especificado deve ser um inteiro positivo, e o número deve ser menor do que o número total de linhas no conjunto de dados.
Todos os valores percentuais devem estar dentro dos intervalos 0 e 1.
Se você especificar um número ou percentual como um número de ponto flutuante menor que um e não usar o símbolo de porcentagem (%), o número será interpretado como um valor proporcional.

Requisitos adicionais para amostragem stratified

A coluna de camadas pode conter apenas dados nominais ou categóricos. Se a coluna contiver dados numéricos contínuos, será gerado uma mensagem de erro.
Uma coluna com muitos valores exclusivos não é uma boa candidata para stção. Você pode tentar ressuviar algumas categorias ou agrupar valores com antecedência.

Confira também

Exemplo e SplitPartition e exemplo