Dados divididos usando linhas divididas

Artigo
03/05/2020

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
Saiba mais sobre Azure Machine Learning.

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Este artigo descreve como usar a opção Split Rows no módulo de Dados Divididos do Machine Learning Studio (clássico). Esta opção é particularmente útil quando é necessário dividir conjuntos de dados utilizados para treino e teste, quer aleatoriamente, quer por alguns critérios.

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

A opção Split Rows suporta divisões aleatórias e estratificadas. Por exemplo, pode especificar uma divisão de 70-30, ou uma divisão de 10-90 com a sua variável alvo igualmente representada em ambos os conjuntos de dados.

Para obter informações gerais sobre a partilha de dados para experiências de aprendizagem automática, consulte Dados Divididos e Partição e Split.

Outras opções no módulo Dados Divididos suportam diferentes formas de dividir os dados:

Dividir dados usando expressões regulares: Aplicar uma expressão regular numa única coluna de texto e dividir o conjunto de dados com base nos resultados.
Dados divididos usando expressões relativas: Aplique uma expressão numa coluna numérica e divida o conjunto de dados com base nos resultados
Conjuntos de dados recomendadores divididos: Divida conjuntos de dados que são utilizados em modelos de recomendação. O conjunto de dados deve ter três colunas: itens, utilizadores e classificações.

Divida um conjunto de dados em dois grupos

Adicione o módulo de Dados Divididos à sua experiência no Studio (clássico) e conecte o conjunto de dados que pretende dividir.
Para dividir o modo, escolha linhas Split.
Fração de linhas no primeiro conjunto de dados de saída. Utilize esta opção para determinar quantas linhas entram na primeira saída (à esquerda). Todas as outras linhas irão para a segunda saída (direita).

O rácio representa a percentagem de linhas enviadas para o primeiro conjunto de dados de saída, pelo que deve escrever um número decimal entre 0 e 1.

Por exemplo, se escrever 0,75 como valor, o conjunto de dados seria dividido usando um rácio de 75:25, com 75% das linhas enviadas para o primeiro conjunto de dados de saída e 25% enviadas para o segundo conjunto de dados de saída.
Selecione a opção split randomized se quiser aleatoriamente a seleção de dados para os dois grupos. Esta é a opção preferida ao criar conjuntos de dados de treino e teste.
Semente aleatória: Digite um valor inteiro não negativo para inicializar a sequência de pseudorandom de instâncias a utilizar. Esta semente predefinida é usada em todos os módulos que geram números aleatórios.

Especificar uma semente torna os resultados geralmente reprodutíveis. Se precisar de repetir os resultados de uma operação dividida, deve especificar uma semente para o gerador de números aleatórios. Caso contrário, a semente aleatória é definida por defeito a 0, o que significa que o valor inicial das sementes é obtido a partir do relógio do sistema. Como resultado, a distribuição de dados pode ser ligeiramente diferente cada vez que executa uma divisão.
Divisão estratificada: Defina esta opção para True para garantir que os dois conjuntos de dados de saída contêm uma amostra representativa dos valores na coluna de coluna de estratos ou coluna-chave de estratificação.

Com a amostragem estratificada, os dados são divididos de modo a que cada conjunto de dados de saída obtenha aproximadamente a mesma percentagem de cada valor-alvo. Por exemplo, é melhor garantir que os seus conjuntos de treinamento e testes são aproximadamente equilibrados no que diz respeito ao resultado, ou no que diz respeito a alguma outra coluna, como o género.
Executar a experiência, ou clicar no módulo à direita e selecionar Executar selecionado.

Exemplos

Os exemplos a seguir demonstram como executar divisões simples utilizando o modo Split Rows .

Dividido em duas partes iguais

Adicione o módulo Dados Divididos após o conjunto de dados sem alterações. Por predefinição, o módulo divide o conjunto de dados em duas partes iguais. Para dados com um número ímpar de linhas, a segunda saída recebe o restante.

Dividido em terços

Assuma que pretende dividir um conjunto de dados em duas partes, com um terço dos dados utilizados para o treino e o restante para testes ou divisões adicionais.

Para isso, adicione um módulo de Dados Divididos e desempate a Fração de Linhas na primeira saída para 0,33. A segunda saída contém os restantes dois terços.

Para dividir a segunda saída em partes iguais, adicione outra instância do módulo De Dados Divididos , e desta vez use o padrão para uma divisão de 50-50.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Detalhes de implementação

Este módulo requer que o conjunto de dados contenha pelo menos duas linhas; caso contrário, um erro é levantado.
Se utilizar a opção para especificar o número de linhas pretendido, o número especificado deve ser um número inteiro positivo, e o número deve ser inferior ao número total de linhas no conjunto de dados.
Todos os valores percentuais devem estar dentro dos intervalos 0 e 1.
Se especificar um número ou percentagem como um número de ponto flutuante inferior a um, e não utilizar o símbolo por cento (%), o número é interpretado como um valor proporcional.

Requisitos adicionais para amostragem estratificada

A coluna de estratos pode conter apenas dados nominais ou categóricos. Se a coluna contiver dados numéricos contínuos, é levantada uma mensagem de erro.
Uma coluna com muitos valores únicos não é um bom candidato à estratificação. Pode tentar colapsar algumas categorias ou agrupar valores previamente.

Ver também

Amostra e SplitPartition e Amostra