Dados divididos usando linhas divididas

Este artigo descreve como usar a opção Split Rows no módulo de Dados Divididos do Azure Machine Learning Studio (clássico). Esta opção é particularmente útil quando é necessário dividir os conjuntos de dados utilizados para treino e teste, quer aleatoriamente, quer por alguns critérios.

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

A opção Split Rows suporta divisões aleatórias e estratificadas. Por exemplo, pode especificar uma divisão de 70-30, ou uma divisão de 10-90 com a sua variável alvo igualmente representada em ambos os conjuntos de dados.

Para obter informações gerais sobre a partilha de dados para experiências de aprendizagem automática, consulte Dados Divididos e Partição e Split.

Outras opções no módulo Dados Divididos suportam diferentes formas de dividir os dados:

Divida um conjunto de dados em dois grupos

  1. Adicione o módulo de Dados Divididos à sua experiência no Studio (clássico) e conecte o conjunto de dados que pretende dividir.

  2. Para o modo de divisão, escolha linhas Split.

  3. Fração de linhas no primeiro conjunto de dados de saída. Utilize esta opção para determinar quantas linhas entram na primeira saída (à esquerda). Todas as outras linhas irão para a segunda saída (direita).

    O rácio representa a percentagem de linhas enviadas para o primeiro conjunto de dados de saída, pelo que deve escrever um número decimal entre 0 e 1.

    Por exemplo, se escrever 0,75 como valor, o conjunto de dados seria dividido usando um rácio de 75:25, com 75% das linhas enviadas para o primeiro conjunto de dados de saída e 25% enviados para o segundo conjunto de dados de saída.

  4. Selecione a opção split randomized se quiser aleatoriamente a seleção de dados para os dois grupos. Esta é a opção preferida ao criar conjuntos de dados de treino e teste.

  5. Semente aleatória: Digite um valor inteiro não negativo para inicializar a sequência de pseudorandom de instâncias a utilizar. Esta semente predefinida é usada em todos os módulos que geram números aleatórios.

    Especificar uma semente torna os resultados geralmente reprodutíveis. Se precisar de repetir os resultados de uma operação dividida, deve especificar uma semente para o gerador de números aleatórios. Caso contrário, a semente aleatória é definida por defeito a 0, o que significa que o valor inicial das sementes é obtido a partir do relógio do sistema. Como resultado, a distribuição de dados pode ser ligeiramente diferente cada vez que executa uma divisão.

  6. Divisão estratificada: Defina esta opção para True para garantir que os dois conjuntos de dados de saída contenham uma amostra representativa dos valores na coluna de estratos ou coluna-chave de estratificação.

    Com a amostragem estratificada, os dados são divididos de modo a que cada conjunto de dados de saída obtenha aproximadamente a mesma percentagem de cada valor-alvo. Por exemplo, é melhor garantir que os seus conjuntos de treinamento e testes são aproximadamente equilibrados no que diz respeito ao resultado, ou no que diz respeito a alguma outra coluna, como o género.

  7. Executar a experiência, ou clicar com o botão direito no módulo e selecionar Executar selecionado.

Exemplos

Os exemplos a seguir demonstram como executar divisões simples utilizando o modo Split Rows.

Dividido em duas partes iguais

Adicione o módulo dados divididos após o conjunto de dados sem alterações. Por predefinição, o módulo divide o conjunto de dados em duas partes iguais. Para dados com um número ímpar de linhas, a segunda saída recebe o restante.

Dividido em terços

Assuma que pretende dividir um conjunto de dados em duas partes, com um terço dos dados utilizados para o treino e o restante para testes ou divisões adicionais.

Para isso, adicione um módulo de Dados Divididos e desempate a Fração de Linhas na primeira saída para 0,33. A segunda saída contém os restantes dois terços.

Para dividir a segunda saída em partes iguais, adicione outro exemplo do módulo de Dados Divididos, e desta vez use o padrão para uma divisão de 50-50.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Detalhes de implementação

  • Este módulo requer que o conjunto de dados contenha pelo menos duas linhas; caso contrário, um erro é levantado.

  • Se utilizar a opção para especificar o número de linhas pretendido, o número especificado deve ser um número inteiro positivo, e o número deve ser inferior ao número total de linhas no conjunto de dados.

  • Todos os valores percentuais devem estar dentro dos intervalos 0 e 1.

  • Se especificar um número ou percentagem como um número de ponto flutuante inferior a um, e não utilizar o símbolo por cento (%), o número é interpretado como um valor proporcional.

Requisitos adicionais para amostragem estratificada

  • A coluna de estratos pode conter apenas dados nominais ou categóricos. Se a coluna contiver dados numéricos contínuos, é levantada uma mensagem de erro.

  • Uma coluna com muitos valores únicos não é um bom candidato à estratificação. Pode tentar colapsar algumas categorias ou agrupar valores previamente.

Ver também

Amostra e Divisão e Amostra