Divida um conjunto de dados usando uma expressão relativa

Este artigo descreve como usar a opção Relativa Expression Split no módulo de dados divididos do Azure Machine Learning Studio (clássico). Esta opção é útil quando é necessário dividir um conjunto de dados em conjuntos de dados de treino e teste utilizando uma expressão numérica. Por exemplo:

  • Idade superior a 40 vs. 40 ou menos
  • Pontuação de teste de 60 ou superior vs. menos de 60
  • Valor de classificação de 1 vs. todos os outros valores

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Para dividir os seus dados, escolha uma única coluna numérica nos seus dados e defina uma expressão a utilizar na avaliação de cada linha. A expressão relativa deve incluir o nome da coluna, o valor e um operador, tal como maior e inferior a, igual e não igual.

Esta opção divide o conjunto de dados em dois grupos.

Para obter informações gerais sobre a partilha de dados para experiências de aprendizagem automática, consulte Dados Divididos e Partição e Split.

Outras opções no módulo Dados Divididos:

Use uma expressão relativa para dividir um conjunto de dados

  1. Adicione o módulo de Dados Divididos à sua experiência em Stuio e conecte-o como entrada ao conjunto de dados que pretende dividir.

  2. Para o modo de divisão, selecione a expressão relativa dividida.

  3. Na caixa de texto de expressão relacional, digite uma expressão que execute uma operação de comparação numérica, numa única coluna:

    • A coluna contém números de qualquer tipo de dados numéricos, incluindo tipos de dados de data/hora.

    • A expressão pode referenciar um máximo de um nome de coluna.

    • Utilize o carácter de ampersand (&) para o funcionamento e utilize o caractere do tubo (/) para o funcionamento do BO.

    • São apoiados os seguintes operadores: < > , , , <= >= == , !=

    • Não é possível agrupar operações utilizando ( e ) .

    Para obter ideias, consulte a secção Exemplos.

  4. Executar a experiência, ou clicar com o botão direito no módulo e selecionar Executar selecionado.

    A expressão divide o conjunto de dados em dois conjuntos de linhas: linhas com valores que vão ao encontro da condição, e todas as restantes linhas.

    Se precisar de realizar operações de divisão adicionais, pode adicionar uma segunda instância de *Dados Divididos, ou utilizar o módulo de transformação de SQL Aplicar e definir uma declaração CASE.

Exemplos de expressões relatve

Os exemplos a seguir demonstram como dividir um conjunto de dados utilizando a opção Expressão Relativa no módulo Dados Divididos:

Usando o ano civil

Um cenário comum é dividir um conjunto de dados por anos. A expressão a seguir seleciona todas as linhas onde os valores na coluna Year são maiores do que 2010 .

\"Year" > 2010

A expressão da data deve ter em conta todas as partes da data incluídas na coluna de dados, e o formato das datas na coluna de dados deve ser consistente.

Por exemplo, numa coluna de datas utilizando o mmddyyyy formato, a expressão deve ser algo assim:

\"Date" > 1/1/2010

Usando índices de coluna

A expressão a seguir demonstra como pode utilizar o índice da coluna para selecionar todas as linhas na primeira coluna do conjunto de dados que contenham valores inferiores ou iguais a 30, mas não iguais a 20.

(\0)<=30 & !=20

Operação composta em valores temporôs usando várias divisões

Suponha que queira dividir uma tabela de dados de registo, para agrupar consultas que duram muito tempo. Pode usar a seguinte expressão relativa na coluna, Elapsed para obter as consultas que durou mais de 1 minuto.

\"Elapsed" >00:01:00

Para obter as consultas com tempos de resposta em menos de um minuto mas mais de 30 segundos, adicione outra instância de Dados Divididos na saída da mão direita, e use uma expressão como esta:

\"Elapsed" <:00:01:00 & >00:00:30

Conjunto de dados dividido sobre os valores da data

A expressão relativa que se segue divide o conjunto de dados utilizando os valores de data na coluna dt1 .

\"dt1" > 10-08-2015

As linhas com uma data superior a 10-08-2015 são adicionadas ao primeiro conjunto de dados de saída (à esquerda).

As linhas com uma data de 10-08-2015 ou mais cedo são adicionadas ao segundo conjunto de dados de saída (à direita).

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Restrições

As seguintes restrições aplicam-se a expressões relativas num conjunto de dados:

  • Expressões relativas só podem ser aplicadas a tipos de dados numéricos e tipos de dados de data/hora.
  • Expressões relativas podem referenciar um máximo de um nome de coluna.
  • Utilize o carácter de ampersand (&) para o funcionamento e o caractere do tubo (/) para o funcionamento do BO.
  • São permitidos os seguintes operadores para expressões relativas: < > , , , <= >= == , !=
  • As operações de agrupamento com parênteses não são apoiadas.

Ver também

Amostra e Divisão
Partição e Amostra