Dividir um conjunto de dados com uma expressão relativa

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Este artigo descreve como utilizar a opção Divisão de Expressão Relativa no módulo Dividir Dados do Machine Learning Studio (clássico). Esta opção é útil quando precisa de dividir um conjunto de dados em conjuntos de dados de preparação e teste com uma expressão numérica. Por exemplo:

  • Idade superior a 40 vs. 40 ou menor
  • Classificação de teste de 60 ou superior vs. menor que 60
  • Valor de classificação de 1 vs. todos os outros valores

Nota

Aplica-se apenas a: Machine Learning Studio ( clássico)

Estão disponíveis módulos de arrastar e largar semelhantes no estruturador do Azure Machine Learning.

Para dividir os seus dados, escolha uma única coluna numérica nos seus dados e defina uma expressão a utilizar na avaliação de cada linha. A expressão relativa tem de incluir o nome da coluna, o valor e um operador, como maior e menor que, igual e não igual a.

Esta opção divide o conjunto de dados em dois grupos.

Para obter informações gerais sobre a criação de partições de dados para experimentações de machine learning, veja Dividir Dados e Partições e Dividir.

Outras opções no módulo Dividir Dados :

Utilizar uma expressão relativa para dividir um conjunto de dados

  1. Adicione o módulo Dividir Dados à sua experimentação no Stuio e ligue-o como entrada ao conjunto de dados que pretende dividir.

  2. Para Modo de divisão, selecione divisão de expressão relativa.

  3. Na caixa de texto Expressão relacional , escreva uma expressão que execute uma operação de comparação numérica numa única coluna:

    • A coluna contém números de qualquer tipo de dados numérico, incluindo tipos de dados de data/hora.

    • A expressão pode referenciar um máximo de um nome de coluna.

    • Utilize o caráter de e comercial (&) para a operação AND e utilize o caráter de pipe (|) para a operação OR.

    • São suportados os seguintes operadores: <, , >, <=, >=, , ==!=

    • Não pode agrupar operações com ( e ).

    Para obter ideias, consulte a secção Exemplos .

  4. Execute a experimentação ou clique com o botão direito do rato no módulo e selecione Executar selecionado.

    A expressão divide o conjunto de dados em dois conjuntos de linhas: linhas com valores que cumprem a condição e todas as linhas restantes.

    Se precisar de realizar operações de divisão adicionais, pode adicionar uma segunda instância de *Dividir Dados ou utilizar o módulo Aplicar Transformação SQL e definir uma instrução CASE.

Exemplos de expressões relacionadas

Os exemplos seguintes demonstram como dividir um conjunto de dados com a opção Expressão Relativa no módulo Dividir Dados :

Utilizar o ano do calendário

Um cenário comum é dividir um conjunto de dados por anos. A expressão seguinte seleciona todas as linhas em que os valores na coluna Year são maiores do que 2010.

\"Year" > 2010

A expressão de data tem de ter em conta todas as partes de data incluídas na coluna de dados e o formato das datas na coluna de dados tem de ser consistente.

Por exemplo, numa coluna de data com o formato mmddyyyy, a expressão deve ser semelhante a esta:

\"Date" > 1/1/2010

Utilizar índices de colunas

A expressão seguinte demonstra como pode utilizar o índice de colunas para selecionar todas as linhas na primeira coluna do conjunto de dados que contêm valores inferiores ou iguais a 30, mas não iguais a 20.

(\0)<=30 & !=20

Operação composta em valores de tempo com múltiplas divisões

Suponha que pretende dividir uma tabela de dados de registo para agrupar consultas que são executadas durante demasiado tempo. Pode utilizar a seguinte expressão relativa na coluna , Elapsedpara obter as consultas que foram executadas ao longo de 1 minuto.

\"Elapsed" >00:01:00

Para obter as consultas com tempos de resposta inferiores a um minuto, mas mais de 30 segundos, adicione outra instância de Dividir Dados na saída à direita e utilize uma expressão como esta:

\"Elapsed" <:00:01:00 & >00:00:30

Dividir conjunto de dados em valores de data

A seguinte expressão relativa divide o conjunto de dados com os valores de data na coluna dt1.

\"dt1" > 10-08-2015

As linhas com uma data superior a 10-08-2015 são adicionadas ao primeiro conjunto de dados de saída (à esquerda).

As linhas com uma data de 10-08-2015 ou anterior são adicionadas ao segundo conjunto de dados de saída (à direita).

Notas técnicas

Esta secção contém detalhes de implementação, sugestões e respostas a perguntas mais frequentes.

Restrições

As seguintes restrições aplicam-se a expressões relativas num conjunto de dados:

  • As expressões relativas só podem ser aplicadas a tipos de dados numéricos e tipos de dados de data/hora.
  • As expressões relativas podem referenciar um máximo de um nome de coluna.
  • Utilize o caráter de e comercial (&) para a operação AND e o caráter de pipe (|) para a operação OR.
  • Os operadores seguintes são permitidos para expressões relativas: <, >, <=, >=, , ==, !=
  • As operações de agrupamento com parênteses não são suportadas.

Ver também

Exemplo e Divisão
Partição e Amostra