Dados divididos usando a expressão regular

Este artigo descreve como usar a opção Regular Expression Split no módulo de dados divididos do Azure Machine Learning Studio (clássico). Esta opção é útil quando é necessário aplicar um critério de filtro a uma coluna de texto. Por exemplo, pode dividir o seu conjunto de dados se um determinado produto é mencionado.

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Pode utilizar uma expressão regular dividida numa única coluna de texto. Define uma expressão regular que inclui o nome da coluna de texto e, em seguida, define as condições aplicáveis à coluna, tais como "começa com", "contém", ou "não contém".

Para obter informações gerais sobre a partilha de dados para experiências de aprendizagem automática, consulte Dados Divididos e Partição e Split.

Outras opções no módulo Dados Divididos:

Use uma expressão regular para dividir um conjunto de dados

  1. Adicione o módulo de Dados Divididos à sua experiência e conecte-o como entrada ao conjunto de dados que pretende dividir.

  2. Para o modo de divisão, selecione 'Repartição de expressão regular'.

  3. Na caixa de expressão regular, escreva uma expressão regular válida. Alguns exemplos são fornecidos aqui.

    A expressão regular é aplicada apenas na coluna especificada, que deve ser um tipo de dados de cadeia.

    Para ajudar a compor expressões regulares, consulte a Linguagem de Expressão Regular - Referência Rápida.

  4. Executar a experiência, ou clicar com o botão direito no módulo e selecionar Executar selecionado.

    Com base na expressão regular que fornece, o conjunto de dados é dividido em dois conjuntos de linhas: linhas com valores que correspondem à expressão e todas as restantes linhas.

Exemplos

Os exemplos a seguir demonstram como dividir um conjunto de dados utilizando a opção Expressão Regular.

Única palavra inteira

Este exemplo coloca no primeiro conjunto de dados todas as linhas que contêm o texto Gryphon na Text coluna, e coloca outras linhas na segunda saída de Dados Divididos:

    \"Text" Gryphon  

Sub-corda

Este exemplo procura a cadeia especificada em qualquer posição dentro da segunda coluna do conjunto de dados, denotada aqui pelo valor do índice de 1. A partida é sensível a casos.

(\1) ^[a-f]

O primeiro conjunto de dados de resultados contém todas as linhas onde a coluna de índice começa com um destes caracteres: a , , , , , . b c d e f . Todas as outras linhas são direcionadas para a segunda saída.

Combinação de cordas nos endereços IP

Este exemplo divide alguns dados de registo de servidor em duas categorias para análise: ligações por trás da firewall e ligações com endereços IP fora da firewall. A expressão regular é aplicada no IP_Address campo (tipo de dados de cadeia).

(\IP_Address) ^[10]

A primeira saída contém todos os endereços que começam com 10 .

Ver também

Amostra e Divisão
Partição e Amostra