Pré-processar Texto

Este artigo descreve o componente no Azure Machine Learning Designer.

Use o componente Pré-Processamento de Texto para limpar e simplificar o texto. Ele dá suporte a essas operações comuns de processamento de texto:

  • Remoção de palavras irrelevantes
  • Usar expressões regulares para pesquisar e substituir cadeias de caracteres de destino específicas
  • Lematização, que converte várias palavras relacionadas em um único formulário canônico
  • Normalização de caso
  • A remoção de determinadas classes de caracteres, como números, caracteres especiais e sequências de caracteres repetidos, como "aaaa"
  • Identificação e remoção de emails e URLs

No momento, o componente Pré-Processamento de Texto só é compatível com o idioma inglês.

Configurar o pré-processamento de texto

  1. Adicione o componente Pré-Processamento de Texto ao seu pipeline no Azure Machine Learning. Você pode encontrar esse componente em Análise de Texto.

  2. Conecte um conjunto de dados que tenha pelo menos uma coluna contendo texto.

  3. Selecione o idioma na lista suspensa de idioma.

  4. Coluna de texto a ser limpa: selecione a coluna que você deseja pré-processar.

  5. Remover palavras irrelevantes: selecione esta opção se desejar aplicar uma lista de palavras irrelevantes predefinidas à coluna de texto.

    As listas de palavras irrelevantes dependem do idioma e são personalizáveis.

  6. Lematização: selecione esta opção se quiser que as palavras sejam representadas em sua forma canônica. Essa opção é útil para reduzir o número de ocorrências exclusivas de outros tokens de texto semelhantes.

    O processo lematização é altamente dependente do idioma.

  7. Detectar frases: selecione esta opção se desejar que o componente insira uma marca de limite de frase ao realizar a análise.

    Esse componente usa uma série de três caracteres de pipe ||| para representar o terminador de frases.

  8. Execute operações de localização e substituição opcionais usando expressões regulares. A expressão regular será processada a princípio, antes de todas as outras opções internas.

    • Expressão regular personalizada: defina o texto que você está pesquisando.
    • Cadeia de caracteres de substituição personalizada: defina um único valor de substituição.
  9. Normalizar maiúsculas e minúsculas: selecione esta opção se desejar converter caracteres maiúsculos ASCII em formatos minúsculos.

    Se os caracteres não forem normalizados, a mesma palavra em letras maiúsculas e minúsculas será considerada duas palavras diferentes.

  10. Você também pode remover os seguintes tipos de caracteres ou sequências de caracteres do texto de saída processado:

    • Remover números: selecione esta opção para remover todos os caracteres numéricos do idioma especificado. Os números de identificação dependem do domínio e do idioma. Se os caracteres numéricos forem parte integral de uma palavra conhecida, o número poderá não ser removido. Saiba mais em Notas técnicas.

    • Remover caracteres especiais: use esta opção para remover quaisquer caracteres especiais não alfanuméricos.

    • Remover caracteres duplicados: selecione esta opção para remover caracteres extras em qualquer sequência que se repita mais de duas vezes. Por exemplo, uma sequência como "aaaaa" seria reduzida a "aa".

    • Remover endereços de email: selecione esta opção para remover qualquer sequência do formato <string>@<string>.

    • Remover URLs: selecione esta opção para remover qualquer sequência que inclua os seguintes prefixos de URL: http, https, ftp, www

  11. Expandir contrações de verbos: essa opção se aplica somente a idiomas que usam contratações de verbo; atualmente, somente em inglês.

    Por exemplo, ao selecionar essa opção, você pode substituir a frase "wouldn't stay there" por "would not stay there" .

  12. Normalizar barras invertidas para barras: selecione esta opção para mapear todas as instâncias de \\ para /.

  13. Dividir tokens em caracteres especiais: selecione esta opção se desejar quebrar palavras em caracteres como &, - e assim por diante. Essa opção também pode reduzir os caracteres especiais quando eles se repetirem mais de duas vezes.

    Por exemplo, a cadeia de caracteres MS---WORD seria separada em três tokens, MS, - e WORD.

  14. Envie o pipeline.

Observações técnicas

O componente Pré-Processamento de Texto no Studio (clássico) e o designer usam modelos de linguagem diferentes. O designer usa um modelo treinado CNN de várias tarefas do spaCy. Modelos distintos fornecem diferentes geradores de tokens e marcadores de parte do discurso, o que gera diferentes resultados.

A seguir estão alguns exemplos:

Configuração Resultado de saída
Com todas as opções selecionadas
Explicação:
para casos como '3test' em 'WC-3 3test 4test', o designer remove a palavra inteira '3test', pois, nesse contexto, o marcador de classe gramatical especifica esse token '3test' como algarismo e, de acordo com a classe gramatical, o componente o remove.
Com todas as opções selecionadas
Somente com Removing number selecionado
Explicação:
para casos como "3test", "4-EC", o gerador de tokens do designer não divide os casos e os trata como tokens inteiros. Portanto, ele não removerá os números nessas palavras.
Somente com

Você também pode usar a expressão regular para gerar resultados personalizados:

Configuração Resultado de saída
Com todas as opções selecionadas
Expressão regular personalizada: (\s+)*(-|\d+)(\s+)*
Cadeia de caracteres de substituição personalizada: \1 \2 \3
Com todas as opções selecionadas e expressão regular
Somente com Removing number selecionado
Expressão regular personalizada: (\s+)*(-|\d+)(\s+)*
Cadeia de caracteres de substituição personalizada: \1 \2 \3
Com a remoção de números selecionados e expressão regular

Próximas etapas

Confira o conjunto de componentes disponíveis no Azure Machine Learning.