Tipos de explicação no Microsoft Syntex

Aplica-se a: ✓ Processamento de documentos não estruturados

As explicações são usadas para ajudar a definir as informações que você deseja rotular e extrair em seus modelos de processamento de documentos não estruturados em Microsoft Syntex. Ao criar uma explicação, você precisa selecionar um tipo de explicação. Este artigo ajuda você a entender os diferentes tipos de explicação e como eles são usados.

Captura de tela do painel Criar uma explicação mostrando os três tipos de explicação.

Esses tipos de explicação estão disponíveis:

  • Lista de frases: Lista de palavras, frases, números ou outros caracteres que você pode usar no documento ou nas informações que você está extraindo. Por exemplo, a cadeia de caracteres médico encaminhador está em todos os documentos de Referência Médica que você está identificando. Ou o número de telefone do médico encaminhador de todos os documentos de Referência Médica que você está identificando.

  • Expressão regular: Usa uma notação de correspondência de padrão para encontrar padrões de caracteres específicos. Por exemplo, você pode usar uma expressão regular para encontrar todas as instâncias de um padrão de endereço de email em um conjunto de documentos.

  • Proximidade: Descreve o quão próximas as explicações são umas das outras. Por exemplo, uma lista de frases de número da rua vai logo antes da lista de frases de nome da rua, sem tokens entre eles (você aprenderá sobre tokens posteriormente neste artigo). Usar o tipo de proximidade exige que você tenha pelo menos duas explicações em seu modelo, ou a opção será desabilitada.

Lista de frases

Um tipo de explicação de lista de frases geralmente é usado para identificar e classificar um documento por meio do seu modelo. Conforme descrito no exemplo de rótulo médico encaminhador, é uma cadeia de palavras, frases, números ou caracteres que está consistentemente nos documentos que você está identificando.

Embora não seja um requisito, você pode obter um sucesso melhor com a sua explicação se a frase que está capturando estiver localizada em um local consistente no documento. Por exemplo, o rótulo médico encaminhador poderia estar localizado consistentemente no primeiro parágrafo do documento. Você também pode usar a configuração avançada Configurar onde as frases ocorrem no documento para selecionar áreas específicas onde a frase se encontra, especialmente se houver uma chance de a frase ocorrer em vários locais no documento.

Se a diferenciação de maiúsculas e minúsculas for um requisito para a identificação do seu rótulo, usar o tipo de lista de frases permite que você o especifique na sua explicação selecionando a caixa de seleção Somente maiúsculas.

Confidencialidade de caso.

Um tipo de frase é especialmente útil quando você cria uma explicação que identifica e extrai informações em diferentes formatos, como datas, números de telefone e números de cartão de crédito. Por exemplo, uma data pode ser exibida em vários formatos diferentes (1/1/2020, 1-1-2020, 01/01/20, 01/01/2020 ou 1º de janeiro de 2020). Definir uma lista de frases torna sua explicação mais eficiente, capturando quaisquer variações possíveis nos dados que você está tentando identificar e extrair.

Para o exemplo de Número de telefone, você extrai o número de telefone de cada médico encaminhador de todos os documentos de Referência Médica que o modelo identifica. Ao criar a explicação, digite os diferentes formatos que um número de telefone pode exibir em seu documento para que você possa capturar possíveis variações.

Padrões de frase de número de telefone.

Para este exemplo, em Configurações Avançadas, marque a caixa de seleção Qualquer dígito de 0-9 para reconhecer cada valor "0" usado em sua lista de frases como qualquer dígito de 0 a 9.

Qualquer dígito de 0-9.

Da mesma forma, se você criar uma lista de frases que inclua caracteres de texto, marque a caixa de seleção Qualquer letra de a-z para reconhecer cada caractere "a" usado na lista de frases como qualquer caractere de "a" a "z".

Por exemplo, se você criar uma lista de frases de Data e desejar ter certeza de que um formato de data como Jan 1, 2020 será reconhecido, você precisará:

  • Adicionar aaa 0, 0000 e aaa 00, 0000 à sua lista de frases.
  • Verificar se Qualquer letra de a-z também está selecionada.

Qualquer letra de a-z.

Se você tiver requisitos de uso de maiúsculas ou minúsculas na sua lista de frases, poderá marcar a caixa de seleção Apenas capitalização exata. Para o exemplo de data, se você exige que a primeira letra do mês seja maiúscula, você precisa:

  • Adicionar Aaa 0, 0000 e Aaa 00, 0000 à sua lista de frases.
  • Verificar se Somente maiúsculas também está selecionada.

Somente maiúsculas.

Observação

Em vez de criar manualmente uma explicação de lista de frases, use a biblioteca de explicações para usar modelos de lista de frases para uma lista de frases comuns, como data, número de telefoneou número de cartão de crédito.

Expressão regular

Um tipo de explicação de expressão regular permite criar padrões que ajudam a encontrar e identificar determinadas cadeias de texto em documentos. Você pode usar expressões regulares para analisar rapidamente grandes quantidades de texto para:

  • Encontrar padrões de caracteres específicos.
  • Validar o texto para garantir que ele corresponde a um padrão predefinido (como um endereço de email).
  • Extrair, editar, substituir ou excluir subseções de texto.

Um tipo de expressão regular é especialmente útil quando você cria uma explicação que identifica e extrai informações em formatos semelhantes, como endereços de email, números de conta bancária ou URLs. Por exemplo, um endereço de email, como megan@contoso.com, é exibido em um determinado padrão ("megan" é a primeira parte e "com" é a última parte).

A expressão regular para um endereço de email é: [A-Za-z0-9._%-]+@[A-Za-z0-9.-]+.[A-Za-z]{2,6}.

Essa expressão consiste em cinco partes, nesta ordem:

  1. Qualquer quantidade dos seguintes caracteres:

    a. Letras de A a Z

    b. Números de 0 a 9

    c. Ponto, sublinhado, porcentagem ou traço

  2. O símbolo @

  3. Qualquer quantidade de caracteres iguais à primeira parte do endereço de email

  4. Um ponto

  5. De duas a seis letras

Para adicionar um tipo de explicação de expressão regular:

  1. No painel Criar uma explicação, em Tipo de explicação, selecione Expressão regular.

    Captura de tela mostrando o painel Criar um explicação com a opção Expressão Regular selecionada.

  2. Você pode digitar uma expressão na caixa de texto Expressão regular ou selecionar Adicionar uma expressão regular a partir de um modelo.

    Quando você adiciona uma expressão regular usando um modelo, ele adiciona automaticamente o nome e a expressão regular à caixa de texto. Por exemplo, se você escolher o modelo Endereço de email, o painel Criar uma explicação será preenchido.

    Captura de tela mostrando o painel Criar uma explicação com o modelo de Endereço de email aplicado.

Limitações

A tabela a seguir mostra as opções de caracteres embutidos que atualmente não estão disponíveis para uso nos padrões de expressões regulares.

Opção Estado Funcionalidade atual
Diferenciação de maiúsculas e minúsculas Sem suporte atualmente. Todas as correspondências realizadas não diferenciam maiúsculas de minúsculas.
Âncoras de linha Sem suporte atualmente. Não é possível especificar uma posição específica em uma cadeia de caracteres onde uma correspondência deve acontecer.

Proximidade

O tipo de explicação da proximidade ajuda seu modelo a identificar dados definindo a proximidade dos dados entre si. Por exemplo, em seu modelo, você definiu duas explicações que rotulam o Número da rua e Número de telefone do cliente.

Observe que os números de telefone do cliente sempre aparecem antes do número da rua.

Alex Wilburn
555-555-5555
One Microsoft Way
Redmond, WA 98034

Use a explicação de proximidade para definir a distância da explicação do número de telefone para identificar melhor o número da rua em seus documentos.

Explicação de proximidade.

Observação

Atualmente, expressões regulares não podem ser usadas com o tipo de explicação de proximidade.

O que são tokens?

Para usar o tipo de explicação de proximidade, você precisa entender o que é um token. O número de tokens é como a explicação de proximidade mede a distância de uma explicação para outra. Um token é um intervalo contínuo (sem incluir espaços ou pontuação) de letras e números.

A tabela a seguir mostra exemplos de como determinar o número de tokens em uma frase.

Frase Número de tokens Explicação
Dog 1 Uma única palavra sem pontuação ou espaços.
RMT33W 1 Um número de localizador de registro. Pode incluir números e letras, mas não tem pontuação.
425-555-5555 5 Um número de telefone. Cada sinal de pontuação é um único token, assim 425-555-5555 equivale a 5 tokens:
425
-
555
-
5555
https://luis.ai 7 https
:
/
/
luis
.
ai

Configurar o tipo de explicação de proximidade

Para o exemplo, defina a configuração de proximidade para definir o intervalo do número de tokens na explicação do número de telefone da explicação do número da rua. Observe que o intervalo mínimo é “0”, pois não há nenhum token entre o número de telefone e o número da rua.

No entanto, alguns números de telefone nos documentos de exemplo são acrescentados no (telefone).

Nestor Wilke
111-111-1111 (móvel)
One Microsoft Way
Redmond, WA 98034

Há três tokens em (móvel):

Frase Contagem de tokens
( 1
móvel 2
) 3

Definir a configuração de proximidade para ter um intervalo de 0 a 3.

Exemplo de proximidade.

Configurar onde as frases ocorrem no documento

Quando você cria uma explicação, por padrão, todo o documento é pesquisado pela frase que você está tentando extrair. No entanto, você pode usar a configuração avançada Onde essas frases ocorrem para ajudar a isolar um local específico do documento em que ocorre uma frase. Essa configuração é útil em situações em que instâncias semelhantes de uma frase podem aparecer em outro lugar no documento e você deseja ter certeza de que a correta está selecionada.

Ao se referir ao nosso exemplo de documento de Referência Médica, o médico encaminhador sempre é mencionado no primeiro parágrafo do documento. Com a configuração Onde essas frases ocorrem, neste exemplo, você pode configurar a explicação para pesquisar por esse rótulo somente na seção inicial do documento ou em qualquer outro local em que ela possa ocorrer.

Configuração de onde essas frases ocorrem.

Você pode escolher uma das três opções para esta configuração:

  • Em qualquer lugar no arquivo: o documento inteiro é pesquisado pela frase.

  • Início do arquivo: o documento é pesquisado desde o início até o local da frase.

    Início do arquivo.

    No visualizador, você pode ajustar manualmente a caixa de seleção para incluir o local onde a fase ocorre. O valor Posição final será atualizado para mostrar o número de tokens que sua área selecionada inclui. Você pode atualizar o valor da Posição final para ajustar a área selecionada.

    Início da caixa de posição do arquivo.

  • Fim do arquivo: o documento é pesquisado desde o final até a localização da frase.

    Fim do arquivo.

    No visualizador, você pode ajustar manualmente a caixa de seleção para incluir o local onde a fase ocorre. O valor Posição incial será atualizado para mostrar o número de tokens que sua área selecionada inclui. Você também pode atualizar o valor da Posição inicial para ajustar a área selecionada.

    Fim da caixa de fim do arquivo.

  • Intervalo personalizado: o documento é pesquisado dentro de um intervalo especificado para o local da frase.

    Intervalo personalizado.

    No visualizador, você pode ajustar manualmente a caixa de seleção para incluir o local onde a fase ocorre. Para essa configuração, você precisa selecionar uma posição Inicial e uma Final. Esses valores representam o número de tokens desde o início do documento. Embora seja possível inserir manualmente esses valores, é mais fácil ajustar manualmente a caixa de seleção no visualizador.

Considerações ao configurar explicações

Ao treinar um classificador, há algumas coisas a serem consideradas que produzirão resultados mais previsíveis:

  • Quanto mais documentos você treinar, mais preciso será o classificador. Quando possível, use mais de 5 documentos bons e use mais de 1 documento ruim. Se as bibliotecas com as quais você está trabalhando tiverem vários tipos de documento diferentes, vários de cada tipo levarão a resultados mais previsíveis.

  • Rotular o documento desempenha um papel importante no processo de treinamento. Eles são usados junto com explicações para treinar o modelo. Você pode ver algumas anomalias ao treinar um classificador com documentos que não têm muito conteúdo neles. A explicação pode não corresponder a nada no documento, mas como ele foi rotulado como um documento "bom", você pode ver que é uma correspondência durante o treinamento.

  • Ao criar explicações, ele usa a lógica OR em combinação com o rótulo para determinar se ele é compatível. A expressão regular que usa a lógica AND pode ser mais previsível. Aqui está uma expressão regular de exemplo a ser usada em documentos reais como seu treinamento. Observe que o texto realçado em vermelho é as frases que você estaria procurando.

    (?=.*network provider)(?=.*participating providers).*
  • Rótulos e explicações funcionam juntos e são usados no treinamento do modelo. Não é uma série de regras que podem ser desacopladas e pesos precisos ou previsão aplicadas a cada variável que foi configurada. Quanto maior a variação de documentos usados no treinamento fornecerá mais precisão no modelo.

Confira também

Usar modelos de explicação no Microsoft Syntex