Métricas de avaliação para modelos de reconhecimento de entidades com nome personalizado

O seu conjunto de dados é dividido em duas partes: um conjunto de treino e um conjunto para testes. O conjunto de treino é utilizado para treinar o modelo, enquanto o conjunto de testes é usado como um teste para modelo após o treino para calcular o desempenho e avaliação modelo. O conjunto de testes não é introduzido no modelo através do processo de treino, para garantir que o modelo seja testado em novos dados.

A avaliação do modelo é ativada automaticamente após o treino ser concluído com sucesso. O processo de avaliação começa por utilizar o modelo treinado para prever as entidades definidas pelo utilizador para documentos no conjunto de testes, e compara-as com as etiquetas de dados fornecidas (que estabelece uma linha de base da verdade). Os resultados são devolvidos para que possa rever o desempenho do modelo. Para avaliação, o NER personalizado utiliza as seguintes métricas:

  • Precisão: Mede a precisão/precisão do seu modelo. É o rácio entre os positivos corretamente identificados (verdadeiros positivos) e todos os positivos identificados. A métrica de precisão revela quantas das entidades previstas estão corretamente rotuladas.

    Precision = #True_Positive / (#True_Positive + #False_Positive)

  • Lembre-se: Mede a capacidade do modelo de prever classes positivas reais. É o rácio entre os verdadeiros positivos previstos e o que foi realmente marcado. A métrica de recordação revela quantas das entidades previstas estão corretas.

    Recall = #True_Positive / (#True_Positive + #False_Negatives)

  • Pontuação de F1: A pontuação de F1 é uma função de Precisão e Recordação. É necessário quando se procura um equilíbrio entre Precisão e Recordação.

    F1 Score = 2 * Precision * Recall / (Precision + Recall)

Nota

A precisão, a recolha e a pontuação F1 são calculadas separadamente para cada entidade (avaliação ao nível da entidade) e para a modelo colectivamente (avaliação modelo nível).

Métricas de avaliação ao nível do modelo e do nível de entidade

A precisão, a recordação e a pontuação F1 são calculadas separadamente para cada entidade (avaliação ao nível da entidade) e para a modelo colectivamente (avaliação modelo nível).

As definições de precisão, recordação e avaliação são as mesmas tanto para avaliações a nível de entidades como para modelo nível. No entanto, as contagens para Verdadeiros Positivos, Falsos Positivos e Falsos Negativos diferem. Por exemplo, considere o seguinte texto.

Exemplo

A primeira parte deste contrato é John Smith, residente em 5678 Main Rd., cidade de Frederick, estado do Nebraska. E a segunda festa é Forrest Ray, residente em 123-345 Integer Rd., Cidade de Corona, estado do Novo México. Há também Fannie Thomas residente em 7890 River Road, cidade de Colorado Springs, Estado do Colorado.

A modelo entidades que extraem este texto podem ter as seguintes previsões:

Entidade Previsto como Tipo real
João Silva Pessoa Pessoa
Frederico Pessoa City
Rio Forrest City Pessoa
Fannie Thomas Pessoa Pessoa
Nascentes do Colorado City City

Avaliação a nível de entidade para a entidade pessoa

O modelo teria a seguinte avaliação a nível de entidade, para a entidade pessoa:

Chave de palavras Explicação
Verdadeiro Positivo 2 John Smith e Fannie Thomas foram corretamente previstos como pessoa.
Falso Positivo 1 Frederick foi incorretamente previsto como pessoa enquanto devia ser a cidade.
Falso Negativo 1 Forrest foi incorretamente previsto como cidade enquanto devia ter sido pessoa.
  • Precisão: #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 1) = 0.67
  • Lembre-se: #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 1) = 0.67
  • Pontuação F1: 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.67) / (0.67 + 0.67) = 0.67

Avaliação a nível de entidades para a entidade municipal

O modelo teria a seguinte avaliação a nível de entidade, para a entidade municipal:

Chave de palavras Explicação
Verdadeiro Positivo 1 Colorado Springs foi corretamente previsto como cidade.
Falso Positivo 1 Forrest foi incorretamente previsto como cidade enquanto devia ter sido pessoa.
Falso Negativo 1 Frederick foi incorretamente previsto como pessoa enquanto devia ser a cidade.
  • Precisão = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 1) = 0.67
  • Lembre-se = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 1) = 0.67
  • Pontuação F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.67 * 0.67) / (0.67 + 0.67) = 0.67

Avaliação a nível de modelo para o modelo coletivo

O modelo teria na íntegra a seguinte avaliação para o modelo:

Chave de palavras Explicação
Verdadeiro Positivo 3 John Smith e Fannie Thomas foram corretamente previstos como pessoa. Colorado Springs foi corretamente previsto como cidade. Esta é a soma dos verdadeiros positivos para todas as entidades.
Falso Positivo 2 Forrest foi incorretamente previsto como cidade enquanto devia ter sido pessoa. Frederick foi incorretamente previsto como pessoa enquanto devia ser a cidade. Esta é a soma dos falsos positivos para todas as entidades.
Falso Negativo 2 Forrest foi incorretamente previsto como cidade enquanto devia ter sido pessoa. Frederick foi incorretamente previsto como pessoa enquanto devia ser a cidade. Esta é a soma dos falsos negativos para todas as entidades.
  • Precisão = #True_Positive / (#True_Positive + #False_Positive) = 3 / (3 + 2) = 0.6
  • Lembre-se = #True_Positive / (#True_Positive + #False_Negatives) = 3 / (3 + 2) = 0.6
  • Pontuação F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.6 * 0.6) / (0.6 + 0.6) = 0.6

Interpretação das métricas de avaliação ao nível da entidade

Então, o que significa realmente ter alta precisão ou alta recuperação para uma determinada entidade?

Chamar de volta Precisão Interpretação
Alto Alto Esta entidade é bem tratada pelo modelo.
Baixo Alto O modelo nem sempre pode extrair esta entidade, mas quando o faz é com grande confiança.
Alto Baixo O modelo extrai bem esta entidade, no entanto é com pouca confiança, uma vez que por vezes é extraída como outro tipo.
Baixo Baixo Este tipo de entidade é mal tratado pelo modelo, porque não é normalmente extraído. Quando é, não é com muita confiança.

A matriz de confusão

Uma matriz de confusão é uma matriz N x N usada para modelo avaliação de desempenho, onde N é o número de entidades. A matriz compara os rótulos esperados com os previstos pelo modelo. Isto dá uma visão holística de como o modelo está a executar e que tipos de erros está a cometer.

Pode utilizar a matriz de confusão para identificar entidades demasiado próximas umas das outras e muitas vezes se enganam (ambiguidade). Neste caso, considere a fusão destes tipos de entidades em conjunto. Se isso não for possível, considere adicionar mais exemplos marcados de ambas as entidades para ajudar o modelo diferenciar entre elas.

A diagonal em destaque na imagem abaixo são as entidades corretamente previstas, onde a etiqueta prevista é a mesma que a etiqueta real.

A screenshot of an example confusion matrix

Pode calcular as métricas de avaliação de nível de entidade e modelo a partir da matriz de confusão:

  • Os valores na diagonal são os valores Verdadeiros Positivos de cada entidade.
  • A soma dos valores nas linhas da entidade (excluindo a diagonal) é o falso positivo do modelo.
  • A soma dos valores nas colunas da entidade (excluindo a diagonal) é o falso Negativo do modelo.

Da mesma forma:

  • O verdadeiro positivo do modelo é a soma dos verdadeiros Positivos para todas as entidades.
  • O falso positivo do modelo é a soma dos falsos positivos para todas as entidades.
  • O falso negativo do modelo é a soma de falsos negativos para todas as entidades.

Passos seguintes