Avaliar o modelo ML.NET com métricas

Entenda as métricas usadas para avaliar o modelo ML.NET.

As métricas de avaliação são específicas para o tipo de tarefa de machine learning que um modelo executa.

Por exemplo, para a tarefa de classificação, o modelo é avaliado medindo o nível de correspondência da categoria prevista com a categoria real. E, para clustering, a avaliação baseia-se no nível de proximidade entre os itens clusterizados e de separação entre os clusters.

Métricas de avaliação da classificação binária

Métricas Descrição Procurar
Precisão Precisão é a proporção de previsões corretas com um conjunto de dados de teste. É a taxa do número de previsões corretas para o número total de amostras de entrada. Funcionará bem se houver um número semelhante de amostras que pertencem a cada classe. Quanto mais próximo de 1,00, melhor. Mas exatamente 1,00 indica um problema (geralmente: vazamento de rótulo/destino, ajuste excessivo ou teste com os dados de treinamento). Quando os dados de teste estão desbalanceados (a maioria das instâncias pertence a uma das classes), o conjunto de dados é pequeno ou as pontuações se aproximam de 0,00 ou 1,00, a precisão realmente não captura a eficácia de um classificador e você precisa verificar métricas adicionais.
AUC aucROC ou área sob a curva mede a área sob a curva criada abrangendo a taxa de verdadeiros positivos em relação à taxa de falsos positivos. Quanto mais próximo de 1,00, melhor. Deve ser superior a 0,50 para que um modelo seja aceitável. Um modelo com AUC de 0,50 ou inferior é inútil.
AUCPR aucPR ou área sob a curva de uma curva Precision-Recall: medida útil de sucesso da previsão quando as classes estão desbalanceadas (conjuntos de dados extremamente distorcidos). Quanto mais próximo de 1,00, melhor. Pontuações elevadas próximas de 1,00 mostram que o classificador retorna resultados precisos (precisão alta) e retorna a maioria de todos os resultados positivos (recall alto).
Pontuação F1 A pontuação F1, também conhecida como pontuação F balanceada ou medida F. É a média harmônica da precisão e do recall. A pontuação F1 é útil quando você deseja buscar um equilíbrio entre a precisão e o recall. Quanto mais próximo de 1,00, melhor. Uma pontuação F1 atinge seu melhor valor em 1,00 e o pior em 0,00. Ela informa o nível de precisão do classificador.

Para obter mais detalhes sobre as métricas de classificação binária, leia os artigos a seguir:

Métricas de avaliação para classificação de várias classes e classificação de texto

Métricas Descrição Procurar
Microprecisão A precisão de micromédia agrega as contribuições de todas as classes para computar a métrica média. Ela é a fração de instâncias previstas corretamente. A micromédia não leva membros da classe em consideração. Basicamente, cada par de classe de exemplo contribui igualmente para a métrica de precisão. Quanto mais próximo de 1,00, melhor. Em uma tarefa de classificação multiclasse, a microprecisão é preferível em relação à macroprecisão, quando há suspeita de desequilíbrio de classes (ou seja, pode ter muito mais exemplos de uma classe do que de outras).
Macroprecisão A precisão de macromédia é a precisão média no nível de classe. A precisão para cada classe é calculada e a macroprecisão é a média desses precisões. Basicamente, cada classe contribui igualmente para a métrica de precisão. Classes minoritárias recebem o mesmo peso que as classes maiores. A métrica de macromédia fornece o mesmo peso a cada classe, não importa quantas instâncias dessa classe o conjunto de dados contém. Quanto mais próximo de 1,00, melhor. Ele calcula a métrica de forma independente para cada classe e, em seguida, usa a média (tratando assim todas as classes igualmente)
Perda logarítmica A perda logarítmica mede o desempenho de um modelo de classificação em que a entrada de previsão é um valor de probabilidade entre 0,00 e 1,00. A perda logarítmica aumenta à medida que a probabilidade prevista diverge do rótulo real. Quanto mais próximo de 0,00, melhor. Um modelo perfeito teria uma perda logarítmica de 0,00. A meta dos nossos modelos de machine learning é minimizar esse valor.
Redução de perda logarítmica A redução de perda logarítmica pode ser interpretada como a vantagem do classificador sobre uma previsão aleatória. Varia de -inf a 1,00, em que 1,00 é uma previsão perfeita e 0,00 indica previsões péssimas. Por exemplo, se o valor for igual a 0,20, ele poderá ser interpretado como "a probabilidade de uma previsão correta é 20% melhor do que a previsão aleatória"

A microprecisão geralmente se alinha melhor com as necessidades de negócios de previsões de ML. Se você desejar selecionar uma única métrica para escolher a qualidade de uma tarefa de classificação multiclasse, geralmente ela deverá ser microprecisão.

Exemplo de uma tarefa de classificação do tíquete de suporte: (mapeia tíquetes de entrada para equipes de suporte)

  • Microprecisão – com que frequência um tíquete de entrada é classificado para a equipe certa?
  • Macroprecisão – para uma equipe de média, com que frequência um tíquete de entrada é correto para sua equipe?

A macroprecisão superpondera equipes pequenas neste exemplo: uma equipe pequena, que obtém apenas 10 tíquetes por ano, conta tanto quanto uma equipe grande, com 10 mil tíquetes por ano. Nesse caso, a microprecisão se correlaciona melhor com a necessidade de negócios de "a quantidade de tempo e dinheiro que a empresa pode salvar automatizando meu processo de roteamento de tíquetes".

Para obter mais detalhes sobre métricas de classificação multiclasse, leia os artigos a seguir:

Métricas de avaliação de regressão e recomendação

As tarefas de regressão e recomendação preveem um número. No caso de regressão, o número pode ser qualquer propriedade de saída influenciada pelas propriedades de entrada. Para recomendação, o número geralmente é um valor de classificação (entre 1 e 5, por exemplo), ou uma recomendação sim/não (representada por 1 e 0, respectivamente).

Metric Descrição Procurar
R quadrado O R2 (R quadrado) ou coeficiente de determinação representa a capacidade de previsão do modelo como um valor entre -inf e 1,00. 1,00 significa que há um ajuste perfeito e o ajuste pode ser arbitrariamente ruim. Portanto, as pontuações podem ser negativas. Uma pontuação de 0,00 significa quo modelo está adivinhando o valor esperado para o rótulo. Um valor R2 negativo indica que o ajuste não segue a tendência dos dados e o modelo tem um desempenho pior do que a adivinhação aleatória. Isso só é possível com modelos de regressão não linear ou regressão linear restrita. R2 mede o quão próximos os valores de dados de teste reais são dos valores previstos. Quanto mais próximo de 1,00, melhor a qualidade. No entanto, às vezes, valores de R quadrado baixos (por exemplo, 0,50) podem ser totalmente normais suficientemente bons para seu cenário, enquanto valores de R quadrado altos nem sempre são bons. Convém sempre suspeitar.
Perda absoluta A perda absoluta ou MAE (erro de média absoluta) mede o quão próximas as previsões são dos resultados reais. É a média de todos os erros do modelo, em que o erro do modelo é a distância absoluta entre o valor de rótulo previsto e o valor de rótulo correto. Esse erro de previsão é calculado para cada registro do conjunto de dados de teste. Por fim, o valor médio é calculado para todos os erros absolutos gravados. Quanto mais próximo de 0,00, melhor a qualidade. O erro médio absoluto usa a mesma escala que os dados que estão sendo medidos (não são normalizados para o intervalo específico). Perda absoluta, perda quadrática e perda de RMS somente podem ser usadas para fazer comparações entre modelos para o mesmo conjunto de dados ou com um conjunto de dados com uma distribuição de valor de rótulo similar.
Perda quadrática A perda quadrática ou erro quadrático médio (MSE), também chamado de desvio quadrático médio (MSD), informa o nível de proximidade de uma linha de regressão em relação a um conjunto de valores de dados de teste considerando as distâncias dos pontos até a linha de regressão (essas distâncias são os erros E) e elevando-os ao quadrado. Elevar ao quadrado dá mais peso para diferenças maiores. É sempre positivo, e valores mais próximos de 0,00 são melhores. Dependendo de seus dados, pode ser impossível obter um valor muito pequeno para o erro médio quadrático.
Perda de RMS A perda de RMS ou RMSE (raiz do erro quadrático médio), também chamada de RMSD (raiz do desvio quadrático médio), mede a diferença entre valores previstos por um modelo e os valores realmente observados no ambiente que está sendo modelado. A perda de RMS é a raiz quadrada da perda quadrática e tem as mesmas unidades que o rótulo, de modo semelhante à perda absoluta, mas dando mais peso para diferenças maiores. A raiz do erro médio quadrático normalmente é usada em climatologia, previsão e análise de regressão para verificar resultados experimentais. É sempre positivo, e valores mais próximos de 0,00 são melhores. RMSD é uma medida de precisão, para comparar os erros de previsão de modelos diferentes para um conjunto de dados específico e não entre conjuntos de dados, já que ela é dependente de escala.

Para obter mais detalhes sobre as métricas de regressão, leia os artigos a seguir:

Métricas de avaliação de clustering

Métrica Descrição Procurar
Distância média Média da distância entre os pontos de dados e o centro do cluster atribuído. A distância média é uma medida de proximidade dos pontos de dados em relação aos centroides do cluster. É uma medida da proximidade do cluster. Valores mais próximos de 0 são melhores. Quanto mais perto de zero a distância média for, mais clusterizados estarão os dados. Observe, porém, que essa métrica diminuirá se o número de clusters for aumentado e, em caso extremo (em que cada ponto de dados distinto é seu próprio cluster), será igual a zero.
Índice Davies Bouldin A taxa média de distância no cluster e entre clusters. Quanto mais apertado o cluster, e mais distantes estiverem os clusters, menor será esse valor. Valores mais próximos de 0 são melhores. Clusters mais distantes e menos dispersos resultarão em uma melhor pontuação.
Informações mútuas normalizadas Podem ser usadas quando os dados de treinamento utilizados para treinar o modelo de clustering também vêm com rótulos reais (ou seja, clustering supervisionado). A métrica de informações mútuas normalizadas mede se pontos de dados semelhantes são atribuídos ao mesmo cluster e pontos de dados diferentes são atribuídos a clusters diferentes. A informação mútua normalizada é um valor entre 0 e 1. Valores mais próximos de 1 são melhores.

Métricas de avaliação da classificação

Métrica Descrição Procurar
Ganhos cumulativos com desconto O DCG (ganho cumulativo com desconto) é uma medida de qualidade de classificação. É derivado de duas suposições. Uma: itens altamente relevantes são mais úteis ao aparecerem mais alto na ordem de classificação. Duas: a utilidade acompanha a relevância; quanto maior a relevância, mais útil é um item. O ganho cumulativo com desconto é calculado para uma posição específica na ordem de classificação. Ele soma a classificação de relevância dividida pelo logaritmo do índice de classificação até a posição de interesse. Ele é calculado usando $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$. As classificações de relevância são fornecidas a um algoritmo de treinamento de classificação como rótulos reais. Um valor DCG é fornecido para cada posição na tabela de classificação, daí o nome ganhos cumulativos com desconto. Valores mais altos são melhores.
Ganhos cumulativos com desconto normalizado A normalização do DCG permite que a métrica seja comparada para classificar listas de diferentes comprimentos. Valores mais próximos de 1 são melhores.

Métricas de avaliação da detecção de anomalias

Métrica Descrição Procurar
Área abaixo da curva ROC A área sob a curva do operador receptor mede o nível de separação de pontos de dados anormais e usuais do modelo. Valores mais próximos de 1 são melhores. Somente valores superiores a 0,5 demonstram a eficácia do modelo. Valores de 0,5 ou abaixo indicam que o modelo não é melhor do que alocar aleatoriamente os inputs nas categorias anômalas e usuais.
Taxa de detecção na contagem de falsos positivos A taxa de detecção na contagem de falsos positivos é a taxa do número de anomalias identificadas corretamente em relação ao número total de anomalias de um conjunto de testes, indexada por cada falso positivo. Ou seja, há um valor para a taxa de detecção na contagem de falsos positivos de cada item falso positivo. Valores mais próximos de 1 são melhores. Se não houver falsos positivos, esse valor será 1.

Métricas de avaliação de similaridade de frase

Metric Descrição Procurar
Correlação de Pearson A correlação de Pearson, também conhecida como coeficiente de correlação, mede a dependência ou a relação entre dois conjuntos de dados. Os valores absolutos mais próximos de 1 apresentam maior semelhança. Essa métrica varia de -1 a 1. Um valor absoluto de 1 implica que os conjuntos de dados são idênticos. Um valor de 0 implica que não há nenhuma relação entre os dois conjuntos de dados.