Metriche di valutazione per i modelli del flusso di lavoro di orchestrazione

Articolo
12/19/2023

Il set di dati è suddiviso in due parti: un set per il training e un set di test. Il set di training viene usato per eseguire il training del modello, mentre il set di test viene usato come test per il modello dopo il training per calcolare le prestazioni e la valutazione del modello. Il set di test non viene introdotto al modello tramite il processo di training, per assicurarsi che il modello venga testato sui nuovi dati.

La valutazione del modello viene attivata automaticamente dopo il completamento del training. Il processo di valutazione inizia usando il modello sottoposto a training per stimare le finalità definite dall'utente per le espressioni nel set di test e li confronta con i tag forniti (che stabilisce una baseline di verità). I risultati vengono restituiti in modo da poter esaminare le prestazioni del modello. Per la valutazione, il flusso di lavoro di orchestrazione usa le metriche seguenti:

Precisione: misura la precisione/precisione del modello. È il rapporto tra i positivi identificati correttamente (veri positivi) e tutti i positivi identificati. La metrica di precisione rivela il numero di classi stimate etichettate correttamente.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Richiamo: misura la capacità del modello di stimare le classi positive effettive. È il rapporto tra i veri positivi stimati e ciò che è stato effettivamente contrassegnato. La metrica di richiamo rivela il numero di classi stimate corrette.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
Punteggio F1: il punteggio F1 è una funzione di precisione e richiamo. È necessario quando si cerca un equilibrio tra precisione e richiamo.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

La precisione, il richiamo e il punteggio F1 vengono calcolati per:

Ogni finalità separatamente (valutazione a livello di finalità)
Per il modello collettivamente (valutazione a livello di modello).

Le definizioni di precisione, richiamo e valutazione sono uguali per le valutazioni a livello di finalità e a livello di modello. Tuttavia, i conteggi per true positivi, falsi positivi e falsi negativi possono essere diversi. Si consideri ad esempio il testo seguente.

Esempio

Fare una risposta con grazie molto
Chiama il mio amico
Ciao
Buongiorno

Queste sono le finalità usate: CLUEmail e Greeting

Il modello può effettuare le stime seguenti:

Espressione	Finalità stimata	Finalità effettiva
Fare una risposta con grazie molto	CLUEmail	CLUEmail
Chiama il mio amico	Greeting (Messaggio introduttivo)	CLUEmail
Ciao	CLUEmail	Greeting (Messaggio introduttivo)
Buongiorno	Greeting (Messaggio introduttivo)	Greeting (Messaggio introduttivo)

Valutazione del livello di finalità per la finalità CLUEmail

Chiave	Conteggio	Spiegazione
Veri positivi	1	L'espressione 1 è stata stimata correttamente come CLUEmail.
Falsi positivi	1	L'espressione 3 è stata stimata erroneamente come CLUEmail.
Falsi negativi	1	L'espressione 2 è stata stimata erroneamente come Saluto.

Precisione = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Ricordare = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

Punteggio F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Valutazione a livello di finalità per la finalità Di saluto

Chiave	Conteggio	Spiegazione
Veri positivi	1	L'espressione 4 è stata stimata correttamente come Saluto.
Falsi positivi	1	L'espressione 2 è stata stimata erroneamente come Saluto.
Falsi negativi	1	L'espressione 3 è stata stimata erroneamente come CLUEmail.

Precisione = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Ricordare = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

Punteggio F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Valutazione a livello di modello per il modello collettivo

Chiave	Conteggio	Spiegazione
Veri positivi	2	Somma di TP per tutte le finalità
Falsi positivi	2	Somma di FP per tutte le finalità
Falsi negativi	2	Somma di FN per tutte le finalità

Precisione = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Ricordare = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

Punteggio F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Matrice di confusione

Una matrice confusione è una matrice N x N usata per la valutazione delle prestazioni del modello, dove N è il numero di finalità. La matrice confronta i tag effettivi con i tag stimati dal modello. Ciò offre una visione olistica del funzionamento del modello e dei tipi di errori che sta facendo.

È possibile usare la matrice confusione per identificare le finalità troppo vicine tra loro e spesso si verificano errori (ambiguità). In questo caso prendere in considerazione l'unione di queste finalità insieme. Se ciò non è possibile, prendere in considerazione l'aggiunta di altri esempi con tag di entrambe le finalità per consentire al modello di distinguere tra di esse.

È possibile calcolare le metriche di valutazione a livello di modello dalla matrice di confusione:

Il vero positivo del modello è la somma dei veri positivi per tutte le finalità.
Il falso positivo del modello è la somma dei falsi positivi per tutte le finalità.
Il valore false Negativo del modello è la somma di falsi negativi per tutte le finalità.

Passaggi successivi

Eseguire il training di un modello in Language Studio

Share via

Metriche di valutazione per i modelli del flusso di lavoro di orchestrazione

Esempio

Valutazione del livello di finalità per la finalità CLUEmail

Valutazione a livello di finalità per la finalità Di saluto

Valutazione a livello di modello per il modello collettivo

Matrice di confusione

Passaggi successivi

Risorse aggiuntive