Metriche di valutazione per i modelli del flusso di lavoro di orchestrazione
Il set di dati è suddiviso in due parti: un set per il training e un set di test. Il set di training viene usato per eseguire il training del modello, mentre il set di test viene usato come test per il modello dopo il training per calcolare le prestazioni e la valutazione del modello. Il set di test non viene introdotto al modello tramite il processo di training, per assicurarsi che il modello venga testato sui nuovi dati.
La valutazione del modello viene attivata automaticamente dopo il completamento del training. Il processo di valutazione inizia usando il modello sottoposto a training per stimare le finalità definite dall'utente per le espressioni nel set di test e li confronta con i tag forniti (che stabilisce una baseline di verità). I risultati vengono restituiti in modo da poter esaminare le prestazioni del modello. Per la valutazione, il flusso di lavoro di orchestrazione usa le metriche seguenti:
Precisione: misura la precisione/precisione del modello. È il rapporto tra i positivi identificati correttamente (veri positivi) e tutti i positivi identificati. La metrica di precisione rivela il numero di classi stimate etichettate correttamente.
Precision = #True_Positive / (#True_Positive + #False_Positive)
Richiamo: misura la capacità del modello di stimare le classi positive effettive. È il rapporto tra i veri positivi stimati e ciò che è stato effettivamente contrassegnato. La metrica di richiamo rivela il numero di classi stimate corrette.
Recall = #True_Positive / (#True_Positive + #False_Negatives)
Punteggio F1: il punteggio F1 è una funzione di precisione e richiamo. È necessario quando si cerca un equilibrio tra precisione e richiamo.
F1 Score = 2 * Precision * Recall / (Precision + Recall)
La precisione, il richiamo e il punteggio F1 vengono calcolati per:
- Ogni finalità separatamente (valutazione a livello di finalità)
- Per il modello collettivamente (valutazione a livello di modello).
Le definizioni di precisione, richiamo e valutazione sono uguali per le valutazioni a livello di finalità e a livello di modello. Tuttavia, i conteggi per true positivi, falsi positivi e falsi negativi possono essere diversi. Si consideri ad esempio il testo seguente.
Esempio
- Fare una risposta con grazie molto
- Chiama il mio amico
- Ciao
- Buongiorno
Queste sono le finalità usate: CLUEmail e Greeting
Il modello può effettuare le stime seguenti:
Espressione | Finalità stimata | Finalità effettiva |
---|---|---|
Fare una risposta con grazie molto | CLUEmail | CLUEmail |
Chiama il mio amico | Greeting (Messaggio introduttivo) | CLUEmail |
Ciao | CLUEmail | Greeting (Messaggio introduttivo) |
Buongiorno | Greeting (Messaggio introduttivo) | Greeting (Messaggio introduttivo) |
Valutazione del livello di finalità per la finalità CLUEmail
Chiave | Conteggio | Spiegazione |
---|---|---|
Veri positivi | 1 | L'espressione 1 è stata stimata correttamente come CLUEmail. |
Falsi positivi | 1 | L'espressione 3 è stata stimata erroneamente come CLUEmail. |
Falsi negativi | 1 | L'espressione 2 è stata stimata erroneamente come Saluto. |
Precisione = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Ricordare = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
Punteggio F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Valutazione a livello di finalità per la finalità Di saluto
Chiave | Conteggio | Spiegazione |
---|---|---|
Veri positivi | 1 | L'espressione 4 è stata stimata correttamente come Saluto. |
Falsi positivi | 1 | L'espressione 2 è stata stimata erroneamente come Saluto. |
Falsi negativi | 1 | L'espressione 3 è stata stimata erroneamente come CLUEmail. |
Precisione = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Ricordare = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
Punteggio F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Valutazione a livello di modello per il modello collettivo
Chiave | Conteggio | Spiegazione |
---|---|---|
Veri positivi | 2 | Somma di TP per tutte le finalità |
Falsi positivi | 2 | Somma di FP per tutte le finalità |
Falsi negativi | 2 | Somma di FN per tutte le finalità |
Precisione = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5
Ricordare = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5
Punteggio F1 = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Matrice di confusione
Una matrice confusione è una matrice N x N usata per la valutazione delle prestazioni del modello, dove N è il numero di finalità. La matrice confronta i tag effettivi con i tag stimati dal modello. Ciò offre una visione olistica del funzionamento del modello e dei tipi di errori che sta facendo.
È possibile usare la matrice confusione per identificare le finalità troppo vicine tra loro e spesso si verificano errori (ambiguità). In questo caso prendere in considerazione l'unione di queste finalità insieme. Se ciò non è possibile, prendere in considerazione l'aggiunta di altri esempi con tag di entrambe le finalità per consentire al modello di distinguere tra di esse.
È possibile calcolare le metriche di valutazione a livello di modello dalla matrice di confusione:
- Il vero positivo del modello è la somma dei veri positivi per tutte le finalità.
- Il falso positivo del modello è la somma dei falsi positivi per tutte le finalità.
- Il valore false Negativo del modello è la somma di falsi negativi per tutte le finalità.