Termini e definizioni usati nella classificazione di testo personalizzata

Articolo
12/19/2023

Usare questo articolo per informazioni su alcune definizioni e termini che possono verificarsi quando si usa la classificazione del testo personalizzata.

Classe

Una classe è una categoria definita dall'utente che indica la classificazione complessiva del testo. Gli sviluppatori etichettano i dati con le relative classi prima di passarlo al modello per il training.

Punteggio F1

Il punteggio F1 è una funzione di precisione e richiamo. È necessario quando si cerca un equilibrio tra precisione e richiamo.

Modellare

Un modello è un oggetto sottoposto a training per eseguire una determinata attività, in questo caso attività di classificazione del testo. I modelli vengono sottoposti a training fornendo dati etichettati da cui apprendere in modo che possano essere usati in un secondo momento per le attività di classificazione.

Il training del modello è il processo di insegnare al modello come classificare i documenti in base ai dati etichettati.
La valutazione del modello è il processo che si verifica subito dopo il training per conoscere le prestazioni del modello.
La distribuzione è il processo di assegnazione del modello a una distribuzione per renderlo disponibile per l'uso tramite l'API di stima.

Precisione

Misura la precisione e l'accuratezza del modello. È il rapporto tra i positivi identificati correttamente (veri positivi) e tutti i positivi identificati. La metrica di precisione mostra quante classi stimate sono etichettate correttamente.

Project

Un progetto è un'area di lavoro per la creazione di modelli di Machine Learning personalizzati in base ai dati. È possibile accedere al progetto solo dall'utente e da altri utenti che hanno accesso alla risorsa di Azure usata. Come prerequisito per la creazione di un progetto di classificazione del testo personalizzato, è necessario connettere la risorsa a un account di archiviazione con il set di dati quando si crea un nuovo progetto. Il progetto include automaticamente tutti i .txt file disponibili nel contenitore.

All'interno del progetto è possibile eseguire le operazioni seguenti:

Etichettare i dati: processo di etichettatura dei dati in modo che, quando si esegue il training del modello, si apprenderà cosa si vuole estrarre.
Compilare ed eseguire il training del modello: il passaggio principale del progetto, in cui il modello inizia ad apprendere dai dati etichettati.
Visualizzare i dettagli di valutazione del modello: esaminare le prestazioni del modello per decidere se è disponibile spazio per il miglioramento o se si è soddisfatti dei risultati.
Distribuzione: dopo aver esaminato le prestazioni del modello e aver deciso che è adatta per essere usata nell'ambiente in uso; è necessario assegnarlo a una distribuzione per poterlo eseguire una query. L'assegnazione del modello a una distribuzione lo rende disponibile per l'uso tramite l'API di stima.
Modello di test: dopo la distribuzione del modello, è possibile usare questa operazione in Language Studio per provare la distribuzione e vedere come eseguire l'operazione nell'ambiente di produzione.

Tipi di progetto

La classificazione del testo personalizzata supporta due tipi di progetti

Classificazione con etichetta singola : è possibile assegnare una singola classe per ogni documento nel set di dati. Ad esempio, uno script di film può essere classificato solo come "Romanticismo" o "Commedia".
Classificazione con più etichette : è possibile assegnare più classi per ogni documento nel set di dati. Ad esempio, uno script di film può essere classificato come "Commedia" o "Romanticismo" e "Commedia".

Richiamo

Misura la capacità del modello di stimare le classi positive effettive. È il rapporto tra i veri positivi stimati e ciò che è stato effettivamente contrassegnato. La metrica di richiamo mostra quante classi stimate sono corrette.