Termes et définitions utilisés dans la classification de texte personnalisée

Article
12/19/2023

Utilisez cet article pour en savoir plus sur les définitions et les termes que vous pouvez rencontrer pendant l’utilisation de la classification de texte personnalisée.

Classe

Une classe est une catégorie définie par l’utilisateur, qui indique la classification générale du texte. Les développeurs étiquettent leurs données avec leurs classes avant de les transmettre au modèle pour l'apprentissage.

Score F1

Le score F1 est une fonction de précision et de rappel. Il est nécessaire quand vous recherchez un équilibre entre précision et rappel.

Modèle

Un modèle est un objet entraîné pour effectuer une tâche en particulier, dans ce cas, des classifications de texte personnalisées. Pour effectuer l’apprentissage du modèle, vous lui fournissez des données étiquetées qu’il apprend et qu’il utilise ensuite pour les tâches de classification.

L’apprentissage du modèle est le processus qui consiste à apprendre à votre modèle comment classifier des documents à partir de vos données étiquetées.
L’évaluation du modèle est le processus qui se produit juste après l’entraînement pour savoir si le modèle est performant.
Le déploiement est le processus qui consiste à affecter le modèle à un déploiement pour le rendre utilisable avec l’API de prédiction.

Precision

Mesure la précision, ou exactitude, de votre modèle. Il s’agit du rapport entre les positifs correctement identifiés (vrais positifs) et tous les positifs identifiés. La métrique de précision révèle le nombre de classes prédites qui sont correctement étiquetées.

Project

Un projet est une zone de travail qui vous permet de créer des modèles ML personnalisés en fonction de vos données. Vous et les autres personnes qui disposent d’un accès à la ressource Azure utilisée peuvent accéder à votre projet. Pour pouvoir créer un projet de classification de texte personnalisée, vous devez connecter votre ressource à un compte de stockage avec votre jeu de données quand vous créez un projet. Votre projet comprend automatiquement tous les fichiers .txt disponibles dans votre conteneur.

Dans votre projet, vous pouvez effectuer les opérations suivantes :

Étiquetage des données : processus d’étiquetage de vos données qui permet à votre modèle d’apprendre ce que vous voulez extraire dans le cadre de son apprentissage.
Création et apprentissage du modèle : étape principale de votre projet, où votre modèle commence à apprendre à partir de vos données étiquetées.
Voir les détails de l’évaluation du modèle : consultez les performances de votre modèle pour déterminer si des améliorations sont possibles ou si vous êtes satisfait des résultats.
Déploiement :après avoir vérifié les performances du modèle et conclu qu’il peut être exploité dans votre environnement, vous devez affecter votre modèle à un déploiement pour pouvoir l’interroger. Il sera ainsi utilisable avec l’API de prédiction.
Modèle de test : après le déploiement de votre modèle, vous pouvez utiliser cette opération dans Language Studio pour tester un modèle test de et voir le résultat en production.

Types de projet

La classification de texte personnalisée prend en charge deux types de projets

Classification avec une seule étiquette : vous pouvez attribuer une seule classe à chaque document de votre jeu de données. Par exemple, un script de film peut uniquement être classé comme « Romance » ou « Comedy ».
Classification avec plusieurs étiquettes : vous pouvez attribuer plusieurs classes à chaque document de votre jeu de données. Par exemple, un script de film peut être classé comme « Comedy » ou « Romance » et « Comedy ».

Rappel

Mesure la capacité du modèle à prédire les classes positives réelles. Il s’agit du rapport entre les vrais positifs prédits et ce qui a été réellement étiqueté. La métrique de rappel révèle le nombre de classes prédites correctes.