Préparer des données et définir un schéma de classification de texte

Article
12/19/2023

Pour créer un modèle de classification de texte personnalisée, vous devez effectuer son apprentissage avec des données de qualité. Cet article explique comment sélectionner et préparer vos données, ainsi que définir un schéma. La définition du schéma est la première étape du cycle de vie de développement de projet. Elle définit les classes dans lesquelles votre modèle doit classer votre texte au moment de l’exécution.

Conception du schéma

Le schéma définit les classes dont vous avez besoin pour que votre modèle classe votre texte au moment de l’exécution.

Examiner et identifier : passez en revue les documents de votre jeu de données pour connaître leur structure et leur contenu, puis identifiez la manière dont vous souhaitez classer vos données.

Par exemple, si vous classez des tickets de support, vous pouvez avoir besoin des classes suivantes : problème de connexion, problème matériel, problème de connectivitéet demande d’équipement neuf.
Éviter toute ambiguïté dans les classes : une ambiguïté se produit lorsque les classes que vous spécifiez partagent une signification similaire. Plus votre schéma est ambigu, plus vous avez besoin de données étiquetées pour différencier les classes.

Par exemple, si vous classez des recettes alimentaires, elles peuvent être similaires à une étendue. Pour faire la différence entre une recette de dessert et une recette de plat principal, il peut être nécessaire d’étiqueter plus d’exemples pour aider votre modèle à faire la distinction entre les deux classes. Le fait de lever les ambiguïtés permet de gagner du temps et d’obtenir de meilleurs résultats.
Données hors de portée : lorsque vous utilisez votre modèle en production, pensez à ajouter une classe hors de portée à votre schéma si vous pensez que des documents n’appartiennent à aucune de vos classes. Ajoutez ensuite quelques documents à votre jeu de données à étiqueter comme étant hors périmètre. Le modèle peut apprendre à reconnaître les documents non pertinents et à prédire leurs étiquettes en conséquence.

Sélection de données

La qualité des données avec lesquelles vous entraînez votre modèle affecte considérablement ses performances.

Utilisez des données réelles qui reflètent l’espace des problèmes de votre domaine pour entraîner efficacement votre modèle. Vous pouvez utiliser des données synthétiques pour accélérer le processus d’entraînement initial du modèle. Toutefois, elles diffèrent probablement de vos données réelles et rendent le modèle moins efficace quand il est utilisé.
Équilibrez autant que possible la distribution de vos données sans trop vous éloigner de leur distribution réelle.
Utilisez des données diversifiées chaque fois que cela est possible pour éviter le surajustement de votre modèle. Une diversité moindre des données d’entraînement peut conduire votre modèle à apprendre de fausses corrélations qui n’existent peut-être pas dans les données réelles.
Évitez les documents dupliqués dans vos données. Les données dupliquées ont un effet négatif sur le processus d’entraînement ainsi que sur les métriques et les performances du modèle.
Tenez compte de la provenance de vos données. Si vous collectez les données auprès d’une personne, d’un service ou dans le cadre de votre scénario, le modèle risque probablement de manquer de la diversité nécessaire.

Notes

Si vos documents sont en plusieurs langues, sélectionnez l’option plusieurs langues lors de la création du projet, puis affectez à l’option langue la langue de la majorité de vos documents.

Préparation des données

En guise de prérequis à la création d’un projet de classification de texte personnalisée, vos données d’entraînement doivent être chargées sur un conteneur d’objets blob dans votre compte de stockage. Vous pouvez créer et charger des documents d’apprentissage directement à partir d’Azure ou via l’outil Explorateur Stockage Azure. L’outil Explorateur Stockage Azure vous permet de charger plus de données rapidement.

Vous ne pouvez utiliser que des fichiers .txt documents de texte personnalisé. Si vos données sont dans un autre format, vous pouvez utiliser la commande d’analyse CLUtils pour changer de format de fichier.

Vous pouvez charger un jeu de données annoté, ou charger un jeu non annoté et étiqueter vos données dans Language Studio.

Jeu de test

Lors de la définition du jeu de test, veillez à inclure des exemples de documents qui ne sont pas présents dans le jeu d’entraînement. La définition du jeu de tests est une étape importante pour calculer les performances du modèle. Vérifiez aussi que le jeu de tests inclut des documents qui représentent toutes les classes utilisées dans votre projet.

Étapes suivantes

Si vous ne l’avez pas encore fait, créez un projet de classification de texte personnalisée. Si vous utilisez une classification de texte personnalisée pour la première fois, suivez le guide de démarrage rapide afin de créer un exemple de projet. Vous pouvez également voir les spécifications du projet pour plus d’informations sur ce dont vous avez besoin pour créer un projet.