Énoncés

Article
01/19/2024

Important

LUIS sera mis hors service le 1er octobre 2025 et à partir du 1er avril 2023, vous ne pourrez plus créer de nouvelles ressources LUIS. Nous vous recommandons de migrer vos applications LUIS vers la compréhension du langage courant pour tirer parti de la prise en charge continue des produits et des fonctionnalités multilingues.

Les énoncés sont des entrées des utilisateurs que votre application doit interpréter. Pour que LUIS apprenne à extraire des intentions et des entités à partir de ces entrées, il est important de capturer différents exemples d’énoncés pour chaque intention. L’apprentissage actif, ou le processus de continuer l’entraînement sur de nouveaux énoncés, est essentiel pour l’intelligence du machine learning que fournit LUIS.

Collectez des énoncés dont vous pensez que les utilisateurs les entreront. Incluez des énoncés qui signifient la même chose mais présentent des constructions différentes :

Longueur de l’énoncé : court, moyen et long pour votre application cliente
Longueur de mot et d’expression
Position des mots : entité au début, au milieu et à la fin de l’énoncé
Grammaire
Forme plurielle
Recherche de radical
Choix de nom et de verbe
Ponctuation : utilisation d’une grammaire correcte et incorrecte

Choisir des énoncés variés

Lorsque vous commencez à ajouter des exemples d’énoncés à votre modèle LUIS, vous devez garder à l’esprit plusieurs principes :

Les énoncés ne sont pas toujours correctement formés

Votre application peut avoir à traiter des phrases telles que « Me réserver un billet pour Paris » ou un fragment de phrase comme « Réservation » ou « Vol pour Paris ». Par ailleurs, les utilisateurs font souvent des fautes d’orthographe. Lorsque vous planifiez votre application, décidez si vous souhaitez utiliser ou non la Vérification orthographique Bing pour corriger l’entrée de utilisateur avant de la transmettre à LUIS.

Si vous décidez de ne pas vérifier l’orthographe des énoncés des utilisateurs, vous devez former LUIS sur des énoncés contenant des fautes de frappe et d’orthographe.

Utiliser la langue représentative de l’utilisateur

Lorsque vous choisissez des énoncés, n’oubliez pas que ce que vous pensez être un terme ou une expression courants pourrait ne pas l’être pour l’utilisateur de votre application cliente. Celui-ci n’a peut-être aucune expérience dans ce domaine ou utilise une terminologie différente. Soyez prudent lorsque vous utilisez des termes ou expressions que seul un utilisateur expert utiliserait.

Choisir une terminologie et des formulations variées

Vous constaterez que, même si vous vous efforcez de créer des modèles de phrase variés, vous continuerez à répéter certains termes. Par exemple, les énoncés suivants ont une signification similaire, mais utilisent une terminologie et une formulation différentes :

« Comment faire pour acheter un ordinateur ? »
« Où acheter un ordinateur ? »
« Je souhaite acheter un ordinateur, comment faire ? »
« Quand puis-je acheter un ordinateur ? »

Ici, le terme clé, ordinateur, n’a pas de variante. Utilisez des alternatives telles que « ordinateur de bureau », « ordinateur portable », « station de travail » ou même juste « machine ». LUIS peut déduire intelligemment des synonymes à partir du contexte, mais, lorsque vous créez des énoncés pour l’apprentissage, il est toujours préférable de les faire varier.

Exemples d’énoncés dans chaque intention

Chaque intention doit être associée à des exemples d’énoncés, au minimum 15. Si vous avez une intention dépourvue d’exemple d’énoncé, vous ne pouvez pas former LUIS. Si vous avez une intention avec un seul ou peu d’exemples d’énoncés, LUIS peut ne pas prédire l’intention avec précision.

Ajouter de petits groupes d’énoncés

Chaque fois que vous effectuez une itération sur votre modèle pour l’améliorer, n’ajoutez pas de grandes quantités d’énoncés. Vous devez ajouter des énoncés 15 par 15. Entraînez, publiez et testez à nouveau votre modèle ensuite.

LUIS génère des modèles efficaces avec des énoncés soigneusement sélectionnés par l’auteur du modèle LUIS. L’ajout d’un trop grand nombre d’énoncés n’est pas productif, car cela introduit de la confusion.

Il est préférable de commencer avec quelques énoncés, puis d’examiner les énoncés de point de terminaison pour vérifier le bon fonctionnement de la prédiction d’intention et de l’extraction d’entité.

Normalisation de l’énoncé

La normalisation de l’énoncé est le processus qui consiste à ignorer les effets des types de textes, comme la ponctuation et les signes diacritiques au cours de la formation et de la prédiction.

Les paramètres de normalisation de l’énoncé sont désactivés par défaut. Ces paramètres comprennent ce qui suit :

Formes des mots
Diacritiques
Ponctuation

Si vous activez le paramètre de normalisation, les scores dans le volet Test, les tests par lot et les requêtes de point de terminaison changent pour tous les énoncés pour ce paramètre de normalisation.

Lorsque vous clonez une version dans le portail LUIS, les paramètres de version sont conservés dans la nouvelle version clonée.

Définissez les paramètres de version de votre application à l’aide du portail LUIS en sélectionnant Gérer dans le menu de navigation supérieur, dans la page Paramètres de l’application. Vous pouvez également utiliser l’API de mise à jour des paramètres de la version. Pour plus d’informations, consultez la documentation de référence.

Formes des mots

La normalisation word forms (formes des mots) ignore les différences entre les mots qui se développent au-delà de leur racine.

Diacritiques

Les signes diacritiques sont des marques ou des signes dans le texte, par exemple :

İ ı Ş Ğ ş ğ ö ü

Signes de ponctuation

La normalisation de la ponctuation signifie qu’avant la formation de vos modèles et avant la prédiction de vos requêtes de point de terminaison, la ponctuation est retirée des énoncés.

La ponctuation est un jeton distinct dans LUIS. Un énoncé qui se termine par un point et un énoncé qui n’en comporte pas sont deux énoncés distincts. Ceux-ci sont susceptibles d’obtenir deux prédictions différentes.

Si la ponctuation n’est pas normalisée, LUIS n’ignore pas les marques de ponctuation, par défaut, car certaines applications clientes peuvent leur accorder une importance. Veillez à inclure des exemples d’énoncés incluant des signes de ponctuation, et d’autres sans, pour que les deux styles renvoient les mêmes scores relatifs.

Veillez à ce que le modèle gère la ponctuation soit dans les exemples d’énoncés (avec ou sans ponctuation), soit dans les modèles où il est plus facile d’ignorer la ponctuation. Par exemple : Je transmets ma candidature au poste de {Job}[.]

Si la ponctuation n’a aucune signification spécifique dans votre application cliente, vous pouvez ignorer les signes de ponctuation en normalisant la ponctuation.

Ignorer les mots et les signes de ponctuation

Si vous souhaitez ignorer des mots ou des signes de ponctuation spécifiques dans des modèles, utilisez un modèle avec la syntaxe ignore ou des crochets, [].

Formation avec tous les énoncés

L’entraînement n’est généralement pas déterministe : la prédiction d’énoncé peut varier légèrement selon la version ou l’application. Vous pouvez supprimer une formation non déterministe en mettant à jour l’API des paramètres de la version avec la paire nom-valeur UseAllTrainingData afin d’utiliser toutes les données d’entraînement.

Test des énoncés

Les développeurs doivent commencer à tester leur application LUIS avec des données réelles en envoyant des énoncés à l’URL du point de terminaison de prédiction. Ces énoncés sont utilisés pour améliorer les performances des intentions et des entités à l’aide d’un examen des énoncés. Les tests soumis à l’aide du volet de test dans le portail LUIS ne sont pas envoyés via le point de terminaison et ne contribuent pas à l’apprentissage actif.

Examen des énoncés

Une fois votre modèle formé et publié, et après réception des requêtes de point de terminaison, examinez les énoncés suggérés par LUIS. LUIS sélectionne sur le point de terminaison les énoncés qui présentent des scores bas en lien avec l’intention ou l’entité.

Meilleures pratiques

Étiquette pour la signification du mot

Si le choix des mots ou la disposition des mots est identique, mais que la signification est différente, n’utilisez pas l’entité pour l’étiqueter.

Dans les énoncés suivants, le mot moule est un homographe. Cela signifie qu’il est orthographié de la même manière, mais a une signification différente :

« Où acheter un moule à muffins ? »
« Où manger les meilleures moules marinières ? »

Si vous souhaitez qu’une entité d’événement recherche toutes les données d’événement, étiquetez le mot moule dans le premier énoncé, mais pas dans le second.

N’ignorez pas les variations d’énoncé possibles

LUIS attend des variations dans les énoncés d’une intention. Les énoncés peuvent différer (longueur, choix et place des mots notamment) tout en gardant la même signification générale.

N’utilisez pas le même format	Utilisez des formats variables
Acheter un billet pour Seattle	Acheter 1 billet pour Seattle
Acheter un billet pour Paris	Réserver deux sièges pour le vol de nuit à destination de Paris lundi prochain
Acheter un billet pour Orlando	J’aimerais réserver 3 billets pour Orlando pour les vacances de printemps

La deuxième colonne utilise des verbes différents (acheter, réserver), différentes quantités (1, « deux », 3) et des ordres de mots divers, mais tous les énoncés ont la même intention : acheter des billets d’avion pour un voyage.

N’ajoutez pas trop d’exemples d’énoncés aux intentions

Une fois l’application publiée, ajoutez seulement des énoncés à partir de l’apprentissage actif au processus de cycle de développement. S’ils sont trop proches, ajoutez un modèle.