Qu’est-ce que la reconnaissance de mot clé ?

Article
01/21/2024

La reconnaissance de mot clé détecte un mot ou une phrase brève dans un flux de données audio. On parle également de détection de mot clé.

Le cas d’usage le plus courant de la reconnaissance de mot clé est l’activation vocale des assistants virtuels. Par exemple, « Hey Cortana » est le mot clé de l’assistant Cortana. Lors de la reconnaissance du mot clé, une action propre au scénario est effectuée. Pour les scénarios d’assistant virtuel, une action courante est la reconnaissance vocale de l’audio qui suit le mot clé.

En règle générale, les assistants virtuels sont toujours en train d’écouter. La reconnaissance de mot clé joue le rôle d’une limite de confidentialité pour l’utilisateur. Une exigence de mot clé agit comme un obstacle qui empêche l’audio utilisateur non lié de traverser l’appareil local pour atteindre le cloud.

Pour trouver l’équilibre entre précision, latence et complexité de calcul, la reconnaissance de mot clé est implémentée en tant que système en plusieurs étapes. Pour toutes les étapes au-delà de la première, l’audio est traité uniquement si l’étape qui précède reconnaît le mot clé en question.

Le système actuel est conçu avec plusieurs étapes qui couvrent la périphérie et le cloud :

Diagram that shows multiple stages of keyword recognition across the edge and cloud.

La précision de la reconnaissance de mot clé se mesure à l’aide des métriques suivantes :

Taux d’acceptations correctes : mesure la capacité du système à reconnaître le mot clé quand il est prononcé par un utilisateur final. Le taux d’acceptation correcte est également connu sous le nom de taux de vrai positifs.
Taux d’acceptations erronées : mesure la capacité du système à exclure l’audio qui ne correspond pas au mot clé prononcé par un utilisateur final. Le taux d’acceptation incorrecte est également connu sous le nom de taux de faux positifs.

L’objectif est d’optimiser le taux d’acceptations correctes tout en minimisant le taux d’acceptations erronées. Le système actuel est conçu pour détecter un mot clé ou une expression précédés d’un court silence. La détection d’un mot clé au milieu d’une phrase ou d’un énoncé n’est pas prise en charge.

Service Mot clé personnalisé pour des modèles sur appareil

Avec le portail Mot clé personnalisé sur Speech Studio, vous pouvez générer des modèles de reconnaissance de mot clé qui s’exécutent à la périphérie en spécifiant un mot ou une expression courte. Vous pouvez encore personnaliser votre modèle de mot clé en choisissant les bonnes prononciations.

Tarifs

Aucun coût n’est facturé pour l’utilisation du service Mot clé personnalisé pour générer des modèles, notamment les modèles De base et Avancé. L’exécution de modèles sur l’appareil avec le kit de développement logiciel (SDK) Speech est également gratuite lorsqu’elle est utilisée avec d’autres fonctionnalités du service Speech, telles que la reconnaissance vocale.

Types de modèles

Le service Mot clé personnalisé vous permet de générer deux types de modèles sur appareil pour tout mot clé.

Type de modèle	Description
De base	Adapté aux démonstrations ou prototypages rapides. Les modèles sont générés avec un modèle de base commun et peuvent nécessiter jusqu’à 15 minutes de préparation. Les caractéristiques de précision de ces modèles peuvent ne pas être optimales.
Avancé	Adapté à l’intégration des produits. Les modèles sont générés avec adaptation d’un modèle de base commun à l’aide de données d’entraînement simulées pour améliorer les caractéristiques de précision. La préparation de ces modèles peut prendre jusqu’à 48 heures.

Notes

Vous pouvez afficher la liste des régions qui prennent en charge le type de modèle Avancé dans la documentation de prise en charge dans les régions de la reconnaissance de mot clé.

Aucun de ces types de modèles ne vous oblige à charger des données d’entraînement. Le service Mot clé personnalisé gère entièrement la génération de données et l’entraînement du modèle.

Prononciations

Lorsque vous créez un modèle, le service Mot clé personnalisé génère automatiquement les prononciations possibles du mot clé fourni. Vous pouvez écouter chaque prononciation et choisir toutes les variantes qui représentent fidèlement la manière dont les utilisateurs finaux vont prononcer le mot clé. Toutes les autres prononciations ne doivent pas être sélectionnées.

Il est important de bien réfléchir aux prononciations que vous sélectionnez pour garantir les meilleures caractéristiques de précision. Par exemple, si vous choisissez plus de prononciations que nécessaire, vous pouvez obtenir des taux de faux positifs plus élevés. Si vous choisissez un nombre insuffisant de prononciations, qui ne couvre pas toutes les variantes attendues, vous risquez d’obtenir des taux d’acceptations correctes plus faibles.

Tester les modèles

Une fois que le service Mot clé personnalisé a généré des modèles sur appareil, vous pouvez tester les modèles directement sur le portail. Vous pouvez utiliser le portail pour parler directement dans votre navigateur et d’obtenir des résultats de reconnaissance de mot clé.

Vérification du mot clé

La vérification du mot clé est un service cloud qui réduit l’impact des acceptations erronées issues des modèles sur appareil à l’aide de modèles robustes s’exécutant sur Azure. Aucun réglage ni entraînement ne sont nécessaires pour que le service Vérification du mot clé fonctionne avec votre mot clé. Des mises à jour de modèles incrémentielles sont déployées en continu sur le service pour améliorer la précision et la latence, de façon transparente pour les applications clientes.

Tarifs

Le service Vérification du mot clé est toujours utilisé conjointement au service de reconnaissance vocale. La vérification de mot clé n’entraîne aucun coût d’utilisation supplémentaire au-delà du coût de la reconnaissance vocale.

Vérification du mot clé et reconnaissance vocale

Lorsqu’il est utilisé, le service Vérification du mot clé est toujours utilisé conjointement au service de reconnaissance vocale. Les deux services s’exécutent en parallèle, ce qui signifie que l’audio est envoyé aux deux services pour un traitement simultané.

Diagram that shows parallel processing of keyword verification and speech to text.

L’exécution en parallèle du service Vérification du mot clé et de la reconnaissance vocale offre les avantages suivants :

Aucune latence supplémentaire sur les résultats de reconnaissance vocale : l’exécution parallèle signifie que la vérification par mot clé n’ajoute aucune latence. Le client reçoit les résultats de reconnaissance vocale aussi rapidement. Si la vérification de mot clé détermine que le mot clé n’est pas présent dans l’audio, le traitement de la reconnaissance vocale est terminé. Cette action protège contre le traitement de reconnaissance vocale inutile. Le traitement du modèle cloud et du réseau augmente la latence de l’activation vocale perçue par l’utilisateur. Pour plus d’informations, consultez Recommandations et instructions.
Préfixe de mot clé forcé dans les résultats de la reconnaissance vocale : le traitement de la reconnaissance vocale garantit que les résultats envoyés au client sont préfixés avec le mot clé. Ce comportement permet une plus grande précision dans les résultats de la reconnaissance vocale pour ce qui est prononcé après le mot clé.
Délai d’expiration accru de la reconnaissance vocale : en raison de la présence attendue du mot clé en début d’audio, la reconnaissance vocale autorise une pause plus longue allant jusqu’à cinq secondes après le mot clé, avant de déterminer la fin de l’énoncé et l’arrêt du traitement de la reconnaissance vocale. Ce comportement garantit que l’expérience de l’utilisateur final est correctement gérée pour commandes intermédiaires (<keyword><pause><command>) et les commandes chaînées (<keyword><command>).

Réponses du service Vérification du mot clé et considérations sur la latence

Pour chaque demande qui lui est adressée, le service Vérification du mot clé retourne l’une des deux réponses suivantes : Accepté ou Rejeté. La latence du traitement varie en fonction de la longueur du mot clé et de la longueur du segment audio censé contenir le mot clé. La latence du traitement n’inclut pas le coût réseau entre le client et les services Speech.

Réponse du service Vérification du mot clé	Description
Accepté	Indique que le service a supposé que le mot clé était présent dans le flux audio fourni dans le cadre de la demande.
Rejeté	Indique que le service a supposé que le mot clé n’était pas présent dans le flux audio fourni dans le cadre de la demande.

Les cas rejetés produisent souvent des latences plus élevées, car le service traite plus d’audio que de cas acceptés. Par défaut, le service Vérification du mot clé va traiter un maximum de deux secondes d’audio pour rechercher le mot clé. Si le mot clé n’est pas trouvé en deux secondes, le service expire et signale une réponse rejetée au client.

Utilisation du service Vérification du mot clé avec des modèles sur appareil issus du service Mot clé personnalisé

Le kit de développement logiciel (SDK) Speech permet l’utilisation de modèles sur appareil générés à l’aide du service Mot clé personnalisé avec les services Vérification du mot clé et Reconnaissance vocale. Il gère de manière transparente ce qui suit :

Régulation de l’audio vers les services Vérification du mot clé et Reconnaissance vocale en fonction du résultat du modèle sur appareil.
Communication du mot clé à la vérification du mot clé.
Communication de toutes les métadonnées supplémentaires au cloud pour l’orchestration du scénario de bout en bout.

Vous n’avez pas besoin de spécifier explicitement des paramètres de configuration. Toutes les informations nécessaires sont automatiquement extraites du modèle sur appareil généré par le service Mot clé personnalisé.

Les échantillons et tutoriels dont les liens sont donnés ici montrent comment utiliser le SDK Speech :

Scénarios et intégration du SDK Speech

Le SDK Speech permet l’utilisation de modèles de reconnaissance de mots clés sur appareil personnalisés générés avec le service Mot clé personnalisé et la vérification du mot clé. Pour vous assurer que les besoins de votre produit peuvent être satisfaits, le kit de développement logiciel (SDK) prend en charge les deux scénarios suivants :

Scénario	Description	Exemples
Reconnaissance de mot clé de bout en bout avec la reconnaissance vocale	Adapté aux produits qui utilisent un modèle de mot clé sur appareil personnalisé, issu du service Mot clé personnalisé avec vérification du mot clé et reconnaissance vocale. Il s’agit du scénario le plus courant.	Exemple de code d’assistant vocal Tutoriel : Activation vocale de votre assistant créé à l’aide d’Azure AI Bot Service avec le Kit de développement logiciel (SDK) Speech C# Tutoriel : Création d’une application Commandes personnalisées avec des commandes vocales simples
Reconnaissance de mot clé hors connexion	Adapté aux produits sans connectivité réseau qui utilisent un modèle de mot clé sur appareil personnalisé issu du service Mot clé personnalisé.	Exemple C# sur la plateforme Windows universelle Exemple Java sur Android

Qu’est-ce que la reconnaissance de mot clé ?

Service Mot clé personnalisé pour des modèles sur appareil

Tarifs

Types de modèles

Prononciations

Tester les modèles

Vérification du mot clé

Tarifs

Vérification du mot clé et reconnaissance vocale

Réponses du service Vérification du mot clé et considérations sur la latence

Utilisation du service Vérification du mot clé avec des modèles sur appareil issus du service Mot clé personnalisé

Scénarios et intégration du SDK Speech

Étapes suivantes

Ressources supplémentaires