Qu’est-ce que la reconnaissance de l’orateur ?

Article
01/21/2024

La Reconnaissance de l’orateur est utilisée pour déterminer qui parle dans un clip audio. Le service peut vérifier et identifier les intervenants par leurs caractéristiques vocales uniques à l’aide de la biométrie vocale.

Vous fournissez des données d’entraînement audio pour un seul orateur, ce qui crée un profil d’inscription basé sur les caractéristiques uniques de la voix de l’orateur. Vous pouvez ensuite recouper les exemples de voix audio par rapport à ce profil pour vérifier que l’orateur est la même personne (vérification de l’orateur). Vous pouvez également recouper les exemples de voix audio par rapport à un groupe de profils d’intervenant inscrits pour voir s’ils correspondent au profil du groupe (identification de l’orateur).

Important

Microsoft limite l’accès à la Reconnaissance de l’orateur. Vous pouvez demander l’accès par le biais de la révision de l’accès limité à la reconnaissance de l’orateur Azure AI services. Pour plus d’informations, consultez Accès limité pour la Reconnaissance de l’orateur.

Vérification de l’orateur

La vérification de l’orateur simplifie le processus de vérification de l’identité d’un orateur inscrit avec des phrases secrètes ou une entrée vocale de forme libre. Par exemple, vous pouvez l’utiliser pour la vérification de l’identité du client dans les centres d’appels ou l’accès sans contact.

Fonctionnement du service Vérification de l’orateur

L’organigramme suivant illustre visuellement le fonctionnement du service :

Flowchart that shows how speaker verification works.

La vérification de l’orateur peut dépendre ou non du texte. La vérification dépendante du texte signifie que les orateurs doivent choisir une phrase secrète qu’ils utilisent dans les phases d’inscription et de vérification. La vérification indépendante du texte signifie que les orateurs peuvent utiliser le langage de tous les jours dans les phases d’inscription et de vérification.

Pour la vérification dépendante du texte, la voix de l’orateur est inscrite en prononçant une phrase secrète choisie dans un ensemble d’expressions prédéfinies. Les caractéristiques de la voix sont extraites de l’enregistrement audio pour constituer une signature vocale unique. La phrase secrète choisie par l’utilisateur est également reconnue. Conjointement, la signature vocale et la phrase secrète sont utilisées pour vérifier l’identité de l’orateur.

La vérification indépendante du texte n’a pas de restrictions sur ce que l’orateur affirme au cours de l’inscription, en plus de la phrase d’activation initiale quand l’inscription est activée. Il n’a aucune restriction sur l’échantillon audio à vérifier, car il extrait uniquement les fonctionnalités vocales pour noter la similarité.

Les API ne permettent pas de déterminer si la phrase examinée est prononcée par une personne en direct ou s’il s’agit d’une imitation ou de l’enregistrement de la voix d’un utilisateur inscrit.

Identification de l’orateur

L’identification de l’orateur vous aide à déterminer l’identité d’un orateur inconnu au sein d’un groupe d’orateurs inscrits. Elle vous permet d’attribuer un discours à des orateurs individuels et de générer plus de valeur dans les scénarios avec plusieurs orateurs, par exemple :

prise en charge des solutions pour la productivité des réunions à distance ;
création d’une personnalisation sur les appareils multiutilisateurs.

Fonctionnement du service Identification de l’orateur

L’inscription au service Identification de l’orateur est indépendante du texte. Aucune restriction n’est appliquée aux paroles prononcées par l’orateur dans l’échantillon audio, au-delà de la phrase d’activation initiale quand l’inscription est activée. Tout comme pour la vérification de l’orateur, la voix de l’orateur est enregistrée dans la phase d’inscription et ses caractéristiques vocales sont extraites pour former une signature vocale unique. Dans la phase d’identification, l’exemple de voix en entrée est comparé à une liste spécifiée de voix inscrites (jusqu’à 50 dans chaque demande).

Sécurité et confidentialité des données

Les données d’inscription de l’orateur sont stockées dans un système sécurisé, y compris le discours audio pour l’inscription et les caractéristiques de la signature vocale. Le discours audio pour l’inscription est utilisé seulement pendant la mise à niveau de l’algorithme, et les caractéristiques doivent être de nouveau extraites. Ce service ne conserve ni l’enregistrement vocal ni les caractéristiques vocales extraites qu’il envoie au service pendant la phase de reconnaissance.

Vous contrôlez la durée pendant laquelle les données doivent être conservées. Vous pouvez créer, mettre à jour et supprimer les données d’inscription de chaque orateur en effectuant des appels d’API. Lorsque l’abonnement est supprimé, toutes les données d’inscription de l’orateur associées à l’abonnement sont également supprimées.

Comme avec toutes les ressources Azure AI services, les développeurs utilisant la fonctionnalité de reconnaissance de l’orateur doivent connaître les politiques de Microsoft relatives aux données client. Vous devez vous assurer que vous avez reçu les autorisations appropriées de la part des utilisateurs. Vous trouverez plus d’informations sur les données et la confidentialité pour Reconnaissance de l’orateur. Pour en savoir plus, consultez la page Azure AI services dans le Centre de gestion de la confidentialité Microsoft.

Questions courantes et solutions

Question	Solution
Dans quelles situations ai-je le plus de chances d’utiliser le service Reconnaissance de l’orateur ?	La vérification des clients via un centre d’appels, l’enregistrement des patients basé sur la voix, la transcription des réunions, la personnalisation des appareils multi-utilisateurs sont de bons exemples.
Quelle est la différence entre l’identification et la vérification ?	L’identification est le processus de détection d’un membre du groupe d’orateurs. La vérification est l’acte qui consiste à confirmer qu’un orateur correspond à une voix inscrite connue.
Quelles sont les langues prises en charge ?	Consultez Prise en charge des langues pour le service Reconnaissance de l’orateur.
Quelles sont les régions Azure prises en charge ?	Consultez Prise en charge des régions pour le service Reconnaissance de l’orateur.
Quels formats audio sont pris en charge ?	WAV mono 16 bits, 16 kHz encodé en PCM.
Pouvez-vous inscrire plusieurs fois un orateur ?	Oui, pour la vérification dépendante du texte, vous pouvez inscrire un orateur jusqu’à 50 fois. Pour une vérification indépendante du texte ou une identification de l’orateur, vous pouvez vous inscrire avec un maximum de 300 secondes d’audio.
Quelles données sont stockées dans Azure ?	L’audio des inscriptions est stocké dans le service jusqu’à ce que le profil vocal soit supprimé. Les échantillons audio de reconnaissance ne sont pas conservés ou stockés.

Intelligence artificielle responsable

Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel il est déployé. Lisez les notes de transparence pour en savoir plus sur l’utilisation et le déploiement d’une IA responsable dans vos systèmes.

Étapes suivantes

Guide de démarrage rapide sur la reconnaissance de l’orateur