Reconnaissance de l’orateur

Article
08/04/2023

La reconnaissance de l’orateur Azure AI Services - Service Speech fournit des algorithmes qui vérifient et identifient les haut-parleurs en fonction de leurs caractéristiques vocales uniques. La reconnaissance de l’orateur est utilisée pour répondre à la question « Qui parle ? ». Plus d’informations

La voix présente des caractéristiques uniques qui peuvent être associées à un individu. Nous fournissons des API de vérification de l’orateur et des API d’identification de l’orateur pour deux applications majeures des technologies de reconnaissance de l’orateur.

Vérification de l’orateur

La vérification de l’orateur peut dépendre ou non du texte. La vérification dépendante du texte signifie que les orateurs doivent choisir une phrase secrète qu’ils utilisent dans les phases d’inscription et de vérification. La vérification du contenu vocal et de la signature vocale facilite un scénario de vérification multifacteur ; La vérification indépendante du texte signifie que les locuteurs peuvent parler dans le langage courant dans les phrases d’inscription et de vérification.

Vérification de l’orateur dépendant du texte

Dans la phase d’inscription de l’orateur, la voix de l’orateur est enregistrée en disant une phrase secrète à partir d’un ensemble d’expressions prédéfinies. Les fonctionnalités vocales sont extraites de l’enregistrement audio pour former une signature vocale unique tandis que la phrase secrète choisie est reconnue. Ensemble, la signature vocale et la phrase secrète seraient utilisées pour vérifier l’orateur.

Dans la phase de vérification, l’ID associé à la personne à vérifier est envoyé à l’API de vérification de l’orateur. Le service de vérification de l’orateur extrait les fonctionnalités vocales et la phrase secrète de l’enregistrement vocal d’entrée. Ensuite, il compare les fonctionnalités vocales et la phrase secrète au profil d’inscription de l’orateur correspondant.

La réponse retourne « Accept » ou « Reject » avec un score de similarité compris entre 0 et 1. La réponse « Accepter » ou « Rejeter » est un résultat combinant à la fois le résultat de vérification de l’orateur et le résultat de la reconnaissance vocale, tandis que le score de similarité mesure uniquement la similarité vocale. Nous renvoyons « Accepter » lorsque le résultat de la reconnaissance vocale correspond à la phrase d’inscription et que le score de similarité vocale est supérieur ou égal à 0,5. Toutefois, le résultat doit être déterminé en fonction du scénario et d’autres facteurs de vérification utilisés. Nous vous recommandons d’effectuer des expériences sur vos propres données et de déterminer votre seuil pour remplacer les réponses « Accepter » ou « Rejeter » le cas échéant.

Dans la version actuelle de l’API de vérification de l’orateur dépendante du texte, nous fournissons 10 expressions anglaises que les orateurs peuvent choisir.

Je vais lui faire une offre qu’il ne peut refuser.
Houston nous avons eu un problème.
Ma voix est mon passeport me vérifier.
Le jus de pomme a un goût drôle après le dentifrice.
Vous pouvez entrer sans votre mot de passe.
Vous pouvez activer le système de sécurité maintenant.
Ma voix est plus forte que les mots de passe.
Mon mot de passe n’est pas votre entreprise.
Mon nom vous est inconnu.
Soyez vous-même tout le monde est déjà pris »

Vous pouvez créer vos propres phrases secrètes en envoyant des requêtes distinctes à l’API de vérification de l’orateur indépendante du texte et à l’API de reconnaissance vocale. En combinant le résultat de vérification de l’orateur et le résultat de la reconnaissance vocale, vous pouvez déterminer l’identité de l’orateur.

Les API ne permettent pas de déterminer si la phrase examinée est prononcée par une personne en direct ou s’il s’agit d’une imitation ou de l’enregistrement de la voix d’un utilisateur inscrit. La génération d’expressions aléatoires à lire par l’orateur est considérée comme efficace pour empêcher les attaques par relecture.

Vérification de l’orateur indépendant du texte

La vérification de l’orateur peut également être indépendante du texte, ce qui signifie qu’il n’y a aucune restriction sur ce que l’orateur dit dans l’audio.

Dans la phase d’inscription, les fonctionnalités vocales sont extraites de l’audio d’un orateur pour former une signature vocale unique.

Pendant la phase de vérification, l’audio et l’ID associés à la personne à vérifier sont envoyés à l’API de vérification de l’orateur. Le service de vérification de l’orateur extrait les fonctionnalités vocales de l’enregistrement vocal d’entrée. Ensuite, il compare les fonctionnalités vocales à la signature vocale dans le profil d’inscription de l’orateur correspondant.

La réponse retourne « Accept » ou « Reject » avec un score de similarité compris entre 0 et 1. La réponse « Accepter » est retournée lorsque le score de similarité est supérieur ou égal à 0,5. Toutefois, le résultat doit être déterminé en fonction du scénario et d’autres facteurs de vérification utilisés. Nous vous recommandons d’effectuer des expériences sur vos propres données et de déterminer votre seuil pour remplacer la réponse « Accepter » ou « Rejeter » le cas échéant.

Identification de l’orateur

L’identification de l’orateur est la tâche de déterminer l’identité d’une voix inconnue parmi un ensemble d’orateurs candidats. L’API d’identification de l’orateur retourne une liste de « meilleures correspondances » en fonction des scores de similarité par rapport à une liste d’ID fournie. L’API d’identification de l’orateur est indépendante du texte, car elle ne compare pas ce qui a été dit lors de l’inscription et de la reconnaissance.

Identification de l’orateur indépendant du texte

L’inscription à l’identification de l’orateur est basée sur le texte, ce qui signifie qu’il n’existe aucune restriction sur le contenu récité par l’orateur dans le fichier audio. Aucune phrase secrète n’est requise. Lors de l’inscription, la voix de l’orateur est enregistrée et des caractéristiques vocales sont extraites pour former une signature vocale unique.

Lors de l’identification, le service Identification de l'orateur extrait les caractéristiques vocales de l’enregistrement vocal fourni. Ensuite, il compare les fonctionnalités aux signatures vocales dans les données d’inscription d’une liste spécifiée d’orateurs (jusqu’à 50 orateurs candidats dans chaque demande). La réponse comprenait un ID identifié et cinq ID les mieux classés avec des scores de similarité allant de 0 à 1. L’ID identifié est déterminé en fonction du score de similarité de l’orateur le mieux adapté. Si aucun des orateurs candidats ne retourne un score de similarité supérieur ou égal à 0,5, la réponse renvoie une chaîne de zéro pour représenter « aucune correspondance n’est trouvée ». Toutefois, le résultat doit être déterminé en fonction de votre scénario et d’autres facteurs utilisés. Nous vous recommandons de tester vos données et de déterminer votre seuil pour remplacer la correspondance ou aucune correspondance par défaut, comme il convient.

Voir aussi

Qu’est-ce que la reconnaissance de l’orateur ?