Reconnaissance de l’orateur

Le service Reconnaissance de l’orateur Azure cognitive service fournit des algorithmes qui vérifient et identifient les intervenants par leurs caractéristiques vocales uniques. Reconnaissance de l’orateur est utilisé pour répondre à la question « qui parle ? ». Plus d’informations

La voix présente des caractéristiques uniques qui peuvent être associées à un individu. Nous fournissons des API Vérification de l’orateur et des API Identification de l’orateur pour deux applications majeures de Reconnaissance de l’orateur technologies.

Vérification de l’orateur

La vérification de l’orateur peut dépendre ou non du texte. La vérification dépendante du texte signifie que les orateurs doivent choisir une phrase secrète qu’ils utilisent dans les phases d’inscription et de vérification. La vérification du contenu vocal et de la signature vocale facilite un scénario de vérification multifacteur. Une vérification indépendante du texte signifie que les orateurs peuvent parler dans le langage quotidien des phrases d’inscription et de vérification.

Vérification de l’orateur dépendant du texte

Dans la phase d’inscription de l’orateur, la voix de l’orateur est enregistrée en déclarant une phrase secrète d’un ensemble d’expressions prédéfinies. Les fonctionnalités vocales sont extraites de l’enregistrement audio pour former une signature vocale unique, tandis que la phrase secrète choisie est reconnue. Conjointement, la signature vocale et la phrase secrète sont utilisées pour vérifier l’orateur.

Au cours de la phase de vérification, l’ID associé à la personne à vérifier est envoyé à l’API de vérification de l’orateur. Le service de vérification de l’orateur extrait les fonctionnalités vocales et la phrase secrète à partir de l’enregistrement vocal d’entrée. Il compare ensuite les fonctionnalités vocales et la phrase secrète avec le profil d’inscription du conférencier correspondant.

La réponse renvoie « Accept » ou « Reject » avec un score de similarité compris entre 0 et 1. La réponse « accepter » ou « refuser » est un résultat qui combine le résultat de la vérification de l’orateur et le résultat de la reconnaissance vocale, tandis que le score de similarité mesure uniquement la similarité de la voix. Nous renvoyons « Accept » lorsque le résultat de la reconnaissance vocale correspond à la phrase d’inscription et que le score de similarité de la voix est supérieur ou égal à 0,5. Toutefois, le résultat doit être déterminé en fonction du scénario et d’autres facteurs de vérification utilisés. Nous vous recommandons d’expérimenter vos propres données et de déterminer votre seuil pour remplacer la réponse « accepter » ou « refuser » comme il convient.

Dans la version actuelle de l’API de vérification de l’orateur dépendant du texte, nous fournissons 10 phrases en anglais pour les intervenants.

  • Je vais lui faire une offre qu’il ne peut pas refuser.
  • Houston, nous avons rencontré un problème.
  • Ma voix est mon compte de vérification de Passport.
  • Les goûts de jus d’Apple sont amusants après dentifrice.
  • Vous pouvez vous procurer sans votre mot de passe.
  • Vous pouvez activer le système de sécurité maintenant.
  • Ma voix est plus puissante que les mots de passe.
  • Mon mot de passe n’est pas votre entreprise.
  • Mon nom est inconnu.
  • Vous êtes tout le monde déjà utilisé»

Vous pouvez créer vos propres phrases secrètes en envoyant des demandes distinctes à l’API de vérification de l’orateur indépendant du texte et à l’API de reconnaissance vocale. En combinant le résultat de vérification de l’orateur et le résultat de la reconnaissance vocale, vous pouvez déterminer l’identité de l’orateur.

Les API ne permettent pas de déterminer si la phrase examinée est prononcée par une personne en direct ou s’il s’agit d’une imitation ou de l’enregistrement de la voix d’un utilisateur inscrit. La génération d’expressions aléatoires pour le conférencier à lire est considérée comme effective pour empêcher les attaques par relecture.

Vérification de l’orateur indépendant du texte

Vérification de l’orateur peut également être indépendant du texte, ce qui signifie qu’il n’y a aucune restriction sur ce que l’orateur dit dans l’audio.

Dans la phase d’inscription, les fonctionnalités vocales sont extraites de l’audio d’un conférencier pour former une signature vocale unique.

Au cours de la phase de vérification, l’audio et l’ID associés à la personne à vérifier sont envoyés à l’API de vérification de l’orateur. Le service de vérification de l’orateur extrait les fonctionnalités vocales de l’enregistrement vocal en entrée. Il compare ensuite les fonctionnalités vocales à la signature vocale dans le profil d’inscription du conférencier correspondant.

La réponse renvoie « Accept » ou « Reject » avec un score de similarité compris entre 0 et 1. La réponse « accepter » est retournée lorsque le score de similarité est supérieur ou égal à 0,5. Toutefois, le résultat doit être déterminé en fonction du scénario et d’autres facteurs de vérification utilisés. Nous vous recommandons d’expérimenter vos propres données et de déterminer votre seuil pour remplacer la réponse « accepter » ou « refuser » comme il convient.

Les API ne permettent pas de déterminer si la phrase examinée est prononcée par une personne en direct ou s’il s’agit d’une imitation ou de l’enregistrement de la voix d’un utilisateur inscrit.

Identification de l’orateur

L’identification de l’orateur est la tâche consistant à déterminer l’identité d’une voix inconnue parmi un ensemble d’orateurs candidats. Le API d’identification de l’orateur retourne une liste de « meilleures correspondances » en fonction des scores de similarité par rapport à une liste fournie d’ID. Le API d’identification de l’orateur est indépendant du texte, car il ne compare pas ce qui a été dit lors de l’inscription et de la reconnaissance.

Identification de l’orateur indépendant du texte

L’inscription à l’identification de l’orateur est basée sur le texte, ce qui signifie qu’il n’existe aucune restriction sur le contenu récité par l’orateur dans le fichier audio. Aucune phrase secrète n’est requise. Lors de l’inscription, la voix de l’orateur est enregistrée et des caractéristiques vocales sont extraites pour former une signature vocale unique.

Lors de l’identification, le service Identification de l'orateur extrait les caractéristiques vocales de l’enregistrement vocal fourni. Il compare ensuite les fonctionnalités aux signatures vocales dans les données d’inscription d’une liste spécifiée d’intervenants (jusqu’à 50 intervenants pour chaque demande). La réponse incluait un ID identifié et cinq ID classés par ordre croissant avec des scores de similarité allant de 0 à 1. L’ID identifié est déterminé en fonction du score de similarité de l’intervenant le mieux adapté. Si aucun des orateurs candidats ne retourne un score de similarité supérieur ou égal à 0,5, la réponse retourne une chaîne de zéro pour représenter « aucune correspondance n’est trouvée ». Toutefois, le résultat doit être déterminé en fonction de votre scénario et d’autres facteurs qui sont utilisés. Nous vous recommandons de faire des essais avec vos données et de déterminer votre seuil pour remplacer la « correspondance ou aucune correspondance » par défaut.

Les API ne permettent pas de déterminer si la phrase examinée est prononcée par une personne en direct ou s’il s’agit d’une imitation ou de l’enregistrement de la voix d’un utilisateur inscrit.

Voir aussi