¿Qué es Speaker Recognition?

Artículo
01/21/2024

Speaker Recognition puede ayudar a determinar quién habla en un clip de audio. El servicio puede comprobar e identificar a los hablantes por sus características de voz únicas, mediante la biometría de voz.

Proporciona datos de entrenamiento de audio para un solo hablante, que crea un perfil de inscripción basado en las características únicas de la voz del hablante. A continuación, puede realizar una comprobación cruzada de las muestras de voz de audio en este perfil para comprobar que el hablante es la misma persona (verificación del hablante). También puede realizar una comprobación cruzada de las muestras de voz de audio en un grupo de perfiles de hablantes inscritos para ver si coincide con algún perfil del grupo (identificación del hablante).

Importante

Microsoft limita el acceso a Speaker Recognition. Puede solicitar usarlo mediante la revisión de acceso limitado para Speaker Recognition de servicios de Azure AI. Para obtener más información, consulte Acceso limitado para Speaker Recognition.

Comprobación del hablante

Speaker Verification simplifica el proceso de verificación de la identidad de un hablante inscrito con frases de contraseña o con una entrada de voz de forma libre. Por ejemplo, puede usarlo para la comprobación de identidad del cliente en centros de llamadas o acceso a instalaciones sin contacto.

¿Cómo funciona Speaker Verification?

El diagrama de flujo siguiente proporciona un objeto visual de cómo funciona:

Flowchart that shows how speaker verification works.

La verificación del hablante puede ser dependiente del texto o independiente del texto. En la verificación dependiente del texto, los hablantes deben elegir la misma frase de contraseña para usarla durante las fases de inscripción y verificación. En la verificación independiente del texto, los hablantes pueden hablar en el lenguaje cotidiano en las frases de inscripción y verificación.

En la verificación dependiente del texto, la voz del hablante se inscribe indicando una frase de contraseña de un conjunto de frases predefinidas. Las características de voz se extraen de la grabación de audio para formar una firma de voz única y también se reconoce la frase de contraseña seleccionada. Juntos, la firma de voz y la frase de contraseña se usan para verificar el hablante.

La verificación independiente del texto no tiene restricciones sobre lo que dice el hablante durante la inscripción, además de la frase de activación inicial cuando la inscripción activa está habilitada. No tiene ninguna restricción en la muestra de audio que se va a verificar, ya que solo extrae características de voz para puntuar la similitud.

Las API no están pensadas para determinar si el audio proviene de una persona de carne y hueso, una imitación o una grabación de un hablante inscrito.

Identificación del hablante

Speaker Identification ayuda a determinar la identidad de un hablante desconocido dentro de un grupo de hablantes inscritos. Speaker Identification permite atribuir voz a hablantes individuales y aprovechar el valor de escenarios con varios hablantes, como:

Soluciones de soporte técnico para la productividad en reuniones remotas.
Desarrollo de personalización de dispositivos multiusuario.

¿Cómo funciona Speaker Identification?

La inscripción para la identificación del hablante es independiente del texto. No hay ninguna restricción sobre lo que dice el hablante en el audio, además de la frase de activación inicial cuando la inscripción activa está habilitada. De forma similar a Speaker Verification, se graba la voz del hablante en la fase de inscripción y se extraen las características de voz para formar una firma de voz única. En la fase de identificación, la muestra de voz de entrada se compara con una lista especificada de voces inscritas (hasta 50 en cada solicitud).

Privacidad y seguridad de los datos

Los datos de inscripción de hablantes se almacenan en un sistema protegido, incluido el audio de voz para las características de inscripción y firma de voz. El audio de voz para la inscripción solo se utiliza cuando se actualiza el algoritmo y las características deben volver a extraerse. El servicio no conserva la grabación de voz ni las características de voz extraídas que se le envían durante la fase de reconocimiento.

Puede controlar cuánto tiempo se deben conservar los datos. Los clientes pueden crear, actualizar y quitar los datos de inscripción de un hablante mediante las llamadas API. Cuando se elimine la suscripción, todos los datos de inscripción del hablante asociados a la suscripción también se eliminan.

Al igual que sucede con todos los recursos de servicios de Azure AI, los desarrolladores que usan la característica Speaker Recognition deben estar al tanto de las directivas de Microsoft sobre los datos de los clientes. Debe asegurarse de haber recibido los permisos adecuados de los usuarios. Puede encontrar más detalles en Datos y privacidad de Speaker Recognition. Para más información, vea la página de servicios de Azure AI en Microsoft Trust Center.

Preguntas comunes y soluciones

Pregunta	Solución
¿En qué situaciones es más probable que use el reconocimiento del hablante?	Entre los ejemplos se incluye la verificación del cliente en el centro de llamadas, el registro de pacientes basado en la voz, la transcripción de reuniones y la personalización de dispositivos multiusuario.
¿Cuál es la diferencia entre la identificación y la verificación?	La identificación es el proceso de detectar qué miembro de un grupo de hablantes está hablando. La verificación es el acto de confirmar que un hablante coincide con una voz conocida, inscrita.
¿Qué idiomas se admiten?	Consulte Compatibilidad con el lenguaje de reconocimiento del hablante.
¿Qué regiones de Azure se admiten?	Consulte Compatibilidad con la región de reconocimiento del hablante.
¿Qué formatos de audio se admiten?	WAV con codificación PCM mono de 16 bits y 16 kHz.
¿Se puede inscribir a un hablante varias veces?	Sí, para la verificación dependiente del texto, puede inscribir a un hablante hasta 50 veces. En el caso de la verificación independiente del texto o la identificación del hablante, puede inscribirse con un máximo de 300 segundos de audio.
¿Qué datos se almacenan en Azure?	El audio de la inscripción se almacenará en el servicio hasta que el perfil de voz se elimine. Las muestras de audio de reconocimiento no se conservarán ni se almacenarán.

Inteligencia artificial responsable

Los sistemas de inteligencia artificial no solo incluyen la tecnología, sino también las personas que la usan, las que se ven afectadas por ella y el entorno en el que se implementan. Lea las notas sobre transparencia para obtener información sobre el uso responsable de la inteligencia artificial y la implementación en los sistemas.

Pasos siguientes

Inicio rápido spbre el reconocimiento de los altavoces