¿Qué es Speaker Recognition?What is Speaker Recognition?

El servicio Speaker Recognition proporciona algoritmos que comprueban e identifican a los hablantes por sus características de voz únicas mediante la biometría de la voz.The Speaker Recognition service provides algorithms that verify and identify speakers by their unique voice characteristics using voice biometry. Speaker Recognition se usa para responder a la pregunta "¿quién está hablando?".Speaker Recognition is used to answer the question “who is speaking?”. Proporciona datos de entrenamiento de audio para un solo hablante, que crea un perfil de inscripción basado en las características únicas de la voz del hablante.You provide audio training data for a single speaker, which creates an enrollment profile based on the unique characteristics of the speaker's voice. Después, puede realizar una comprobación cruzada de los ejemplos de voz de audio con respecto a este perfil para comprobar que el hablante es la misma persona (verificación del hablante) o muestras de voz de audio de una consulta cruzada en un grupo de perfiles de altavoz inscritos, para ver si coincide con algún perfil del grupo (identificación del hablante).You can then cross-check audio voice samples against this profile to verify that the speaker is the same person (speaker verification), or cross-check audio voice samples against a group of enrolled speaker profiles, to see if it matches any profile in the group (speaker identification). Por el contrario, Speaker Diarization agrupa segmentos de audio por hablante en una operación por lotes.In contrast, Speaker Diarization groups segments of audio by speaker in a batch operation.

Verificación del hablanteSpeaker Verification

Speaker Verification simplifica el proceso de verificación de la identidad de un hablante inscrito con frases de contraseña o con una entrada de voz de forma libre.Speaker Verification streamlines the process of verifying an enrolled speaker identity with either passphrases or free-form voice input. Se puede usar para comprobar que los usuarios tienen compromisos de cliente seguros y sin problemas en una amplia gama de soluciones, desde la verificación de la identidad del cliente en los centros de llamadas hasta el acceso a la instalación sin conexión.It can be used to verify individuals for secure, frictionless customer engagements in a wide range of solutions, from customer identity verification in call centers to contact-less facility access.

¿Cómo funciona Speaker Verification?How does Speaker Verification work?

Diagrama de flujo de Speaker Verification.

La verificación del hablante puede ser dependiente del texto o independiente del texto.Speaker verification can be either text-dependent or text-independent. En la verificación dependiente del texto, los hablantes deben elegir la misma frase de contraseña para usarla durante las fases de inscripción y comprobación.Text-dependent verification means speakers need to choose the same passphrase to use during both enrollment and verification phases. En la verificación independiente del texto, los hablantes pueden hablar en el lenguaje cotidiano en las frases de inscripción y comprobación.Text-independent verification means speakers can speak in everyday language in the enrollment and verification phrases.

En la verificación dependiente del texto, la voz del hablante se inscribe indicando una frase de contraseña de un conjunto de frases predefinidas.For text-dependent verification, the speaker's voice is enrolled by saying a passphrase from a set of predefined phrases. Las características de voz se extraen de la grabación de audio para formar una firma de voz única, mientras que también se reconoce la frase de contraseña seleccionada.Voice features are extracted from the audio recording to form a unique voice signature, while the chosen passphrase is also recognized. Juntos, la firma de voz y la frase de contraseña se usan para verificar el hablante.Together, the voice signature and the passphrase are used to verify the speaker.

La verificación independiente del texto no tiene restricciones en lo que el hablante indica durante la inscripción o en la muestra de audio que se va a verificar, ya que solo extrae características de voz para puntuar la similitud.Text-independent verification has no restrictions on what the speaker says during enrollment or in the audio sample to be verified, as it only extracts voice features to score similarity.

Las API no están pensadas para determinar si el audio proviene de una persona de carne y hueso, una imitación o una grabación de un hablante inscrito.The APIs are not intended to determine whether the audio is from a live person or an imitation/recording of an enrolled speaker.

Identificación del hablanteSpeaker Identification

Speaker Identification se usa para determinar la identidad de un hablante desconocido dentro de un grupo de hablantes inscritos.Speaker Identification is used to determine an unknown speaker’s identity within a group of enrolled speakers. Speaker Identification permite atribuir voz a hablantes individuales y aprovechar el valor de escenarios con varios hablantes, como:Speaker Identification enables you to attribute speech to individual speakers, and unlock value from scenarios with multiple speakers, such as:

  • Soluciones de soporte técnico para la productividad en reuniones remotasSupport solutions for remote meeting productivity
  • Desarrollo de personalización de dispositivos multiusuarioBuild multi-user device personalization

¿Cómo funciona Speaker Identification?How does Speaker Identification work?

La inscripción para la identificación del hablante no depende del texto, lo que significa que no hay restricciones con respecto a lo que el hablante dice en el audio.Enrollment for speaker identification is text-independent, which means that there are no restrictions on what the speaker says in the audio. De forma similar a Speaker Verification, en la fase de inscripción, se graba la voz del hablante y se extraen las características de voz para formar una firma de voz única.Similar to Speaker Verification, in the enrollment phase the speaker's voice is recorded, and voice features are extracted to form a unique voice signature. En la fase de identificación, la muestra de voz de entrada se compara con una lista especificada de voces inscritas (hasta 50 en cada solicitud).In the identification phase, the input voice sample is compared to a specified list of enrolled voices (up to 50 in each request).

Privacidad y seguridad de los datosData security and privacy

Los datos de inscripción de hablantes se almacenan en un sistema protegido, incluido el audio de voz para las características de inscripción y firma de voz.Speaker enrollment data is stored in a secured system, including the speech audio for enrollment and the voice signature features. El audio de voz para la inscripción solo se utiliza cuando se actualiza el algoritmo y las características deben volver a extraerse.The speech audio for enrollment is only used when the algorithm is upgraded, and the features need to be extracted again. El servicio no conserva la grabación de voz ni las características de voz extraídas que se le envían durante la fase de reconocimiento.The service does not retain the speech recording or the extracted voice features that are sent to the service during the recognition phase.

Puede controlar cuánto tiempo se deben conservar los datos.You control how long data should be retained. Los clientes pueden crear, actualizar y quitar los datos de inscripción de un hablante mediante las llamadas API.You can create, update, and delete enrollment data for individual speakers through API calls. Cuando se elimine la suscripción, todos los datos de inscripción del hablante asociados a la suscripción también se eliminarán.When the subscription is deleted, all the speaker enrollment data associated with the subscription will also be deleted.

Al igual que sucede con todos los recursos de Cognitive Services, los desarrolladores que usan el servicio Speaker Recognition deben estar al tanto de las directivas de Microsoft sobre los datos de los clientes.As with all of the Cognitive Services resources, developers who use the Speaker Recognition service must be aware of Microsoft's policies on customer data. Debe asegurarse de haber recibido los permisos adecuados de los usuarios para Speaker Recognition.You should ensure that you have received the appropriate permissions from the users for Speaker Recognition. Para obtener más información, vea la  página de Cognitive Services  en Microsoft Trust Center.For more information, see the Cognitive Services page on the Microsoft Trust Center.

Preguntas comunes y solucionesCommon questions and solutions

PreguntaQuestion SoluciónSolution
¿Para qué escenarios se puede usar Speaker Recognition?What scenarios can Speaker Recognition be used for? Verificación del cliente del centro de llamadas, registro de pacientes basado en la voz, transcripción de reuniones y personalización de dispositivos multiusuario.Call center customer verification, voice-based patient check-in, meeting transcription, multi-user device personalization
¿Cuál es la diferencia entre la identificación y la verificación?What is the difference between Identification and Verification? La identificación es el proceso de detectar qué miembro de un grupo de hablantes está hablando.Identification is the process of detecting which member from a group of speakers is speaking. La verificación es el acto de confirmar que un hablante coincide con una voz conocida o inscrita.Verification is the act of confirming that a speaker matches a known, or enrolled voice.
¿Qué diferencia hay entre las comprobaciones dependiente e independiente del texto?What's the difference between text-dependent and text-independent verification? La verificación dependiente del texto requiere una frase de contraseña específica para la inscripción y el reconocimiento.Text-dependent verification requires a specific pass-phrase for both enrollment and recognition. La verificación independiente del texto requiere una muestra de voz más larga para la inscripción, pero se puede decir cualquier cosa, incluso durante el reconocimiento.Text-independent verification requires a longer voice sample for enrollment, but anything can be spoken, including during recognition.
¿Qué idiomas se admiten?What languages are supported? Inglés, francés, español, chino, alemán, italiano, japonés y portugués.English, French, Spanish, Chinese, German, Italian, Japanese and Portuguese
¿Qué regiones de Azure se admiten?What Azure regions are supported? Speaker Recognition es un servicio en versión preliminar y actualmente solo está disponible en la región Oeste de EE. UU.Speaker Recognition is a preview service, and currently only available in the West US region.
¿Qué formatos de audio se admiten?What audio formats are supported? WAV de 16 bits en mono a 16 kHz con codificación PCM.Mono 16 bit, 16kHz PCM-encoded WAV
Las respuestas Aceptar y Rechazar no son precisas. ¿Cómo se ajusta el umbral?Accept and Reject responses aren't accurate, how do you tune the threshold? Dado que el umbral óptimo varía en gran medida con los diferentes escenarios, la API toma una decisión basándose simplemente en un umbral predeterminado de 0,5.Since the optimal threshold varies highly with scenarios, the API decides whether to “Accept” or “Reject” simply based on a default threshold of 0.5. Se recomienda a los usuarios avanzados invalidar la decisión predeterminada y ajustar el resultado en función de su propio escenario.Advanced users are advised to override the default decision and fine tune the result based on your own scenario.
¿Se puede inscribir a un hablante varias veces?Can you enroll one speaker multiple times? Sí, para la verificación dependiente del texto, puede inscribir a un hablante hasta 50 veces.Yes, for text-dependent verification, you can enroll a speaker up to 50 times. En el caso de la verificación independiente del texto o la identificación del hablante, puede inscribirse con un máximo de 300 segundos de audio.For text-independent verification or speaker identification, you can enroll with up to 300 seconds of audio.
¿Qué datos se almacenan en Azure?What data is stored in Azure? El audio de la inscripción se almacenará en el servicio hasta que el perfil de voz se elimine.Enrollment audio is stored in the service until the voice profile is deleted. Las muestras de audio de reconocimiento no se conservarán ni se almacenarán.Recognition audio samples are not retained or stored.

Pasos siguientesNext steps

  • Complete la lectura del artículo sobre conceptos básicos de Speaker Recognition para realizar una revisión de los modelos de diseño comunes que puede usar en sus aplicaciones.Complete the Speaker Recognition basics article for a run-through of common design patterns you can use in your applications.
  • Consulte el tutorial de vídeo para la verificación del hablante independiente del texto.See the video tutorial for text-independent speaker verification.