Speaker RecognitionSpeaker Recognition

El servicio de Speaker Recognition de servicio cognitiva de Azure proporciona algoritmos que comprueban e identifican los oradores por sus características de voz únicas.The Azure Cognitive Service Speaker Recognition service provides algorithms that verify and identify speakers by their unique voice characteristics. Speaker Recognition se usa para responder a la pregunta "¿quién está hablando?".Speaker Recognition is used to answer the question "who is speaking?". Más información.Learn more.

La voz tiene características únicas que se pueden asociar con una persona.Voice has unique characteristics that can be associated with an individual. Proporcionamos Speaker Verification API y Speaker Identification API para dos aplicaciones principales de Speaker Recognition Technologies.We provide Speaker Verification APIs and Speaker Identification APIs for two major applications of Speaker Recognition technologies.

Verificación del hablanteSpeaker Verification

La verificación del hablante puede ser dependiente del texto o independiente del texto.Speaker verification can be either text-dependent or text-independent. En la verificación dependiente del texto, los hablantes deben elegir la misma frase de contraseña para usarla durante las fases de inscripción y comprobación.Text-dependent verification means speakers need to choose the same passphrase to use during both enrollment and verification phases. La comprobación del contenido de voz y de la firma de voz facilita un escenario de comprobación de varios factores; La comprobación independiente del texto significa que los oradores pueden hablar en el idioma cotidiano en las frases de inscripción y comprobación.The verification of both speech content and voice signature facilitates a multi-factor verification scenario; Text-independent verification means speakers can speak in everyday language in the enrollment and verification phrases.

Speaker Verification dependiente del textoText Dependent Speaker Verification

En la fase de inscripción de orador, la voz del orador se graba diciendo una frase de contraseña de un conjunto de frases predefinidas.In the speaker enrollment phase, the speaker's voice is recorded by saying a passphrase from a set of predefined phrases. Las características de voz se extraen de la grabación de audio para formar una firma de voz única mientras se reconoce la frase de contraseña seleccionada.Voice features are extracted from the audio recording to form a unique voice signature while the chosen passphrase is recognized. Juntos, la firma de voz y la frase de contraseña se utilizarían para comprobar el altavoz.Together, the voice signature and the passphrase would be used to verify the speaker.

En la fase de comprobación, el identificador asociado con la persona que se va a comprobar se envía a la API de comprobación de altavoces.In the verification phase, the ID associated with the individual to be verified is sent to the speaker verification API. El servicio de comprobación de altavoces extrae características de voz y la frase de contraseña de la grabación de voz de entrada.The speaker verification service extracts voice features and the passphrase from the input speech recording. A continuación, compara las características de voz y la frase de contraseña con el perfil de inscripción del altavoz correspondiente.Then it compares the voice features and the passphrase against the enrollment profile of the corresponding speaker.

La respuesta devuelve "Accept" o "Reject" con una puntuación de similitud comprendida entre 0 y 1.The response returns "Accept" or "Reject" with a similarity score ranging from 0 to 1. La respuesta "Aceptar" o "rechazar" es un resultado que combina el resultado de la comprobación del altavoz y el resultado del reconocimiento de voz, mientras que la puntuación de similitud solo mide la similitud de la voz.The "Accept" or "Reject" response is a result combining both the speaker verification result and speech recognition result, while the similarity score only measures the voice similarity. Devolvemos "Accept" cuando el resultado del reconocimiento de voz coincide con la frase de inscripción y la puntuación de similitud de voz es mayor o igual que 0,5.We return "Accept" when the speech recognition result matches the enrollment phrase and the voice similarity score is greater or equal to 0.5. Sin embargo, el resultado se debe determinar según el escenario y otros factores de comprobación que se estén usando.However, the result should be determined based on the scenario and other verification factors that are being used. Se recomienda experimentar con sus propios datos y determinar el umbral para invalidar la respuesta "Aceptar" o "rechazar" según corresponda.We recommend you experiment on your own data and determine your threshold to override "Accept" or "Reject" response as appropriate.

En la versión actual de la API de comprobación de altavoces dependiente de texto, se proporcionan 10 frases inglesas para los altavoces entre los que elegir.In current version of text-dependent speaker verification API, we provide 10 English phrases for the speakers to choose from.

  • Voy a hacer una oferta que no puede rechazar.I am going to make him an offer he cannot refuse.
  • Houston hemos tenido un problema.Houston we have had a problem.
  • Mi voz es mi Passport compruébelo.My voice is my passport verify me.
  • Un gusto de zumo de manzana es divertido después de Toothpaste.Apple juice tastes funny after toothpaste.
  • Puede entrar sin su contraseña.You can get in without your password.
  • Puede activar el sistema de seguridad ahora.You can activate security system now.
  • La voz es más segura que las contraseñas.My voice is stronger than passwords.
  • Mi contraseña no es su empresa.My password is not your business.
  • Mi nombre es desconocido.My name is unknown to you.
  • Sea usted quien ya haya tomado todo el mundo.Be yourself everyone else is already taken"

Puede crear sus propias frases de contraseña enviando solicitudes independientes a la API de comprobación de altavoces independiente del texto y a la API de voz a texto.You can create your own passphrases by sending separate requests to the text-independent speaker verification API and speech-to-text API. Al combinar el resultado de la comprobación del altavoz y el resultado del reconocimiento de voz, puede determinar la identidad del orador.Combining the speaker verification result and speech recognition result, you can determine the speaker's identity.

Las API no están pensadas para determinar si el audio proviene de una persona de carne y hueso, una imitación o una grabación de un hablante inscrito.The APIs are not intended to determine whether the audio is from a live person or an imitation or a recording of an enrolled speaker. La generación de frases aleatorias para el hablante de lectura se considera efectiva para evitar ataques de reproducción.Generating random phrases for the speaker to read is considered effective to prevent replay attack.

Speaker Verification de texto independienteText Independent Speaker Verification

Speaker Verification también puede ser independiente del texto, lo que significa que no hay ninguna restricción sobre lo que el hablante dice en el audio.Speaker Verification can also be text-independent, which means that there are no restrictions on what the speaker says in the audio.

En la fase de inscripción, las características de voz se extraen del audio de un orador para formar una firma de voz única.In the enrollment phase, voice features are extracted from a speaker's audio to form a unique voice signature.

En la fase de comprobación, el audio y el ID. asociados al individuo que se va a comprobar se envían a la API de comprobación de altavoces.In the verification phase, the audio and the ID associated with the individual to be verified are sent to the speaker verification API. El servicio de comprobación de altavoces extrae características de voz de la grabación de voz de entrada.The speaker verification service extracts voice features from the input speech recording. A continuación, compara las características de voz con la firma de voz en el perfil de inscripción del altavoz correspondiente.Then it compares the voice features against the voice signature in enrollment profile of the corresponding speaker.

La respuesta devuelve "Accept" o "Reject" con una puntuación de similitud comprendida entre 0 y 1.The response returns "Accept" or "Reject" with a similarity score ranging from 0 to 1. Se devuelve la respuesta "Accept" cuando la puntuación de similitud es mayor o igual que 0,5.The "Accept" response is returned when the similarity score is greater or equal to 0.5. Sin embargo, el resultado se debe determinar según el escenario y otros factores de comprobación que se estén usando.However, the result should be determined based on the scenario and other verification factors that are being used. Se recomienda experimentar con sus propios datos y determinar el umbral para invalidar la respuesta "Aceptar" o "rechazar" según corresponda.We recommend you experiment on your own data and determine your threshold to override "Accept" or "Reject" response as appropriate.

Las API no están pensadas para determinar si el audio proviene de una persona de carne y hueso, una imitación o una grabación de un hablante inscrito.The APIs are not intended to determine whether the audio is from a live person or an imitation or a recording of an enrolled speaker.

Identificación del hablanteSpeaker Identification

La identificación del hablante es la tarea de determinar la identidad de una voz desconocida entre un conjunto de oradores candidatos.Speaker identification is the task of determining the identity of an unknown voice among a set of candidate speakers. El Speaker Identification API devuelve una lista de "mejores coincidencias" en función de las puntuaciones de similitud con una lista de identificadores proporcionada.The Speaker Identification API returns a list of "best matches" based on the similarity scores against a provided list of IDs. El Speaker Identification API es independiente del texto ya que no compara lo que se dijo en la inscripción y el reconocimiento.The Speaker Identification API is text-independent as it does not compare what was said at the enrollment and recognition.

Speaker Identification de texto independienteText Independent Speaker Identification

La inscripción para la identificación del hablante depende del texto, lo que significa que no hay restricciones con respecto a lo que el hablante dice en el audio.Enrollment for speaker identification is text-independent, which means that there are no restrictions on what the speaker says in the audio. No se requiere ninguna frase de contraseña.No passphrase is required. En la fase de inscripción, se graba la voz del hablante y se extraen las características de voz para formar una firma de voz única.In the enrollment phase, the speaker's voice is recorded, and voice features are extracted to form a unique voice signature.

En la fase de identificación, el servicio de identificación del hablante extrae las características de voz de la grabación de voz de entrada.In the identification phase, the speaker identification service extracts voice features from the input speech recording. A continuación, compara las características con las firmas de voz en los datos de inscripción de una lista especificada de altavoces (hasta 50 candidatos para cada solicitud).Then it compares the features against the voice signatures in the enrollment data of a specified list of speakers (up to 50 candidate speakers in each request). La respuesta incluye un identificador identificado y cinco identificadores de puntuación superior con puntuaciones de similitud que van de 0 a 1.The response included one identified ID and five top-ranked IDs with similarity scores ranging from 0 to 1. El identificador identificado se determina en función de la puntuación de similitud del orador que mejor coincida.The identified ID is determined based on the similarity score of the best matched speaker. Si ninguno de los oradores candidatos devuelve una puntuación de similitud mayor o igual que 0,5, la respuesta devuelve una cadena de cero para representar "no se encontró ninguna coincidencia".If none of the candidate speakers returns a similarity score of greater or equal than 0.5, the response returns a string of zero to represent "no match is found". Sin embargo, el resultado se debe determinar en función de su escenario y de otros factores que se estén usando.However, the result should be determined based on your scenario and other factors that are being used. Se recomienda experimentar con los datos y determinar el umbral para invalidar el valor predeterminado "coincidencia o sin coincidencia", según corresponda.We recommend you experiment with your data and determine your threshold to override the default "match or no match" as appropriate.

Las API no están pensadas para determinar si el audio proviene de una persona de carne y hueso, una imitación o una grabación de un hablante inscrito.The APIs are not intended to determine whether the audio is from a live person or an imitation or a recording of an enrolled speaker.

Consulte tambiénSee Also