API Распознавания говорящегоSpeaker Recognition API

Приветствуем вас в разделе документации Azure, посвященной API-интерфейсам распознавания говорящего в Cognitive Services.Welcome to the Azure Cognitive Services Speaker Recognition APIs. API распознавания говорящего — это облачные API, которые обеспечивают наиболее эффективные алгоритмы идентификации и проверки говорящего.Speaker Recognition APIs are cloud-based APIs that provide the most advanced algorithms for speaker verification and speaker identification. Распознавание говорящего можно разделить на две категории: распознавание говорящего и идентификация говорящего.Speaker Recognition can be divided into two categories: speaker verification and speaker identification.

Проверка говорящегоSpeaker Verification

Голос обладает уникальными характеристиками, которые можно использовать для идентификации пользователей, например, как отпечатки пальцев.Voice has unique characteristics that can be used to identify a person, just like a fingerprint. Использование голоса в качестве сигнала в сценариях предоставления доступа и проверки подлинности — это инновационное решение, которое обеспечивает повышение безопасности и упрощает процесс проверки подлинности для клиентов.Using voice as a signal for access control and authentication scenarios has emerged as a new innovative tool –essentially offering a level up in security that simplifies the authentication experience for customers.

API проверки говорящего могут автоматически проверять и подтверждать подлинность пользователей на основе голоса или речи.Speaker Verification APIs can automatically verify and authenticate users using their voice or speech.

РегистрацияEnrollment

Регистрация для проверки говорящего основана на тексте, то есть говорящему необходимо выбрать определенную парольную фразу для использования во время регистрации и проверки.Enrollment for speaker verification is text-dependent, which means speakers need to choose a specific pass phrase to use during both enrollment and verification phases.

При регистрации голос говорящего, который произносит определенную фразу, записывается, а затем извлекается ряд характеристик для распознавания выбранной фразы.In enrollment, the speaker's voice is recorded saying a specific phrase, then a number of features are extracted and the chosen phrase is recognized. Извлеченные характеристики и выбранная фраза формируют уникальную голосовую подпись.Together, both extracted features and the chosen phrase form a unique voice signature.

ПроверкаVerification

В процессе проверки произнесенная фраза и голос сравниваются с фразой и голосовой подписью, полученными во время регистрации, чтобы идентифицировать говорящего и подтвердить правильность фразы.In verification, an input voice and phrase are compared against the enrollment's voice signature and phrase –in order to verify whether or not they are from the same person, and if they are saying the correct phrase.

Дополнительные сведения о проверке говорящего см. в  справочнике по API распознавания говорящего.For more details about speaker verification, please refer to the API Speaker - Verification.

Идентификация говорящегоSpeaker Identification

API идентификации говорящего могут автоматически определить пользователя, голос которого звучит в аудиофайле, выбрав его из группы возможных говорящих.Speaker Identification APIs can automatically identify the person speaking in an audio file, given a group of prospective speakers. Входная аудиозапись сопоставляется с указанной группой говорящих и в случаях обнаружения соответствия возвращается удостоверение говорящего.The input audio is paired against the provided group of speakers, and in the case that there is a match found, the speaker’s identity is returned.

Все говорящие сначала должны пройти процесс регистрации, чтобы их голоса были зарегистрированы в системе и для них были созданы голосовые отпечатки.All speakers should go through an enrollment process first to get their voice registered to the system, and have a voice print created.

РегистрацияEnrollment

Регистрация для идентификации говорящего не зависит от текста, то есть не важно, что именно говорит пользователь в аудиозаписи.Enrollment for speaker identification is text-independent, which means that there are no restrictions on what the speaker says in the audio. Голос говорящего записывается и извлекается ряд характеристик для формирования уникальной голосовой подписи.The speaker's voice is recorded, and a number of features are extracted to form a unique voice signature.

СвидетельствоRecognition

Аудиозапись неизвестного говорящего вместе с потенциальной группой говорящих предоставляется во время распознавания.The audio of the unknown speaker, together with the prospective group of speakers, is provided during recognition. Входной голос сравнивается со всеми говорящими, чтобы определить, кому он принадлежит, и в случае обнаружения совпадения возвращается удостоверение говорящего.The input voice is compared against all speakers in order to determine whose voice it is, and if there is a match found, the identity of the speaker is returned.

Дополнительные сведения об идентификации говорящего см. в  справочнике по API распознавания говорящего.For more details about speaker identification, please refer to the API Speaker - Identification.