Что такое распознавание говорящего?

Статья
01/21/2024

Распознавание говорящего помогает определить, кто говорит в аудиоклипе. Эта служба может проверять и идентифицировать говорящих по их уникальным голосовым характеристикам с использованием голосовой биометрии.

Вы предоставляете звуковые обучающие данные для одного говорящего, что создает профиль регистрации на основе уникальных характеристик голоса говорящего. Затем вы можете провести перекрестную проверку образцов голоса, сравнив их с данным профилем, чтобы убедиться, что говорящим является именно этот человек (проверка говорящего). Вы также можете провести перекрестную проверку образцов голоса, сравнив их с группой профилей зарегистрированных говорящих, чтобы посмотреть, совпадут ли они с каким-либо из профилей группы (идентификация говорящего).

Важно!

Корпорация Майкрософт ограничивает доступ к функции распознавания говорящего. Вы можете подать заявку на доступ через распознавание ограниченного доступа к службам искусственного интеллекта Azure. Дополнительные сведения см. в разделе Ограниченный доступ к функции распознавания говорящего.

Верификация говорящего

Проверка говорящего упрощает процесс проверки удостоверения зарегистрированного говорящего с помощью парольных фраз или голосового ввода в произвольной форме. Например, ее можно использовать для проверки удостоверения клиента в центрах обработки вызовов или при доступе к бесконтактному оборудованию.

Как работает проверка говорящего?

Этот процесс наглядно представлен на следующей блок-схеме.

Flowchart that shows how speaker verification works.

Проверка говорящего может быть как зависимой, так и независимой от текста. Зависимая от текста проверка означает, что говорящие должны выбрать одну и ту же парольную фразу, которая будет использоваться на этапах регистрации и проверки. Независимая от текста проверка означает, что говорящие могут говорить, как привыкли, произнося фразы для регистрации и проверки.

Для зависимой от текста проверки голос говорящего регистрируется путем произнесения ключевой фразы из набора заранее определенных фраз. Голосовые характеристики извлекаются из аудиозаписи, чтобы сформировать уникальную голосовую подпись, при этом выбранная кодовая фраза также распознается. Вместе голосовая подпись и кодовая фраза используются для проверки говорящего.

При включенной активной регистрации проверка не имеет ограничений на то, что говорит докладчик во время регистрации, помимо начальной фразы активации. Нет ограничений и на то, какой звуковой образец будет проверяться, так как при этом просто извлекаются голосовые признаки для оценки подобия.

Интерфейсы API не предназначены для определения источника звука: реальный это человек или имитация либо запись зарегистрированного говорящего.

Идентификация говорящего

Идентификация говорящего помогает определять личность неизвестного говорящего в группе зарегистрированных говорящих. Идентификация говорящего позволяет приписывать речь отдельным говорящим и с пользой применять сценарии с несколькими говорящими, например:

Поддержка решений для эффективного проведения удаленных собраний.
Обеспечение персонализации многопользовательского устройства.

Как работает идентификация говорящего?

При регистрации для идентификации говорящего используется проверка, не зависящая от текста. Нет ограничений на то, что динамик говорит в звуке, помимо начальной фразы активации при включенной активной регистрации. Как и в случае с проверкой говорящего, на этапе регистрации голос говорящего записывается и из него извлекаются голосовые характеристики для формирования уникальной голосовой подписи. На этапе идентификации образец входящего голоса сравнивается с указанным списком зарегистрированных голосов (до 50 в каждом запросе).

Безопасность и конфиденциальность данных

Данные о регистрации говорящих хранятся в защищенной системе, включая записи голоса для регистрации и функций голосовой подписи. Речь для регистрации используется только тогда, когда алгоритм обновлен и функции необходимо извлечь снова. Служба не сохраняет запись речи или извлеченные голосовые характеристики, которые отправляются службе на этапе распознавания.

Вы сами задаете, как долго такие данные должны храниться. Вы можете создавать, обновлять и удалять данные о регистрации для отдельных пользователей с помощью вызовов API. При удалении подписки все данные регистрации говорящего, связанные с подпиской, также удаляются.

Как и во всех ресурсах служб искусственного интеллекта Azure, разработчики, использующие функцию распознавания говорящего, должны учитывать политики Майкрософт по данным клиентов. Необходимо убедиться, что у пользователей были получены соответствующие разрешения. Дополнительные сведения см. в статье Данные и конфиденциальность для распознавания говорящего. Дополнительные сведения см. на странице служб ИИ Azure в Центре управления безопасностью Майкрософт.

Часто задаваемые вопросы и решения

Вопрос	Решение
В каких ситуациях я скорее всего воспользуюсь распознаванием говорящего?	Вот несколько примеров: проверка клиентов центра обработки вызовов, голосовая регистрация пациентов, транскрибирование записей встреч, персонализация на многопользовательском устройстве.
В чем разница между идентификацией и проверкой?	Идентификация — это процесс определения говорящего из группы говорящих. Проверка — это подтверждение того, что говорящий соответствует известному, зарегистрированному голосу.
Какие языки поддерживаются?	См. раздел Поддержка языков для распознавания говорящего.
Какие регионы Azure поддерживаются?	См. раздел Поддержка региона для распознавания говорящего.
Какие аудиоформаты поддерживаются?	Моно, 16-разрядный, 16 кГц, PCM WAV.
Можно ли регистрировать одного говорящего несколько раз?	Да, для текстовой проверки вы можете зарегистрировать говорящего до 50 раз. Для независимой от текста проверки или идентификации говорящего вы можете записать аудио продолжительностью до 300 секунд.
Какие данные хранятся в Azure?	Запись голоса для регистрации хранится в сервисе до тех пор, пока голосовой профиль не будет удален. Образцы аудиозаписей для распознавания не сохраняются и не хранятся.

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.

Следующие шаги

Краткое руководство по распознаванию говорящего