Что такое настраиваемая речь?

Статья
01/19/2024

С помощью пользовательской речи можно оценить и повысить точность распознавания речи для приложений и продуктов. Пользовательская модель речи может использоваться для преобразования речи в режиме реального времени в текст, перевод речи и пакетное транскрибирование.

Вне поля распознавание речи использует универсальную языковую модель в качестве базовой модели, которая обучена с данными, принадлежащими Майкрософт, и отражает часто используемый язык. Базовая модель предварительно обучена диалектами и фонетиками, представляющими различные общие домены. При выполнении запроса на распознавание речи по умолчанию используется последняя базовая модель для каждого поддерживаемого языка. Базовая модель хорошо работает в большинстве сценариев распознавания речи.

Пользовательскую модель можно использовать для расширения базовой модели, чтобы улучшить распознавание предметно-ориентированной лексики, характерной для приложения, путем предоставления текстовых данных для обучения модели. Ее также можно использовать для улучшения распознавания на основе определенных условий звука приложения, предоставляя звуковые данные с референтными транскрибированиями.

Модель также можно обучить структурированным текстом, если данные соответствуют шаблону, чтобы указать пользовательские произношения, а также настроить форматирование текста с помощью настраиваемой нормализации текста, настраиваемой перезаписи и настраиваемой фильтрации ненормативной лексики.

Как это работает?

С помощью пользовательской речи можно отправлять собственные данные, тестировать и обучать пользовательскую модель, сравнивать точность между моделями и развертывать модель в настраиваемую конечную точку.

Diagram that highlights the components that make up the custom speech area of the Speech Studio.

Ниже приведены дополнительные сведения о последовательности шагов, показанных на предыдущей схеме:

Создайте проект и выберите модель. Используйте ресурс службы "Речь", создаваемый в портал Azure. Если вы обучаете пользовательскую модель с звуковыми данными, выберите регион ресурсов службы "Речь" с выделенным оборудованием для обучения звуковых данных. Дополнительные сведения см. в сносках в таблице регионов .
Загрузка тестовых данных. Отправьте тестовые данные для оценки речи в текстовое предложение для приложений, инструментов и продуктов.
Проверка качества распознавания речи. Используйте Speech Studio для воспроизведения загруженных аудиофайлов и проверки качества распознавания ваших тестовых данных.
Количественное тестирование модели. Оцените и улучшите точность преобразования речи в текстовую модель. Служба "Речь" предоставляет количественную частоту ошибок слова (WER), которую можно использовать для определения необходимости дополнительного обучения.
Train a model (Обучение модели). Предоставьте письменные расшифровки и связанный текст вместе с соответствующими звуковыми данными. Тестирование модели до и после обучения является необязательным, но рекомендуется.

Примечание.

Вы оплачиваете использование пользовательской модели речи и размещение конечных точек. Вы также будете взимать плату за обучение пользовательской модели речи, если базовая модель была создана 1 октября 2023 г. и более поздних версий. Плата за обучение не взимается, если базовая модель была создана до октября 2023 года. Дополнительные сведения см. в разделе о ценах на речь azure AI и в разделе "Плата за адаптацию" в руководстве по миграции с текстом 3.2.
Развертывание модели. Когда результаты теста будут удовлетворительными, разверните модель в пользовательской конечной точке. За исключением пакетного транскрибирования, необходимо развернуть пользовательскую конечную точку для использования пользовательской модели речи.

Совет

Размещенная конечная точка развертывания не требуется для использования пользовательской речи с API транскрибирования пакетной службы. Вы можете сохранить ресурсы, если пользовательская модель речи используется только для пакетной транскрибирования. Дополнительные сведения см. в разделе Цены на службы "Речь".

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.

Что такое настраиваемая речь?

Как это работает?

Ответственное применение ИИ

Следующие шаги

Дополнительные ресурсы