Что такое речь в тексте?
В этом обзоре вы узнаете о преимуществах и возможностях преобразования речи в текст службы "Речь", которая входит в состав служб ИИ Azure. Речь к тексту может использоваться в режиме реального времени или пакетной транскрибирования аудиопотоков в текст.
Примечание.
Чтобы сравнить цены в режиме реального времени с пакетной транскрибированием, ознакомьтесь с ценами на службу "Речь".
Полный список доступных языков речи на текстовых языках см. в разделе "Поддержка речи и голосовой связи".
Речь в режиме реального времени к тексту
При использовании речи в режиме реального времени звук транскрибируется как речь распознается с микрофона или файла. Используйте речь в режиме реального времени для приложений, которые должны транскрибировать звук в режиме реального времени, например:
- Транскрибирование, подпись или субтитры для живых собраний
- Диаризация
- Оценка произношения
- Помощь агентов центра контактов
- Диктовка
- Голосовые агенты
Речь в режиме реального времени доступна с помощью пакета SDK службы "Речь" и интерфейса командной строки службы "Речь".
Пакетное транскрибирование
Пакетное транскрибирование используется для транскрибирования большого объема звука в хранилище. Вы можете указать эти звуковые файлы с помощью URI подписанного URL-адреса (SAS) и асинхронно получать результаты транскрибирования. Используйте пакетное транскрибирование для приложений, которые должны выполнять массовое транскрибирование звука, например:
- Транскрибирование, подпись или субтитры для предварительно подготовленных аудиозаписей
- Аналитика после вызова центра контактов
- Диаризация
Пакетное транскрибирование доступно через:
- Преобразование речи в текст REST API. Чтобы приступить к работе, ознакомьтесь с примерами пакетного транскрибирования и пакетной транскрибирования (REST).
- Интерфейс командной строки службы "Речь" поддерживает как транскрибирование в режиме реального времени, так и пакетное транскрибирование. Для справки по интерфейсу командной строки службы "Речь" с пакетными транскрибированиями выполните следующую команду:
spx help batch transcription
Настраиваемая речь
С помощью пользовательской речи можно оценить и повысить точность распознавания речи для приложений и продуктов. Пользовательская модель речи может использоваться для преобразования речи в режиме реального времени в текст, перевод речи и пакетное транскрибирование.
Совет
Размещенная конечная точка развертывания не требуется для использования пользовательской речи с API транскрибирования пакетной службы. Вы можете сохранить ресурсы, если пользовательская модель речи используется только для пакетной транскрибирования. Дополнительные сведения см. в разделе Цены на службы "Речь".
Вне поля распознавание речи использует универсальную языковую модель в качестве базовой модели, которая обучена с данными, принадлежащими Майкрософт, и отражает часто используемый язык. Базовая модель предварительно обучена диалектами и фонетиками, представляющими различные общие домены. При выполнении запроса на распознавание речи по умолчанию используется последняя базовая модель для каждого поддерживаемого языка. Базовая модель хорошо работает в большинстве сценариев распознавания речи.
Пользовательскую модель можно использовать для расширения базовой модели, чтобы улучшить распознавание предметно-ориентированной лексики, характерной для приложения, путем предоставления текстовых данных для обучения модели. Ее также можно использовать для улучшения распознавания на основе определенных условий звука приложения, предоставляя звуковые данные с референтными транскрибированиями. Дополнительные сведения см. в статье о пользовательской речи и речи в REST API текста.
Параметры настройки зависят от языка или языкового стандарта. Сведения о проверке поддержки приведены в статье Поддержка языков и голосов в службе "Речь".
Ответственное применение ИИ
Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.
- Примечание о прозрачности и сценарии использования
- Характеристики и ограничения
- Интеграция и ответственное использование
- Данные, конфиденциальность и безопасность