Что такое речь в тексте?

В этом обзоре вы узнаете о преимуществах и возможностях преобразования речи в текст службы "Речь", которая входит в состав служб ИИ Azure. Речь к тексту может использоваться в режиме реального времени или пакетной транскрибирования аудиопотоков в текст.

Примечание.

Чтобы сравнить цены в режиме реального времени с пакетной транскрибированием, ознакомьтесь с ценами на службу "Речь".

Полный список доступных языков речи на текстовых языках см. в разделе "Поддержка речи и голосовой связи".

Речь в режиме реального времени к тексту

При использовании речи в режиме реального времени звук транскрибируется как речь распознается с микрофона или файла. Используйте речь в режиме реального времени для приложений, которые должны транскрибировать звук в режиме реального времени, например:

Речь в режиме реального времени доступна с помощью пакета SDK службы "Речь" и интерфейса командной строки службы "Речь".

Пакетное транскрибирование

Пакетное транскрибирование используется для транскрибирования большого объема звука в хранилище. Вы можете указать эти звуковые файлы с помощью URI подписанного URL-адреса (SAS) и асинхронно получать результаты транскрибирования. Используйте пакетное транскрибирование для приложений, которые должны выполнять массовое транскрибирование звука, например:

  • Транскрибирование, подпись или субтитры для предварительно подготовленных аудиозаписей
  • Аналитика после вызова центра контактов
  • Диаризация

Пакетное транскрибирование доступно через:

Настраиваемая речь

С помощью пользовательской речи можно оценить и повысить точность распознавания речи для приложений и продуктов. Пользовательская модель речи может использоваться для преобразования речи в режиме реального времени в текст, перевод речи и пакетное транскрибирование.

Совет

Размещенная конечная точка развертывания не требуется для использования пользовательской речи с API транскрибирования пакетной службы. Вы можете сохранить ресурсы, если пользовательская модель речи используется только для пакетной транскрибирования. Дополнительные сведения см. в разделе Цены на службы "Речь".

Вне поля распознавание речи использует универсальную языковую модель в качестве базовой модели, которая обучена с данными, принадлежащими Майкрософт, и отражает часто используемый язык. Базовая модель предварительно обучена диалектами и фонетиками, представляющими различные общие домены. При выполнении запроса на распознавание речи по умолчанию используется последняя базовая модель для каждого поддерживаемого языка. Базовая модель хорошо работает в большинстве сценариев распознавания речи.

Пользовательскую модель можно использовать для расширения базовой модели, чтобы улучшить распознавание предметно-ориентированной лексики, характерной для приложения, путем предоставления текстовых данных для обучения модели. Ее также можно использовать для улучшения распознавания на основе определенных условий звука приложения, предоставляя звуковые данные с референтными транскрибированиями. Дополнительные сведения см. в статье о пользовательской речи и речи в REST API текста.

Параметры настройки зависят от языка или языкового стандарта. Сведения о проверке поддержки приведены в статье Поддержка языков и голосов в службе "Речь".

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.

Следующие шаги