Что такое текст для речи?

Статья
01/23/2024

В этом обзоре вы узнаете о преимуществах и возможностях функции преобразования текста в речь службы "Речь", которая входит в состав служб ИИ Azure.

Текст в речь позволяет приложениям, инструментам или устройствам преобразовывать текст в человека, как синтезированная речь. Возможность преобразования текста в речь также называется синтезом речи. Используйте человек, как предварительно созданные нейронные голоса из коробки, или создайте пользовательский нейронный голос, уникальный для вашего продукта или бренда. Полный список поддерживаемых голосов, языков и языковых стандартов см. статье Поддержка языков и голосов в службе "Речь".

Основные возможности

Текст для речи включает следующие функции:

Компонент	Итоги	Демонстрация
Предварительно созданный нейронный голос (под именем Нейронный на странице цен)	Готовые голоса, очень похожие на настоящие. Создайте учетную запись Azure и оформите подписку на службу "Речь", а затем используйте пакет SDK для службы "Речь" или посетите портал Speech Studio и выберите предварительно созданные нейронные голоса, чтобы приступить к работе. Ознакомьтесь с данными на странице цен.	Проверьте коллекцию голосовых данных и определите правильный голос для ваших бизнес-потребностей.
Пользовательский нейронный голос (под именем Пользовательский нейронный на странице цен)	Простое в использовании средство самообслуживания для создания естественного голоса торговой марки с ограниченным доступом, призванным обеспечить ответственное использование. Создайте учетную запись Azure, оформите подписку на службу "Речь" (с уровнем S0) и подайте заявку на использование функции пользовательского нейронного голоса. После предоставления доступа перейдите на портал Speech Studio и выберите "Настраиваемый голос ", чтобы приступить к работе. Ознакомьтесь с данными на странице цен.	Изучите образцы голоса.

Дополнительные сведения о нейронных текстах для функций речи

Текст для речи использует глубокие нейронные сети, чтобы сделать голоса компьютеров почти неотличимыми от записей людей. Благодаря четкому выражению слов нейронный текст для речи значительно снижает усталость от прослушивания при взаимодействии пользователей с системами ИИ.

Образцы ударения и интонации в разговорной речи называются просодией. Традиционные текстовые системы разбивают просодию на отдельные лингвистические и акустические прогнозирующие шаги, управляемые независимыми моделями. Это может привести к синтезу приглушенного и шумного голоса.

Дополнительные сведения о функциях нейронного текста для речи в службе "Речь" и о том, как они преодолевают ограничения традиционных текстовых систем речи:

Синтез речи в режиме реального времени: используйте пакет SDK службы "Речь" или REST API для преобразования текста в речь с помощью предварительно созданных нейронных голосов или пользовательских нейронных голосов.
Асинхронный синтез длинного звука: используйте API пакетного синтеза (предварительная версия) для асинхронного синтеза текста в файлы речи дольше 10 минут (например, аудио книги или лекции). В отличие от синтеза, выполняемого с помощью пакета SDK службы "Речь" или "Речь" в REST API, ответы не возвращаются в режиме реального времени. Ожидаемый результат — запросы отправляются асинхронно, опрос производится, но синтезированное аудио загружается тогда, когда его предоставляет служба.
Предварительно созданные нейронные голоса: нейронный текст Майкрософт для распознавания речи использует глубокие нейронные сети для преодоления ограничений традиционного синтеза речи в отношении стресса и интонации на разговорном языке. Одновременно выполняется интонационное прогнозирование и синтез речи, что приводит к более гибкому и естественному звучанию итогового голоса. Каждая предварительно созданная нейронная голосовая модель доступна в 24 кГц и высокой точности 48 кГц. Нейронные голоса можно использовать в следующих целях:
- Чтобы сделать взаимодействие с чат-ботами и голосовыми помощниками более естественным и интересным.
- Чтобы преобразовывать цифровые тексты, такие как электронные книги, в аудиокниги.
- Чтобы улучшать системы автомобильной навигации.
Полный список нейронных голосов платформы см. в статье Поддержка языков и голосов в службе "Речь".
Точное изменение текста на выходные данные речи с помощью SSML: язык разметки синтеза речи (SSML) — это язык разметки на основе XML, используемый для настройки выходных данных речи. С помощью SSML можно настроить тон, добавить паузы, улучшить произношение, изменить скорость речи, отрегулировать громкость, а также присвоить несколько голосов одному документу.

SSML можно использовать, чтобы определять собственные лексиконы или переключаться между разными стилями речи. Многоязыковые голоса также позволяют настраивать языки речи с помощью SSML. Чтобы точно настроить выходные данные голоса для вашего сценария, см. статью "Улучшение синтеза с помощью языка разметки синтеза речи" и синтеза речи с помощью средства создания звукового содержимого.
Виземы. Виземы — ключевые положения лица в наблюдаемой речи при создании определенной фонемы, такие как расположение губ, челюстей и языка. Виземы имеют надежную корреляцию с голосами и фонемами.

С помощью событий визем в пакете SDK для службы "Речь" можно создавать данные анимации лиц. С их помощью можно анимировать лица для взаимодействия посредством чтения по губам, в образовательных и развлекательных целях, а также для обслуживания клиентов. Виземы в настоящее время поддерживаются только для нейронных голосовen-US (английский, США).

Примечание.

Мы планируем прекратить использование стандартных и отличных от нейронных голосов в 2024 году. Одновременно с этим мы прекратим их поддержку.

Если ваши приложения, инструменты или продукты используют стандартные или пользовательские голоса, необходимо перейти к использованию нейронной версии. Дополнительные сведения см. в статье Переход на использование нейронных голосов.

Начать

Сведения о начале работы с текстом для речи см. в кратком руководстве. Текст для речи доступен с помощью пакета SDK службы "Речь", REST API и интерфейса командной строки службы "Речь".

Совет

Чтобы преобразовать текст в речь без кода, попробуйте использовать средство создания аудиоконтентов в Speech Studio.

Пример кода

Пример кода для преобразования текста в речь доступен на сайте GitHub. Эти примеры охватывают преобразование текста в речь в большинстве популярных языков программирования:

Пользовательский нейронный голос

Помимо предварительно созданных нейронных голосов вы можете создавать и настраивать пользовательские нейронные голоса для своего продукта или торговой марки. Чтобы начать работу, вам потребуется всего несколько звуковых файлов и связанных с ними расшифровок. Дополнительные сведения см. в статье Начало работы с пользовательским нейронным голосом.

Примечание о ценах

Оплачиваемые символы

При использовании текста для функции распознавания речи плата взимается за каждый символ, который преобразуется в речь, включая знак препинания. Несмотря на то, что сам документ SSML не оплачивается, необязательные элементы, используемые для настройки преобразования текста в речь, такие как фонемы и шаг, считаются символами с выставлением счетов. Здесь приводится перечень того что оплачивается:

Текст, переданный тексту в функцию распознавания речи в тексте запроса SSML
Вся разметка в текстовом поле тела запроса в формате SSML, за исключением тегов <speak><voice>
Буквы, пунктуация, пробелы, табуляция, разметка и все пробельные символы
Каждая кодовая точка, определенная в Юникоде.

Дополнительные сведения см. в статье Цены на службы "Речь".

Важно!

При выставлении счетов один китайский иероглиф считается за два символа, включая иероглифы кандзи (японский язык), ханча (корейский язык) и ханьцзы (другие языки).

Обучение модели и время размещения для пользовательского нейронного голоса

Настраиваемое обучение нейронной голосовой связи и размещение вычисляются по часам и оплачиваются в секунду. Цены на единицу выставления счетов см. в ценах на службу "Речь".

Время обучения пользовательского нейронного голоса (CNV) измеряется по единицам вычислений (единица измерения времени выполнения компьютера). Как правило, при обучении голосовой модели выполняются две вычислительные задачи параллельно. Таким образом, вычисляемые вычислительные часы длиннее фактического времени обучения. В среднем для обучения голоса CNV Lite требуется менее одного вычислительного часа; в то время как для CNV Pro обычно требуется от 20 до 40 вычислительных часов для обучения единого стиля голоса, и около 90 часов вычислений для обучения многоуровневого голоса. Плата за обучение CNV взимается с ограничением в 96 часов вычислений. Таким образом, в случае обучения голосовой модели в 98 часов вычислений вы будете взиматься только за 96 часов вычислений.

Размещение конечной точки пользовательской нейронной голосовой связи (CNV) измеряется фактическим временем (час). Время размещения (часы) для каждой конечной точки вычисляется в 00:00 UTC каждый день за предыдущие 24 часа. Например, если конечная точка активна в течение 24 часов в день один, плата взимается за 24 часа в 00:00 в формате UTC во второй день. Если конечная точка только что создана или приостановлена в течение дня, плата взимается за его накопленный период выполнения до 00:00 в формате UTC во второй день. Если конечная точка в настоящее время не размещена, она не взимается. В дополнение к ежедневному расчету в 00:00 UTC каждый день выставление счетов также активируется немедленно при удалении или приостановке конечной точки. Например, для конечной точки, созданной в 08:00 UTC 1 декабря, час размещения будет рассчитан до 16 часов в 00:00 UTC 2 и 24 часа в 00:00 UTC 3 декабря. Если пользователь приостанавливает размещение конечной точки в 16:30 UTC 3 декабря, длительность (16,5 часа) от 00:00 до 16:30 UTC 3 декабря будет вычисляться для выставления счетов.

Справочная документация

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.