Обзор языка разметки синтеза речи (SSML)

Статья
01/22/2024

Язык разметки синтеза речи (SSML) — это язык разметки на основе XML, который можно использовать для точной настройки текста на выходные атрибуты речи, такие как шаг, произношение, скорость речи, громкость и многое другое. Он обеспечивает больший контроль и гибкость, чем входные данные обычного текста.

Совет

Вы можете слышать голоса в разных стилях и полях чтения примера текста с помощью коллекции голосов.

Варианты использования

SSML предназначен для обеспечения гибкости в том, как вы хотите, чтобы выходные данные речи звучали, и они предоставляют различные свойства для настройки выходных данных. SSML можно использовать для:

Определите входную структуру текста, которая определяет структуру , содержимое и другие характеристики текста для вывода речи. Например, можно использовать SSML для определения абзаца, предложения, перерыва или паузы или молчания. Текст можно упаковать с помощью тегов событий, таких как закладка или viseme, что приложение может обрабатывать позже. Viseme — это визуальное описание фонема, отдельных звуков речи, на разговорном языке.
Выберите голос, язык, имя, стиль и роль. Вы можете использовать несколько голосов в одном документе SSML. Вы также можете настроить акцент, скорость речи, шаг и громкость. SSML также может вставлять предварительно подготовленный звук, например звуковой эффект или музыкальную заметку.
Управление произношением выходного звука. Например, можно использовать SSML с фонемами и пользовательским лексиконом для улучшения произношения. Вы также можете использовать SSML для определения того, как произносится слово или математическое выражение.

Способы работы с SSML

Функции SSML доступны в различных инструментах, которые могут соответствовать вашему варианту использования.

Важно!

Плата за каждый символ, преобразованный в речь, включая знаки препинания. Хотя сам документ SSML не оплачивается, служба подсчитывает необязательные элементы, которые используются для настройки преобразования текста в речь, таких как фонемы и поле, как оплачиваемые символы. Дополнительные сведения см. в заметке о ценах.

SSML можно использовать следующим образом:

Средство создания звукового содержимого позволяет создавать обычный текст и SSML в Speech Studio. Вы можете прослушивать выходной звук и настраивать SSML для улучшения синтеза речи. Дополнительные сведения см. в разделе "Синтез речи" с помощью средства создания аудиоконтентов.
API пакетного синтеза принимает SSML через inputs свойство.
Интерфейс командной строки "Речь" принимает SSML через аргумент командной spx synthesize --ssml SSML строки.
Пакет SDK службы "Речь" принимает SSML через метод SSML "говорить" на разных поддерживаемых языках.

Обзор языка разметки синтеза речи (SSML)

Варианты использования

Способы работы с SSML

Следующие шаги

Дополнительные ресурсы