Синтез речи с помощью средства создания звукового содержимого

Статья
01/18/2024

Вы можете использовать средство создания звукового содержимого в Speech Studio для синтеза речи без написания кода. Вы можете использовать выходной звук как есть или в качестве отправной точки для дальнейшей настройки.

Создание очень естественного звукового содержимого для различных сценариев, таких как аудиокниги, новостные трансляции, видеозаписи и боты чата. Благодаря созданию аудиоконтентного содержимого вы можете эффективно настроить текст на голос и разработать настраиваемые звуковые интерфейсы.

Это средство основано на языке разметки синтеза речи Speech Synthesis Markup Language (SSML). Он позволяет настраивать атрибуты вывода речи в режиме реального времени или пакетного синтеза, например символы голоса, стили голоса, скорость речи, произношение и просодию.

Подход без кода: вы можете использовать средство создания аудиоконтентного содержимого для синтеза речи без написания кода. Выходной звук может быть окончательным конечным результатом. Например, можно использовать выходной звук для подкаста или видеозаписи.
Понятно для разработчиков: вы можете прослушивать выходной звук и настраивать SSML для улучшения синтеза речи. Затем можно использовать пакет SDK службы "Речь" или интерфейс командной строки службы "Речь" для интеграции SSML в приложения. Например, можно использовать SSML для создания бота чата.

Вам доступен широкий портфель языков и голосов. Эти голоса включают в себя предварительно созданные нейронные голоса и пользовательский нейронный голос, если вы создали его.

Дополнительные сведения см. в видео учебника по созданию аудиоконтентов на YouTube.

Начать

Средство создания аудиоконтентного содержимого в Speech Studio предоставляется бесплатно, но вы оплачиваете использование службы "Речь". Для работы с этим инструментом необходимо войти в систему с помощью учетной записи Azure и создать ресурс службы “Речь”. Для каждой учетной записи Azure существует бесплатная ежемесячная квота на использование службы “Речь”, включающая 500 000 символов для предварительно созданных нейронных голосов (на странице цен они называются нейронными). Как правило, ежемесячно выделенное количество достаточно для небольшой команды содержимого около 3-5 человек.

В следующих разделах приведены инструкции по созданию учетной записи Azure и получению ресурса службы "Речь".

Шаг 1. Создание учетной записи Azure

Для работы с инструментом "Создание аудиосодержимого" требуется учетная запись Майкрософт и учетная запись Azure.

Портал Azure — это центр управления учетной записью Azure. Здесь можно создать ресурс службы “Речь”, управлять доступом к продуктам и отслеживать все, от простых веб-приложений до сложных служб, развернутых в облаке.

Шаг 2. Создание ресурса службы "Речь"

После входа в учетную запись Azure необходимо создать в ней ресурс службы "Речь" для доступа к этой службе. Создайте ресурс службы "Речь" на портале Azure. Дополнительные сведения см. в разделе "Создание ресурса с несколькими службами".

Развертывание нового ресурса службы "Речь" может занять несколько секунд. Когда развертывание будет завершено, можно начать освоение инструмента "Создание аудиосодержимого".

Примечание.

Если планируется использовать синтезирование голоса с помощью нейронных сетей, убедитесь, что ресурс создается в регионе, поддерживающем синтезирование голоса с помощью нейронных сетей.

После получения учетной записи Azure и ресурса службы "Речь" войдите в Speech Studio и выберите Создание аудиосодержимого.
Выберите подписку Azure и ресурс службы “Речь”, с которыми вы будете работать, а затем щелкните Использовать ресурс.

При следующем входе в средство создания аудиосодержимого у вас будет прямая ссылка на рабочие аудиофайлы в текущем ресурсе службы “Речь”. Сведения о подписке Azure и ее состоянии можно найти на портале Azure.

Если у вас нет доступного ресурса службы “Речь” и вы являетесь владельцем или администратором подписки Azure, вы можете создать ресурс службы "Речь" в Speech Studio, щелкнув Создать ресурс.

Если вы выступаете в роли пользователя определенной подписки Azure, у вас может отсутствовать разрешение на создание нового ресурса службы “Речь”. Чтобы получить доступ, обратитесь к администратору.

Чтобы изменить ресурс службы “Речь” (что можно сделать в любое время), выберите Параметры в верхней части страницы.

Чтобы переключиться на другой каталог, выберите Параметры или перейдите к своему профилю.

Использование инструмента

На следующей схеме показан процесс точной настройки выходных данных текста на речь.

Diagram of the sequence of steps for fine-tuning text to speech outputs.

Каждый шаг на предыдущей схеме описан здесь:

Выберите ресурс службы "Речь" для работы.
Создайте файл настройки звука, используя обычный текст или скрипты SSML. Введите или отправьте содержимое в средство "Создание аудиосодержимого".
Выберите голос и язык для содержимого скрипта. Создание звукового содержимого включает все предварительно созданные тексты для речевых голосов. Вы можете использовать предварительно созданные нейронные голоса или пользовательский нейронный голос.

Примечание.

Доступ к шлюзам доступен для пользовательского нейронного голоса, что позволяет создавать высокоопределяемые голоса, похожие на естественное звучание речи. Дополнительные сведения см. в статье Процесс с условием.
Выберите содержимое, которое нужно просмотреть, и щелкните значок Воспроизвести в виде треугольника, чтобы просмотреть выходные данные синтеза по умолчанию.

Если вы вносите изменения в текст, щелкните значок Остановить, а затем снова нажмите кнопку Воспроизвести, чтобы повторно создать звук на основе измененных скриптов.

Результат можно улучшить, настроив для голоса произношение, паузы, высоту, скорость, интонацию, стиль и т. д. Полный список параметров см. в разделе Язык разметки для синтеза речи.

Дополнительные сведения о точной настройке выходных данных речи см. в руководстве по преобразованию текста в речь с помощью видео голосов microsoft Azure AI.
Сохраните и экспортируйте настроенное аудио.

Если сохранить в системе настроенную запись, можно продолжить работу и выполнить итерацию для результата. Получив удовлетворительный результат, можно создать задачу создания аудио с функцией экспорта. Можно наблюдать за состоянием задачи экспорта и скачивать результат для использования с вашими приложениями и продуктами.

Создание файла настройки звука

Контент можно поместить в средство создания аудиосодержимого одним из двух способов:

Вариант 1
1. Выберите Создать>Текстовый файл, чтобы создать файл настройки аудио.
2. Введите или вставьте содержимое в окно редактирования. Каждый файл может содержать не более 20 000 символов. Если скрипт включает больше 20 000 символов, можно использовать вариант 2, чтобы автоматически разбить содержимое на несколько файлов.
3. Выберите Сохранить.

Вариант 2

Выберите Отправить>Текстовый файл, чтобы импортировать один или несколько текстовых файлов. Поддерживается как обычный текст, так и SSML.

Если файл скрипта содержит больше 20 000 символов, разделите содержимое по абзацам, по символам или с помощью регулярных выражений.

При отправке текстовых файлов убедитесь, что они соответствуют следующим требованиям.

Свойство	Description
File format	Обычный текст (TXT)* Текст SSML (TXT)** Файлы ZIP не поддерживаются.
Формат кодирования	UTF-8
Имя файла	Имя каждого файла должно быть уникальным. Дублирующиеся файлы не поддерживаются.
Text length	Допустимое число символов: 20 000. Если размер файла превышает это ограничение, разделите его в соответствии с инструкциями, предоставляемыми средством.
Ограничения SSML	Каждый файл SSML может содержать только один элемент SSML.

* Пример обычного текста:

Welcome to use Audio Content Creation to customize audio output for your products.

** Пример текста SSML:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Экспорт настроенного звука

После просмотра выходных данных звука и соответствия настройке и настройке вы можете экспортировать звук.

Выберите Экспорт, чтобы сгенерировать задачу создания аудиосодержимого.

Мы рекомендуем выполнить экспорт в библиотеку аудио для удобного хранения, поиска и нахождения выходных аудиоданных в облаке. Вы можете оптимизировать интеграцию с приложениями с помощью хранилища BLOB-объектов Azure. Вы также можете напрямую скачать аудио на локальный диск.

Выберите формат выходных данных для настроенного звука. Поддерживаемые аудиоформаты и частоты дискретизации перечислены в следующей таблице.

Формат	Частота дискретизации 8 кГц	Частота дискретизации 16 кГц	Частота дискретизации 24 кГц	Частота дискретизации 48 кГц
WAV	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
MP3	Н/П	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Чтобы просмотреть состояние задачи, выберите вкладку Список задач.

В случае сбоя задачи просмотрите страницу с подробной информацией для полного отчета.
Когда задача будет завершена, аудио будет доступно для скачивания в области Библиотека аудио.
Выберите файл, который вы хотите скачать, и нажмите Скачать.

Теперь вы готовы использовать пользовательское настроенное аудио в своих приложениях или продуктах.

Настройка BYOS и анонимного общедоступного доступа для чтения больших двоичных объектов

Если вы потеряете разрешение на доступ к вашей собственной служба хранилища (BYOS), вы не сможете просматривать, создавать, изменять или удалять файлы. Чтобы возобновить доступ, необходимо удалить текущее хранилище и перенастроить BYOS в портал Azure. Дополнительные сведения о настройке BYOS см. в статье "Подключение служба хранилища Azure в качестве локальной общей папки в Служба приложений".

После настройки разрешения BYOS необходимо настроить анонимный общедоступный доступ на чтение для связанных контейнеров и BLOB-объектов. В противном случае данные BLOB-объектов недоступны для общедоступного доступа, а лексикон-файл в большом двоичном объекте недоступен. По умолчанию параметр общедоступного доступа контейнера отключен. Чтобы предоставить анонимным пользователям доступ на чтение к контейнеру и его BLOB-объектам, сначала установите для параметра "Разрешить общедоступный доступк BLOB-объектам", чтобы разрешить общедоступный доступ для учетной записи хранения, а затем задайте уровень общедоступного доступа контейнера (только для больших двоичных объектов с именем acc-public-files) (анонимный доступ для чтения только для БОЛЬШИХ двоичных объектов). Дополнительные сведения о настройке анонимного общедоступного доступа на чтение см. в статье Настройка анонимного общедоступного доступа на чтение для контейнеров и BLOB-объектов.

Добавление и удаление пользователей средства "Создание аудиосодержимого"

Если вы хотите привлечь к использованию средства "Создание аудиосодержимого" нескольких пользователей, им можно предоставить доступ к подписке Azure и ресурсу службы "Речь". Если добавить пользователей в подписку Azure, им будут доступны все ресурсы этой подписки Azure. Но если вы добавляете пользователей только в ресурс "Речь", у них есть доступ только к ресурсу "Речь", а не к другим ресурсам в этой подписке Azure. Пользователи с доступом к ресурсу службы "Речь" могут использовать инструмент "Создание аудиосодержимого".

Пользователям, которым предоставляется доступ, необходимо настроить учетную запись Майкрософт. Если у них нет учетной записи Майкрософт, они могут создать ее всего за несколько минут. Они могут использовать свой существующий адрес электронной почты и связать его с учетной записью Майкрософт либо создать адрес электронной почты Outlook и использовать его в качестве учетной записи Майкрософт.

Добавление пользователей в ресурс службы "Речь"

Чтобы добавить пользователей в ресурс службы "Речь" и дать им возможность использовать средство создания аудиосодержимого, выполните следующие действия.

На портале Azure выберите Все службы.
Затем выберите службы ИИ Azure и перейдите к определенному ресурсу службы "Речь".

Примечание.

Можно также настроить Azure RBAC для всей группы ресурсов, подписок или групп управления. Для этого выберите требуемый уровень области, а затем перейдите к нужному элементу (например, выберите группы ресурсов, а затем выберите нужную группу ресурсов).
На левой панели навигации выберите Управление доступом (IAM).
Выберите Добавить —>Добавить назначение ролей.
На вкладке Роль на следующем экране выберите роль, которую вы хотите добавить (в данном случае Владелец).
Перейдите на вкладку Участники, введите адрес электронной почты пользователя и выберите имя пользователя в каталоге. Адрес электронной почты должен быть связан с учетной записью Майкрософт, доверенной идентификатором Microsoft Entra. Пользователи могут легко зарегистрировать учетную запись Майкрософт с помощью личного адреса электронной почты.
Чтобы назначить роль, на вкладке Проверка и назначение выберите Проверка и назначение.

Вот что происходит дальше:

Пользователям будут автоматически разосланы приглашения по электронной почте. Чтобы их принять, они должны будут щелкнуть Принять приглашение>Принять, чтобы присоединиться к Azure в сообщении электронной почты. После этого они будут перенаправлены на портал Azure. Им не придется выполнять какие-либо действия на портале Azure. Через несколько секунд пользователям будет назначена роль в области действия ресурса службы “Речь”, благодаря которой они получат доступ к этому ресурсу. Если пользователь не получил приглашение, вы можете найти его учетную запись в разделе Назначения ролей и войти в его профиль. Найдите раздел Удостоверение>Приглашение принято и выберите (управление), чтобы заново отправить приглашение по электронной почте. Можно также скопировать и отправить пользователю ссылку на приглашение.

Теперь пользователи заходят на страницу продукта Создание аудиосодержимого или обновляют ее и выполняют вход с помощью своей учетной записи Майкрософт. Среди продуктов службы "Речь" они выбирают блок Создание аудиосодержимого. Они указывают ресурс службы "Речь" во всплывающем окне или в параметрах в правом верхнем углу страницы.

Если они не могут найти доступный ресурс службы “Речь”, следует убедиться, что они находятся в нужном каталоге. Для этого нужно выбрать профиль учетной записи в правом верхнем углу, а затем щелкнуть переключатель рядом с текущим каталогом. Если отображается не один каталог, значит, у них есть доступ к нескольким каталогам. Пользователи могут переключиться на другие каталоги и зайти в раздел Параметры, чтобы узнать, доступен ли правильный ресурс службы "Речь".

Пользователи, которые находятся в том же ресурсе "Речь", видят работу друг друга в средстве создания аудиоконтентов. Если нужно предоставить каждому пользователю уникальное, приватное рабочее пространство в инструменте "Создание аудиосодержимого", создайте ресурс службы "Речь" для каждого пользователя и предоставьте уникальный доступ к соответствующему ресурсу.

Удаление пользователей из ресурса службы "Речь"

Найдите службы ИИ Azure в портал Azure, выберите ресурс "Речь", из которого нужно удалить пользователей.
Выберите Управление доступом (IAM) и откройте вкладку Назначение ролей, чтобы просмотреть все назначения ролей для этого ресурса службы “Речь”.
Выберите пользователей, которых нужно удалить, щелкните Удалить, а затем нажмите кнопку ОК.

Как разрешить пользователю предоставлять доступ другим пользователям

Чтобы разрешить пользователю предоставлять доступ другим пользователям, необходимо назначить ему роль владельца ресурса службы "Речь" и определить его как читателя каталога Azure.

Добавьте пользователя в качестве владельца ресурса службы "Речь". Дополнительные сведения см. в разделе Добавление пользователей в ресурс службы “Речь”.
В портал Azure выберите свернутый меню в левом верхнем углу, выберите идентификатор Microsoft Entra и выберите "Пользователи".
Найдите учетную запись Майкрософт пользователя, перейдите на страницу сведений и выберите Назначенные роли.
Щелкните Добавить назначения>Читатели каталогов. Если кнопка Добавить назначения недоступна, значит, что у вас нет соответствующего доступа. Добавлять назначения для пользователей может только глобальный администратор этого каталога.

Синтез речи с помощью средства создания звукового содержимого

Начать

Шаг 1. Создание учетной записи Azure

Шаг 2. Создание ресурса службы "Речь"

Использование инструмента

Создание файла настройки звука

Экспорт настроенного звука

Настройка BYOS и анонимного общедоступного доступа для чтения больших двоичных объектов

Добавление и удаление пользователей средства "Создание аудиосодержимого"

Добавление пользователей в ресурс службы "Речь"

Удаление пользователей из ресурса службы "Речь"

Как разрешить пользователю предоставлять доступ другим пользователям

Следующие шаги

Дополнительные ресурсы

Синтез речи с помощью средства создания звукового содержимого

Начать

Шаг 1. Создание учетной записи Azure

Шаг 2. Создание ресурса службы "Речь"

Шаг 3. Вход в средство "Создание аудиосодержимого" с помощью учетной записи Azure и ресурса службы "Речь"

Использование инструмента

Создание файла настройки звука

Экспорт настроенного звука

Настройка BYOS и анонимного общедоступного доступа для чтения больших двоичных объектов

Добавление и удаление пользователей средства "Создание аудиосодержимого"

Добавление пользователей в ресурс службы "Речь"

Удаление пользователей из ресурса службы "Речь"

Как разрешить пользователю предоставлять доступ другим пользователям

Следующие шаги

Дополнительные ресурсы