Улучшение синтеза с помощью средства создания звукового содержимогоImprove synthesis with the Audio Content Creation tool

Создание звукового содержимого — это интерактивное средство, которое позволяет настраивать и тонко настраивать вывод текста в речь для приложений и продуктов Майкрософт.Audio Content Creation is an online tool that allows you to customize and fine-tune Microsoft's text-to-speech output for your apps and products. Это средство можно использовать для точной настройки открытых и пользовательских голосов для более точных естественных выражений, а также для управления выходными данными в облаке.You can use this tool to fine-tune public and custom voices for more accurate natural expressions, and manage your output in the cloud.

Средство создания аудио-содержимого основано на языке разметки речи (SSML).The Audio Content Creation tool is based on Speech Synthesis Markup Language (SSML). Для упрощения настройки и настройки создание звукового содержимого позволяет визуально проверять выходные данные текста в речь в режиме реального времени.To simplify customization and tuning, Audio Content Creation allows you to visually inspect your text-to-speech outputs in real time.

Принципы работыHow does it work?

На этой схеме показаны шаги, необходимые для точной настройки вывода текста в речь.This diagram shows the steps it takes to fine-tune text-to-speech outputs. Используйте приведенные ниже ссылки для получения дополнительных сведений о каждом шаге.Use the links below to learn more about each step.

  1. Настройте учетную запись Azure и ресурс речи , чтобы приступить к работе.Set up your Azure account and Speech resource to get started.

  2. Создайте файл настройки звука с помощью обычного текста или сценариев SSML.Create an audio tuning file using plain text or SSML scripts.

  3. Выбор голоса и языка для содержимого сценария.Choose the voice and the language for your script content. Для создания звукового содержимого используются все голоса Microsoft Text-To-Speech.Audio Content Creation includes all of the Microsoft text-to-speech voices. Вы можете использовать стандартный, нейронный или собственный пользовательский Voice.You can use standard, neural, or your own custom voice.

    Примечание

    Для настраиваемых нейронных голосов доступен многоуровневый доступ, позволяющий создавать голоса высокой четкости, аналогичные голосовым средствам для естественного звука.Gated access is available for Custom Neural Voices, which allow you to create high-definition voices similar to natural-sounding speech. Дополнительные сведения см. в разделе ограничение процесса.For additional details, see Gating process.

  4. Проверьте выходные данные синтеза по умолчанию.Review the default synthesis output. Затем можно улучшить выходные данные, настроив произношение, разрыв, шаг, скорость, интонатион, стиль голоса и т. д.Then improve the output by adjusting pronunciation, break, pitch, rate, intonation, voice style, and more. Полный список параметров см. в разделе язык разметки речи.For a complete list of options, see Speech Synthesis Markup Language. Ниже приведен видеоролик , демонстрирующий точную настройку речевого вывода с помощью создания звукового содержимого.Here is a video to show how to fine-tune speech output with Audio Content Creation.

  5. Сохраните и экспортируйте настроенный звук.Save and export your tuned audio. При сохранении в системе курса настройки можно продолжить работу и выполнить итерацию по выходным данным.When you save the tuning track in the system, you can continue to work and iterate on the output. Когда выходные данные будут удовлетворены, можно создать задачу создания звука с помощью функции экспорта.When you're satisfied with the output, you can create an audio creation task with the export feature. Вы можете наблюдать за состоянием задачи экспорта и скачивать выходные данные для использования с вашими приложениями и продуктами.You can observe the status of the export task, and download the output for use with your apps and products.

Настройка учетной записи Azure и ресурса речиSet up your Azure account and Speech resource

  1. Для работы с созданием звукового содержимого необходимо иметь учетную запись Azure.To work with Audio Content Creation, you must have an Azure account. Учетную запись Azure можно создать с помощью учетной записи Майкрософт.You can create an Azure account by using your Microsoft Account. Выполните эти инструкции, чтобы настроить учетную запись Azure.Follow these instructions to set up an Azure account.
  2. Создайте речевой ресурс для учетной записи Azure.Create a Speech resource to your Azure account. Убедитесь, что для ценовой категории задано значение S0.Make sure that your pricing tier is set to S0. Если вы используете один из нейронных голосов, убедитесь, что вы создаете ресурс в поддерживаемом регионе.If you are using one of the Neural voices, make sure that you create your resource in a supported region.
  3. После получения учетной записи Azure и ресурса речи можно использовать речевые службы и получить доступ к созданию звуковых данных.After you get the Azure account and the speech resource, you can use speech services and access Audio Content Creation.
  4. Выберите ресурс речи, с которым необходимо работать.Select the Speech resource you need to work on. Здесь также можно создать новый речевой ресурс.You can also create a new Speech resource here.
  5. Вы можете в любое время изменить свой речевой ресурс с помощью параметра Параметры , расположенного в верхней панели навигации.You can modify your Speech resource at any time with the Settings option, located in the top nav.

Создание файла настройки звукаCreate an audio tuning file

Существует два способа получить содержимое в средстве создания звукового содержимого.There are two ways to get your content into the Audio Content Creation tool.

Вариант 1.Option 1:

  1. Щелкните создать файл , чтобы создать новый файл настройки звука.Click New file to create a new audio tuning file.
  2. Введите или вставьте содержимое в окно редактирования.Type or paste your content into the editing window. Символы для каждого файла имеют до 20 000.The characters for each file is up to 20,000. Если длина скрипта превышает 20 000 символов, можно использовать вариант 2, чтобы автоматически разбить содержимое на несколько файлов.If your script is longer than 20,000 characters, you can use Option 2 to automatically split your content into multiple files.
  3. Не забудьте сохранить.Don't forget to save.

Вариант 2.Option 2:

  1. Нажмите кнопку Отправить , чтобы импортировать один или несколько текстовых файлов.Click Upload to import one or more text files. Поддерживаются как обычный текст, так и SSML.Both plain text and SSML are supported.

  2. Если файл скрипта имеет более 20 000 символов, Разделите файл по абзацам, по символам или по регулярным выражениям.If your script file is more than 20,000 characters, please split the file by paragraphs, by character or by regular expressions.

  3. При отправке текстовых файлов убедитесь, что файл соответствует этим требованиям.When you upload your text files, make sure that the file meets these requirements.

    СвойствоProperty Значение/примечанияValue / Notes
    Формат файлаFile format Обычный текст (TXT)Plain text (.txt)
    Текст SSML (. txt)SSML text (.txt)
    ZIP-файлы не поддерживаютсяZip files aren't supported
    Формат кодировкиEncoding format UTF-8UTF-8
    Имя файлаFile name Каждый файл должен иметь уникальное имя.Each file must have a unique name. Дубликаты не поддерживаются.Duplicates aren't supported.
    Длина текстаText length Длина текстовых файлов не должна превышать 20 000 символов.Text files must not exceed 20,000 characters.
    Ограничения SSMLSSML restrictions Каждый файл SSML может содержать только один элемент SSML.Each SSML file can only contain a single piece of SSML.

Пример обычного текстаPlain text example

Welcome to use Audio Content Creation to customize audio output for your products.

Пример текста SSMLSSML text example

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="Microsoft Server Speech Text to Speech Voice (en-US, AriaNeural)">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Экспорт настроенного звукаExport tuned audio

После того как вы проверили выходные данные звука и удовлетворены настройками и корректировкой, вы можете экспортировать аудио.After you've reviewed your audio output and are satisfied with your tuning and adjustment, you can export the audio.

  1. Нажмите кнопку Экспорт , чтобы создать задачу создания звука.Click Export to create an audio creation task. Рекомендуется использовать Экспорт в библиотеку аудио , так как он поддерживает длинные выходные данные и полный интерфейс вывода звука.Export to Audio Library is recommended as it supports the long audio output and the full audio output experience. Вы также можете загрузить аудио на локальный диск напрямую, но доступны только первые 10 минут.You can also download the audio to your local disk directly, but only the first 10 minutes are available.
  2. Выберите формат выходных данных для настроенного звука.Choose the output format for your tuned audio. Список поддерживаемых форматов и частот выборки см. ниже.A list of supported formats and sample rates is available below.
  3. Состояние задачи можно просмотреть на вкладке задача экспорта . Если задача завершается неудачно, см. страницу подробных сведений для полного отчета.You can view the status of the task on the Export task tab. If the task fails, see the detailed information page for a full report.
  4. После завершения задачи ваш звук будет доступен для загрузки на вкладке Библиотека аудио .When the task is complete, your audio is available for download on the Audio Library tab.
  5. Щелкните элемент Загрузить.Click Download. Теперь вы готовы использовать настраиваемый звуковой элемент в своих приложениях или продуктах.Now you're ready to use your custom tuned audio in your apps or products.

Поддерживаемые аудиоформатыSupported audio formats

ФорматFormat Частота выборки 16 кГц16 kHz sample rate Частота выборки 24 кГц24 kHz sample rate
WAVwav Metallica-16khz-16-разрядный-Mono-PCMriff-16khz-16bit-mono-pcm Metallica-24khz-16-разрядный-Mono-PCMriff-24khz-16bit-mono-pcm
MP3mp3 Audio-16khz-128kbitrate-Mono-MP3audio-16khz-128kbitrate-mono-mp3 Audio-24khz-160kbitrate-Mono-MP3audio-24khz-160kbitrate-mono-mp3

См. такжеSee also

Дальнейшие действияNext steps