Подготовка данных для создания пользовательского голосаPrepare data to create a custom voice

Когда вы будете готовы создать собственную голосовую речь для вашего приложения, первым делом необходимо собрать звуковые записи и связанные с ними сценарии, чтобы начать обучение модели голоса.When you're ready to create a custom text-to-speech voice for your application, the first step is to gather audio recordings and associated scripts to start training the voice model. Служба распознавания речи использует эти данные для создания уникального голоса, настроенного для сопоставления голоса в записях.The Speech service uses this data to create a unique voice tuned to match the voice in the recordings. После обучения голоса можно приступить к синтезированию речи в приложениях.After you've trained the voice, you can start synthesizing speech in your applications.

Для создания подтверждения концепции можно начать с небольшого объема данных.You can start with a small amount of data to create a proof of concept. Тем не менее, чем больше данных вы предоставляете, тем более естественным будет звуковой пользователь.However, the more data that you provide, the more natural your custom voice will sound. Прежде чем вы сможете обучить собственную голосовую модель преобразования текста в речь, вам понадобятся звуковые записи и соответствующие текстовые сообщения.Before you can train your own text-to-speech voice model, you'll need audio recordings and the associated text transcriptions. На этой странице мы рассмотрим типы данных, их использование и управление ими.On this page, we'll review data types, how they are used, and how to manage each.

Типы данныхData types

Набор данных для обучения голоса включает звуковые записи и текстовый файл со связанными транскрипциями.A voice training dataset includes audio recordings, and a text file with the associated transcriptions. Каждый звуковой файл должен содержать один utterance (одно предложение или один ход для системы) и быть менее 15 секунд.Each audio file should contain a single utterance (a single sentence or a single turn for a dialog system), and be less than 15 seconds long.

В некоторых случаях у вас может не быть готового набора данных и нужно будет протестировать пользовательское речевое обучение с помощью доступных звуковых файлов, коротких или длинных, с транскрипциями или без них.In some cases, you may not have the right dataset ready and will want to test the custom voice training with available audio files, short or long, with or without transcripts. Мы предоставляем средства (бета-версия), которые помогут вам сегментировать звук в фразы продолжительностью и подготовить записи с помощью API-интерфейса для транскрипции пакетнойслужбы.We provide tools (beta) to help you segment your audio into utterances and prepare transcripts using the Batch Transcription API.

В этой таблице перечислены типы данных и их использование для создания пользовательской голосовой модели преобразования текста в речь.This table lists data types and how each is used to create a custom text-to-speech voice model.

Тип данныхData type ОписаниеDescription НазначениеWhen to use Требуется дополнительная службаAdditional service required Количество для обучения моделиQuantity for training a model Языковой стандарт (s)Locale(s)
Индивидуальный фразы продолжительностью и соответствующий транскрипцияIndividual utterances + matching transcript Коллекция (ZIP) звуковых файлов (. wav) в виде отдельных фразы продолжительностью.A collection (.zip) of audio files (.wav) as individual utterances. Длина каждого звукового файла должна составлять 15 секунд или меньше в паре с форматированной записью (txt).Each audio file should be 15 seconds or less in length, paired with a formatted transcript (.txt). Профессиональные записи с совпадающими записямиProfessional recordings with matching transcripts Готовы к обучению.Ready for training. Нет жестких требований для en-US и zh-CN.No hard requirement for en-US and zh-CN. Более 2000 и DISTINCT фразы продолжительностью для других языков.More than 2,000+ distinct utterances for other locales. Все пользовательские языки голосаAll Custom Voice locales
Длинный звук + транскрипция (бета-версия)Long audio + transcript (beta) Коллекция (ZIP) длинных несегментированных звуковых файлов (более 20 секунд), сопоставленная с записью (txt), которая содержит все произносимые слова.A collection (.zip) of long, unsegmented audio files (longer than 20 seconds), paired with a transcript (.txt) that contains all spoken words. У вас есть звуковые файлы и соответствующие записи, но они не разбиты на фразы продолжительностью.You have audio files and matching transcripts, but they are not segmented into utterances. Сегментация (с использованием записи пакетов).Segmentation (using batch transcription).
Преобразование формата аудио, если это необходимо.Audio format transformation where required.
Нет жесткой потребностиNo hard requirement Все пользовательские языки голосаAll Custom Voice locales
Только аудио (бета-версия)Audio only (beta) Коллекция (ZIP) звуковых файлов без транскрипции.A collection (.zip) of audio files without a transcript. Доступны только звуковые файлы без транскрипции.You only have audio files available, without transcripts. Сегментация и создание транскрипции (с помощью записи пакетов).Segmentation + transcript generation (using batch transcription).
Преобразование формата аудио, если это необходимо.Audio format transformation where required.
Нет жесткой потребностиNo hard requirement Все пользовательские языки голосаAll Custom Voice locales

Файлы должны быть сгруппированы по типу в набор данных и переданы в виде ZIP-файла.Files should be grouped by type into a dataset and uploaded as a zip file. Каждый набор данных может содержать только один тип данных.Each dataset can only contain a single data type.

Примечание

Максимальное количество наборов данных, которые могут быть импортированы на подписку, составляет 10. zip-файлы для бесплатных подписок (F0) и 500 для пользователей стандартной подписки (S0).The maximum number of datasets allowed to be imported per subscription is 10 .zip files for free subscription (F0) users and 500 for standard subscription (S0) users.

Индивидуальный фразы продолжительностью и соответствующий транскрипцияIndividual utterances + matching transcript

Вы можете подготовить записи отдельных фразы продолжительностью и соответствующих записей двумя способами.You can prepare recordings of individual utterances and the matching transcript in two ways. Напишите сценарий и прочтите его с помощью голоса или воспользуйтесь общедоступным аудио и транскрипция его в текст.Either write a script and have it read by a voice talent or use publicly available audio and transcribe it to text. В последнем случае отредактируйте в аудиофайлах слова-паразиты, такие как "эм", заикание, нечетко или неправильно произнесенные слова.If you do the latter, edit disfluencies from the audio files, such as "um" and other filler sounds, stutters, mumbled words, or mispronunciations.

Чтобы создать хороший шрифт голоса, создайте записи в тихом помещении с высококачественным микрофоном.To produce a good voice font, create the recordings in a quiet room with a high-quality microphone. Очень важен последовательное соответствие громкости, скорости речи, наклона речи и выразительных маннерисмс.Consistent volume, speaking rate, speaking pitch, and expressive mannerisms of speech are essential.

Совет

Чтобы создать голос для использования в рабочей среде, рекомендуем использовать профессиональную студию звукозаписи и актера озвучивания.To create a voice for production use, we recommend you use a professional recording studio and voice talent. Дополнительные сведения см. в разделе Как записывать образцы голоса для создания пользовательских голосовых моделей.For more information, see How to record voice samples for a custom voice.

АудиофайлыAudio files

Каждый звуковой файл должен содержать одну utterance (одно предложение или одну поочередную систему), продолжительность которой менее 15 секунд.Each audio file should contain a single utterance (a single sentence or a single turn of a dialog system), less than 15 seconds long. Все файлы должны иметь одинаковый язык.All files must be in the same spoken language. Пользовательские голоса преобразования текста в речь не поддерживаются, за исключением английского языка (BI-English).Multi-language custom text-to-speech voices are not supported, with the exception of the Chinese-English bi-lingual. Каждый звуковой файл должен иметь уникальное числовое имя файла с расширением WAV.Each audio file must have a unique numeric filename with the filename extension .wav.

При подготовке звука следуйте этим рекомендациям.Follow these guidelines when preparing audio.

СвойствоProperty ЗначениеValue
Формат файлаFile format Metallica (. wav), сгруппированный в ZIP-файлRIFF (.wav), grouped into a .zip file
Частота выборкиSampling rate Не менее 16 000 ГцAt least 16,000 Hz
Формат выборкиSample format PCM, 16-разрядныеPCM, 16-bit
Имя файлаFile name Numeric с расширением. wav.Numeric, with .wav extension. Дублирующиеся имена файлов не допускаются.No duplicate file names allowed.
Длина звукаAudio length Короче 15 секундShorter than 15 seconds
Формат архиваArchive format .zip.zip
Максимальный размер архиваMaximum archive size 2048 МБ2048 MB

Примечание

WAV-файлы с частотой выборки ниже 16 000 Гц будут отклонены..wav files with a sampling rate lower than 16,000 Hz will be rejected. Если ZIP-файл содержит WAV-файлы с разной частотой выборки, будут импортированы только значения, равные или превышающие 16 000 Гц.If a .zip file contains .wav files with different sample rates, only those equal to or higher than 16,000 Hz will be imported. Портал в настоящее время импортирует ZIP-архивы размером до 200 МБ.The portal currently imports .zip archives up to 200 MB. Однако можно отправить несколько архивов.However, multiple archives can be uploaded.

РасшифровкаTranscripts

Файл транскрипции является обычным текстовым файлом.The transcription file is a plain text file. Используйте эти рекомендации для подготовки транскрипций.Use these guidelines to prepare your transcriptions.

СвойствоProperty ЗначениеValue
Формат файлаFile format Обычный текст (TXT)Plain text (.txt)
Формат кодировкиEncoding format ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE или UTF-16-быть.ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, or UTF-16-BE. Для кодировок zh-CN, ANSI/ASCII и UTF-8 не поддерживаются.For zh-CN, ANSI/ASCII and UTF-8 encodings are not supported.
Количество фраз в строке# of utterances per line Одна строка файла транскрипции должна содержать имя одного из звуковых файлов, за которым следует соответствующая транскрипция.One - Each line of the transcription file should contain the name of one of the audio files, followed by the corresponding transcription. Для разделения имени файла и транскрипции необходимо использовать символ табуляции (\t).The file name and transcription should be separated by a tab (\t).
Максимальный размер файлаMaximum file size 2048 МБ2048 MB

Ниже приведен пример упорядочения записей utterance by utterance в одном TXT-файле:Below is an example of how the transcripts are organized utterance by utterance in one .txt file:

0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.

Важно, чтобы записи со100% точных транскрипций соответствующего аудио.It’s important that the transcripts are 100% accurate transcriptions of the corresponding audio. Ошибки в транскрипциях применяют потери качества во время обучения.Errors in the transcripts will introduce quality loss during the training.

Совет

При создании голоса преобразования текста в речь выберите фразы продолжительностью (или напишите скрипты), которые должны учитывать как фонетическое покрытие, так и эффективность.When building production text-to-speech voices, select utterances (or write scripts) that take into account both phonetic coverage and efficiency. Возникли проблемы при получении требуемых результатов?Having trouble getting the results you want? Свяжитесь с настраиваемой командой Voice , чтобы узнать больше о том, как обратиться к нам.Contact the Custom Voice team to find out more about having us consult.

Длинный звук + транскрипция (бета-версия)Long audio + transcript (beta)

В некоторых случаях сегментированный звук не может быть доступен.In some cases, you may not have segmented audio available. Мы предоставляем службу (бета-версия) с помощью пользовательского голосового портала для сегментирования длинных звуковых файлов и создания транскрипций.We provide a service (beta) through the custom voice portal to help you segment long audio files and create transcriptions. Не забывайте, что эта услуга будет начисляться за использование вашей подписки с использованием речи в текст.Keep in mind, this service will be charged toward your speech-to-text subscription usage.

Примечание

Служба долгосрочной сегментации будет использовать функцию записи пакетов речи в текст, которая поддерживает только стандартные пользователи подписки (S0).The long-audio segmentation service will leverage the batch transcription feature of speech-to-text, which only supports standard subscription (S0) users. Во время обработки сегментации ваши звуковые файлы и записи также будут отправляться в службу Пользовательское распознавание речи для уточнения модели распознавания, чтобы можно было улучшить точность данных.During the processing of the segmentation, your audio files and the transcripts will also be sent to the Custom Speech service to refine the recognition model so the accuracy can be improved for your data. Во время этого процесса данные не будут сохранены.No data will be retained during this process. По завершении сегментации будут сохранены только фразы продолжительностью сегментированные и их записи сопоставления для скачивания и обучения.After the segmentation is done, only the utterances segmented and their mapping transcripts will be stored for your downloading and training.

АудиофайлыAudio files

При подготовке звука для сегментации следуйте этим рекомендациям.Follow these guidelines when preparing audio for segmentation.

СвойствоProperty ЗначениеValue
Формат файлаFile format Metallica (. wav) с частотой выборки не менее 16 кГц-16-бит в PCM или MP3 с поразрядной скоростью не менее 256 кбит/с, сгруппированную в ZIP-файлRIFF (.wav) with a sampling rate of at least 16 khz-16-bit in PCM or .mp3 with a bit rate of at least 256 KBps, grouped into a .zip file
Имя файлаFile name Поддерживаются символы ASCII и Юникод.ASCII and Unicode characters supported. Дублирующиеся имена не допускаются.No duplicate names allowed.
Длина звукаAudio length Более 20 секундLonger than 20 seconds
Формат архиваArchive format .zip.zip
Максимальный размер архиваMaximum archive size 2048 МБ2048 MB

Все звуковые файлы должны быть сгруппированы в ZIP-файл.All audio files should be grouped into a zip file. Файлы. wav и. MP3 можно помещают в один звуковой ZIP-файл.It’s OK to put .wav files and .mp3 files into one audio zip. Например, можно передать ZIP-файл, содержащий звуковой файл с именем "кингстори. wav", 45-Second-Long, и другой звук с именем "куинстори. mp3", 200 – Second-Long.For example, you can upload a zip file containing an audio file named ‘kingstory.wav’, 45-second-long, and another audio named ‘queenstory.mp3’, 200-second-long. Все MP3-файлы будут преобразованы в формат. wav после обработки.All .mp3 files will be transformed into the .wav format after processing.

РасшифровкаTranscripts

Записи должны быть подготовлены к спецификациям, перечисленным в этой таблице.Transcripts must be prepared to the specifications listed in this table. Каждый звуковой файл должен соответствовать транскрипции.Each audio file must be matched with a transcript.

СвойствоProperty ЗначениеValue
Формат файлаFile format Обычный текст (txt), сгруппированный в ZIP-файлPlain text (.txt), grouped into a .zip
Имя файлаFile name Использовать то же имя, что и для соответствующего звукового файлаUse the same name as the matching audio file
Формат кодировкиEncoding format Только UTF-8-BOMUTF-8-BOM only
Количество фраз в строке# of utterances per line Без ограниченийNo limit
Максимальный размер файлаMaximum file size 2048 МБ2048 MB

Все файлы с транскрипциями в этом типе данных должны быть сгруппированы в ZIP-файл.All transcripts files in this data type should be grouped into a zip file. Например, вы отправили ZIP-файл, содержащий звуковой файл с именем "кингстори. wav", 45 секунд и еще один с именем "куинстори. mp3", который длиннее 200 секунд.For example, you have uploaded a zip file containing an audio file named ‘kingstory.wav’, 45 seconds long, and another one named ‘queenstory.mp3’, 200 seconds long. Необходимо отправить еще один ZIP-файл, содержащий два записи с именем "кингстори. txt", другой — "куинстори. txt".You will need to upload another zip file containing two transcripts, one named ‘kingstory.txt’, the other one ‘queenstory.txt’. В каждом простом текстовом файле будет предоставлена полная правильная транскрипция для соответствующего звука.Within each plain text file, you will provide the full correct transcription for the matching audio.

После успешной отправки набора данных мы поможем сегментировать звуковой файл в фразы продолжительностью на основе предоставленной записи.After your dataset is successfully uploaded, we will help you segment the audio file into utterances based on the transcript provided. Вы можете проверить сегментированные фразы продолжительностью и записи с совпадающими записями, загрузив набор данных.You can check the segmented utterances and the matching transcripts by downloading the dataset. Уникальные идентификаторы будут автоматически назначены сегментированному фразы продолжительностью.Unique IDs will be assigned to the segmented utterances automatically. Важно убедиться, что вводимые вами записи имеют точность 100%.It’s important that you make sure the transcripts you provide are 100% accurate. Ошибки в транскрипции могут снизить точность во время сегментации звука и далее ввести качество на этапе обучения, который поступает позже.Errors in the transcripts can reduce the accuracy during the audio segmentation and further introduce quality loss in the training phase that comes later.

Только аудио (бета-версия)Audio only (beta)

Если у вас нет транскрипции для звуковых записей, используйте параметр только Audio для передачи данных.If you don't have transcriptions for your audio recordings, use the Audio only option to upload your data. Наша система может помочь вам сегментировать и транскрипция звуковые файлы.Our system can help you segment and transcribe your audio files. Помните, что эта служба будет подсчитывать использование подписок речи в текст.Keep in mind, this service will count toward your speech-to-text subscription usage.

При подготовке звука следуйте этим рекомендациям.Follow these guidelines when preparing audio.

Примечание

Служба долгосрочной сегментации будет использовать функцию записи пакетов речи в текст, которая поддерживает только стандартные пользователи подписки (S0).The long-audio segmentation service will leverage the batch transcription feature of speech-to-text, which only supports standard subscription (S0) users.

СвойствоProperty ЗначениеValue
Формат файлаFile format Metallica (. wav) с частотой выборки не менее 16 кГц-16-бит в PCM или MP3 с поразрядной скоростью не менее 256 кбит/с, сгруппированную в ZIP-файлRIFF (.wav) with a sampling rate of at least 16 khz-16-bit in PCM or .mp3 with a bit rate of at least 256 KBps, grouped into a .zip file
Имя файлаFile name Поддерживаются символы ASCII и Юникод.ASCII and Unicode characters supported. Дублирующиеся имена не допускаются.No duplicate name allowed.
Длина звукаAudio length Более 20 секундLonger than 20 seconds
Формат архиваArchive format .zip.zip
Максимальный размер архиваMaximum archive size 2048 МБ2048 MB

Все звуковые файлы должны быть сгруппированы в ZIP-файл.All audio files should be grouped into a zip file. После успешной отправки набора данных мы поможем вам сегментировать звуковой файл в фразы продолжительностью, основываясь на службе транскрипции речевого пакета.Once your dataset is successfully uploaded, we will help you segment the audio file into utterances based on our speech batch transcription service. Уникальные идентификаторы будут автоматически назначены сегментированному фразы продолжительностью.Unique IDs will be assigned to the segmented utterances automatically. Соответствующие записи будут создаваться с помощью распознавания речи.Matching transcripts will be generated through speech recognition. Все MP3-файлы будут преобразованы в формат. wav после обработки.All .mp3 files will be transformed into the .wav format after processing. Вы можете проверить сегментированные фразы продолжительностью и записи с совпадающими записями, загрузив набор данных.You can check the segmented utterances and the matching transcripts by downloading the dataset.

Следующие шагиNext steps