Создание пользовательского голосаCreate a Custom Voice

В разделе Подготовка данных для пользовательского голосаописаны различные типы данных, которые можно использовать для обучения настраиваемого голоса и различных требований к формату.In Prepare data for Custom Voice, we described the different data types you can use to train a custom voice and the different format requirements. После подготовки данных можно приступить к их передаче на Пользовательский голосовой порталили через API пользовательского речевого обучения.Once you have prepared your data, you can start to upload them to the Custom Voice portal, or through the Custom Voice training API. Здесь описаны шаги обучения пользовательского голоса с помощью портала.Here we describe the steps of training a custom voice through the portal.

Примечание

На этой странице предполагается, что у вас есть чтение начало работы с пользовательским голосовым стандартом и Подготовка данных для пользовательского голоса, а также создание пользовательского голосового проекта.This page assumes you have read Get started with Custom Voice and Prepare data for Custom Voice, and have created a Custom Voice project.

Проверьте языки, поддерживаемые для пользовательского голоса: язык для настройки.Check the languages supported for custom voice: language for customization.

Обновление наборов данныхUpload your datasets

Когда вы будете готовы отправить данные, перейдите на Пользовательский голосовой портал.When you're ready to upload your data, go to the Custom Voice portal. Создайте или выберите пользовательский голосовой проект.Create or select a Custom Voice project. Проект должен иметь доступ к нужному языку, языку и свойствам пола в качестве данных, которые вы предполагали использовать для обучения речи.The project must share the right language/locale and the gender properties as the data you intent to use for your voice training. Например, выберите en-GB , если звуковые записи выполняются на английском языке с диакритическими знаками Великобритании.For example, select en-GB if the audio recordings you have is done in English with a UK accent.

Перейдите на вкладку данные и нажмите кнопку отправить данные.Go to the Data tab and click Upload data. В мастере выберите правильный тип данных, соответствующий подготовленным данным.In the wizard, select the correct data type that matches what you have prepared.

Каждый передаваемый набор данных должен соответствовать требованиям к выбранному типу данных.Each dataset you upload must meet the requirements for the data type that you choose. Важно правильно отформатировать данные перед их отправкой.It is important to correctly format your data before it's uploaded. Это гарантирует, что данные будут правильно обрабатываться настраиваемой службой Voice.This ensures the data will be accurately processed by the Custom Voice service. Перейдите к разделу Подготовка данных для пользовательского голоса и убедитесь, что данные были отформатированы правильно.Go to Prepare data for Custom Voice and make sure your data has been rightly formatted.

Примечание

Бесплатная подписка (F0). пользователи могут загружать два набора данных одновременно.Free subscription (F0) users can upload two datasets simultaneously. Пользователи стандартной подписки (S0) могут загружать пять наборов данных одновременно.Standard subscription (S0) users can upload five datasets simultaneously. Если вы достигли предела, подождите, пока завершится импортирование хотя бы одного из наборов данных.If you reach the limit, wait until at least one of your datasets finishes importing. Затем повторите попытку.Then try again.

Примечание

Максимальное количество наборов данных, которые могут быть импортированы на подписку, составляет 10. zip-файлы для бесплатных подписок (F0) и 500 для пользователей стандартной подписки (S0).The maximum number of datasets allowed to be imported per subscription is 10 .zip files for free subscription (F0) users and 500 for standard subscription (S0) users.

После нажатия кнопки "Отправить" автоматически проверяются наборы данных.Datasets are automatically validated once you hit the upload button. Проверка данных включает ряд проверок звуковых файлов, чтобы проверить формат файла, размер и частоту выборки.Data validation includes series of checks on the audio files to verify their file format, size, and sampling rate. Исправьте ошибки, если они есть, и повторите отправку.Fix the errors if any and submit again. Когда запрос на импорт данных будет успешно инициирован, в таблице данных должна появиться запись, соответствующая только что загруженному набору данных.When the data-importing request is successfully initiated, you should see an entry in the data table that corresponds to the dataset you’ve just uploaded.

В следующей таблице приведены состояния обработки импортированных наборов данных.The following table shows the processing states for imported datasets:

СостояниеState ЗначениеMeaning
ОбработкаProcessing Набор данных получен и обрабатывается.Your dataset has been received and is being processed.
УспешноSucceeded Набор данных проверен и теперь может использоваться для создания модели голоса.Your dataset has been validated and may now be used to build a voice model.
FailedFailed Не удалось обработать набор данных во время обработки по нескольким причинам, например ошибки в файлах, проблемы с данными или сетевые проблемы.Your dataset has been failed during processing due to many reasons, for example file errors, data problems or network issues.

После завершения проверки можно увидеть общее число сопоставленных фразы продолжительностью для каждого набора данных в столбце фразы продолжительностью .After validation is complete, you can see the total number of matched utterances for each of your datasets in the Utterances column. Если выбранный тип данных требует длительного сегментирования, этот столбец отражает только фразы продолжительностью, которые мы сегментированы в зависимости от ваших записей или с помощью службы транскрипции речи.If the data type you have selected requires long-audio segmentation, this column only reflects the utterances we have segmented for you either based on your transcripts or through the speech transcription service. Вы можете дополнительно загрузить набор данных с проверкой, чтобы просмотреть подробные результаты фразы продолжительностью успешно импортированы и записи о сопоставлении.You can further download the dataset validated to view the detail results of the utterances successfully imported and their mapping transcripts. Указание. для завершения обработки данных может потребоваться больше часа.Hint: long-audio segmentation can take more than an hour to complete data processing.

Для наборов данных EN-US и zh-CN можно дополнительно скачать отчет, чтобы проверить результаты произношения и уровень шума для каждой записи.For en-US and zh-CN datasets, you can further download a report to check the pronunciation scores and the noise level for each of your recordings. Оценка произношению дается в диапазоне от 0 до 100.The pronunciation score ranges from 0 to 100. Оценка ниже 70 обычно означает ошибку в речи или несоответствие в сценарии.A score below 70 normally indicates a speech error or script mismatch. Заметный акцент уменьшает оценку произношения и влияет на созданный цифровой голос.A heavy accent can reduce your pronunciation score and impact the generated digital voice.

Более высокий коэффициент сигнала и шума (SNR) обозначает более низкий уровень шума в звуковом файле.A higher signal-to-noise ratio (SNR) indicates lower noise in your audio. Обычно SNR выше 50 можно достичь, производя запись в профессиональных студиях.You can typically reach a 50+ SNR by recording at professional studios. Звуковой файл с SNR менее 20 может привести к явному шуму в созданном голосе.Audio with an SNR below 20 can result in obvious noise in your generated voice.

Рассмотрите возможность повторной записи любых высказываний с низкой оценкой произношения или слабым SNR.Consider re-recording any utterances with low pronunciation scores or poor signal-to-noise ratios. Если повторная запись невозможна, исключите эти высказывания из набора данных.If you can't re-record, you might exclude those utterances from your dataset.

Создание пользовательской модели речиBuild your custom voice model

После проверки набора данных его можно использовать для создания пользовательской модели речи.After your dataset has been validated, you can use it to build your custom voice model.

  1. Переход к тексту в речь > пользовательских голосовых > обучения.Navigate to Text-to-Speech > Custom Voice > Training.

  2. Нажмите кнопку обучение модели.Click Train model.

  3. Затем введите имя и Описание , помогающие определить эту модель.Next, enter a Name and Description to help you identify this model.

    Тщательно выбирайте имя.Choose a name carefully. Имя, которое здесь вводится, будет использоваться, чтобы указать голос в запросе на синтез речи, как часть входных данных SSML.The name you enter here will be the name you use to specify the voice in your request for speech synthesis as part of the SSML input. Допускаются только буквы, цифры и некоторые знаки препинания, такие как- _, и (', ').Only letters, numbers, and a few punctuation characters such as -, _, and (', ') are allowed. Используйте разные имена для разных моделей голоса.Use different names for different voice models.

    Обычно поле Описание используется для записи имен наборов данных, которые использовались для создания модели.A common use of the Description field is to record the names of the datasets that were used to create the model.

  4. На странице выбор обучающих данных выберите один или несколько наборов данных, которые вы хотите использовать для обучения.From the Select training data page, choose one or multiple datasets that you would like to use for training. Проверьте число фразы продолжительностью, прежде чем отправлять их.Check the number of utterances before you submit them. Вы можете начать с любого числа фразы продолжительностью для голосов и моделей en-US и zh-CN.You can start with any number of utterances for en-US and zh-CN voice models. Для других языков необходимо выбрать более 2 000 фразы продолжительностью, чтобы иметь возможность обучать голоса.For other locales, you must select more than 2,000 utterances to be able to train a voice.

    Примечание

    Дубликаты звуковых имен будут удалены из обучения.Duplicate audio names will be removed from the training. Убедитесь, что выбранные наборы данных не содержат одинаковые имена звуков в нескольких ZIP-файлах.Make sure the datasets you select do not contain the same audio names across multiple .zip files.

    Совет

    Для результатов качества требуется использование наборов данных одного и того же динамика.Using the datasets from the same speaker is required for quality results. Когда наборы данных, отправленные для обучения, содержат общее количество менее 6 000 различных фразы продолжительностью, вы обучите свою модель голоса с помощью метода статистического синтеза параметрической.When the datasets you have submitted for training contain a total number of less than 6,000 distinct utterances, you will train your voice model through the Statistical Parametric Synthesis technique. Если объем обучающих данных превышает общее число 6 000 различных фразы продолжительностью, вы начнете процесс обучения с помощью метода синтеза конкатенации.In the case where your training data exceeds a total number of 6,000 distinct utterances, you will kick off a training process with the Concatenation Synthesis technique. Как правило, технология объединения может привести к более естественным результатам, а также к более качественным голосовым.Normally the concatenation technology can result in more natural, and higher-fidelity voice results. Если вы хотите обучить модель с помощью последней технологии нейронного TTS, которая может создать цифровой голос, эквивалентный общедоступным нейроннымголосовым технологиям, обратитесь к специальной команде .Contact the Custom Voice team if you want to train a model with the latest Neural TTS technology that can produce a digital voice equivalent to the publicly available neural voices.

  5. Нажмите кнопку обучение , чтобы начать создание модели речи.Click Train to begin creating your voice model.

В таблице обучения отображается новая запись, соответствующая вновь созданной модели.The Training table displays a new entry that corresponds to this newly created model. В таблице также отображается состояние: обработка, успешно, с ошибками.The table also displays the status: Processing, Succeeded, Failed.

Отображаемое состояние отражает процесс преобразования набора данных в голосовую модель, как показано ниже.The status that's shown reflects the process of converting your dataset to a voice model, as shown here.

СостояниеState ЗначениеMeaning
ОбработкаProcessing Создается модель речи.Your voice model is being created.
УспешноSucceeded Ваша модель голоса создана и может быть развернута.Your voice model has been created and can be deployed.
FailedFailed Не удалось обучить модель голоса по нескольким причинам, например незамеченные проблемы с данными или проблемы с сетью.Your voice model has been failed in training due to many reasons, for example unseen data problems or network issues.

Время обучения зависит от объема обработанных звуковых данных.Training time varies depending on the volume of audio data processed. Обычный диапазон времени варьируется от 30 минут для сотен выражений до 40 часов — для 20 000 выражений.Typical times range from about 30 minutes for hundreds of utterances to 40 hours for 20,000 utterances. После того как обучение модели будет завершено, можно приступить к тестированию.Once your model training is succeeded, you can start to test it.

Примечание

Бесплатная подписка (F0). пользователи могут одновременно обучать один голосовый шрифт.Free subscription (F0) users can train one voice font simultaneously. Пользователи стандартной подписки (S0) могут одновременно обучать три голоса.Standard subscription (S0) users can train three voices simultaneously. Если вы достигли предела, подождите, пока хотя бы один из ваших голосов завершит обучение, а затем повторите попытку.If you reach the limit, wait until at least one of your voice fonts finishes training, and then try again.

Примечание

Максимальное число моделей, разрешенных для обучения на подписку, составляет 10 моделей для бесплатных пользователей подписки (F0) и 100 для пользователей стандартной подписки (S0).The maximum number of voice models allowed to be trained per subscription is 10 models for free subscription (F0) users and 100 for standard subscription (S0) users.

Если вы используете функцию обучения нейронных голосовых операций, вы можете выбрать модель, оптимизированную для сценариев потоковой передачи в реальном времени, или алгоритм нейронной жизни HD, оптимизированный для асинхронного синтеза длинных аудио.If you are using the neural voice training capability, you can select to train a model optimized for real-time streaming scenarios, or a HD neural model optimized for asynchronous long-audio synthesis.

Тестирование модели голосаTest your voice model

После успешного создания голос можно протестировать перед развертыванием.After your voice font is successfully built, you can test it before deploying it for use.

  1. Переход к тексту в речь > тестирование пользовательских голосовых >.Navigate to Text-to-Speech > Custom Voice > Testing.

  2. Нажмите кнопку добавить тест.Click Add test.

  3. Выберите одну или несколько моделей, которые вы хотите протестировать.Select one or multiple models that you would like to test.

  4. Укажите текст, с которым должны говориться голоса.Provide the text you want the voice(s) to speak. Если выбрано тестирование нескольких моделей одновременно, то для тестирования различных моделей будет использоваться один и тот же текст.If you have selected to test multiple models at one time, the same text will be used for the testing for different models.

    Примечание

    Язык текста должен быть таким же, что и язык голоса.The language of your text must be the same as the language of your voice font. Можно тестировать только успешно обученные модели.Only successfully trained models can be tested. На этом шаге поддерживается только обычный текст.Only plain text is supported in this step.

  5. Нажмите кнопку Создать.Click Create.

После отправки тестового запроса вы вернетесь на тестовую страницу.Once you have submitted your test request, you will return to the test page. Теперь таблица содержит запись, соответствующую новому запросу, и столбец состояния.The table now includes an entry that corresponds to your new request and the status column. Синтезирование голоса может занять несколько минут.It can take a few minutes to synthesize speech. Когда в столбце состояние будет указано значение успех, можно воспроизвести звук или загрузить текстовые входные данные (txt-файл) и аудио (файл с расширением. wav), а также дополнительно аудитион второй для качества.When the status column says Succeeded, you can play the audio, or download the text input (a .txt file) and audio output (a .wav file), and further audition the latter for quality.

Результаты теста можно также найти на странице сведений каждой модели, выбранной для тестирования.You can also find the test results in the detail page of each models you have selected for testing. Перейдите на вкладку " обучение " и щелкните имя модели, чтобы ввести страницу сведений о модели.Go to the Training tab, and click the model name to enter the model detail page.

Создание и использование пользовательской конечной точки голосаCreate and use a custom voice endpoint

После того как вы успешно создали и протестировали свою голосовую модель, она развертывается в пользовательской конечной точке службы "Преобразование текста в речь".After you've successfully created and tested your voice model, you deploy it in a custom Text-to-Speech endpoint. Затем эта конечная точка используется вместо обычной конечной точки при выполнении запросов службы "Преобразование текста в речь" через REST API.You then use this endpoint in place of the usual endpoint when making Text-to-Speech requests through the REST API. Пользовательская конечная точка может быть вызвана только подпиской, которая использовалась для развертывания шрифта.Your custom endpoint can be called only by the subscription that you have used to deploy the font.

Чтобы создать новую настраиваемую конечную точку голосовой связи, перейдите в раздел Преобразование текста в речь > настраиваемого голосового > развертывания.To create a new custom voice endpoint, go to Text-to-Speech > Custom Voice > Deployment. Выберите Добавить конечную точку и введите имя и Описание пользовательской конечной точки.Select Add endpoint and enter a Name and Description for your custom endpoint. Затем выберите пользовательскую голосовую модель, которую нужно связать с этой конечной точкой.Then select the custom voice model you would like to associate with this endpoint.

После нажатия кнопки Добавить в таблице конечная точка появится запись для новой конечной точки.After you have clicked the Add button, in the endpoint table, you will see an entry for your new endpoint. Создание конечной точки может занять несколько минут.It may take a few minutes to instantiate a new endpoint. Когда состояние развертывания будет завершено, конечная точка будет готова к использованию.When the status of the deployment is Succeeded, the endpoint is ready for use.

Примечание

У пользователей бесплатной подписки (F0) может быть развернута только одна модель.Free subscription (F0) users can have only one model deployed. Пользователи стандартной подписки (S0) могут создавать до 50 конечных точек, каждый из которых имеет собственный пользовательский Voice.Standard subscription (S0) users can create up to 50 endpoints, each with its own custom voice.

Примечание

Для использования пользовательского голоса необходимо указать имя модели голоса, использовать настраиваемый URI непосредственно в HTTP-запросе и использовать ту же подписку для прохождения проверки подлинности службы TTS.To use your custom voice, you must specify the voice model name, use the custom URI directly in an HTTP request, and use the same subscription to pass through the authentication of TTS service.

После развертывания конечной точки имя конечной точки отображается в виде ссылки.After your endpoint is deployed, the endpoint name appears as a link. Щелкните ссылку, чтобы отобразить сведения, относящиеся к конечной точке, такие как ключ конечной точки, URL-адрес конечной точки и пример кода.Click the link to display information specific to your endpoint, such as the endpoint key, endpoint URL, and sample code.

Тестирование конечной точки в сети также доступно через портал настраиваемых пользовательских голосовых моделей.Online testing of the endpoint is also available via the custom voice portal. Чтобы проверить конечную точку, выберите проверить конечную точку на странице сведений о конечной точке .To test your endpoint, choose Check endpoint from the Endpoint detail page. Откроется страница тестирования конечной точки.The endpoint testing page appears. Введите текст для озвучивания (в текстовом поле в формате обычного текста или SSML ).Enter the text to be spoken (in either plain text or SSML format in the text box. Нажмите кнопку Воспроизведение, чтобы прослушать текст с помощью пользовательской голосовой модели.To hear the text spoken in your custom voice font, select Play. Для этой функции тестирования будет использоваться плата за использование пользовательского синтеза речи.This testing feature will be charged against your custom speech synthesis usage.

Пользовательская конечная точка функционально идентична стандартной конечной точке, используемой для запросов преобразования текста в речь.The custom endpoint is functionally identical to the standard endpoint that's used for text-to-speech requests. Дополнительные сведения см. в статье о REST API.See REST API for more information.

Следующие шагиNext steps