Запись примеров голосов для пользовательского нейронного голоса

Статья
01/21/2024

В этой статье приведены инструкции по подготовке высококачественных образцов голосовой связи для создания профессиональной голосовой модели с помощью пользовательского проекта нейронного голоса Pro.

Создание высококачественных рабочих пользовательских нейронных голосовых моделей с нуля нельзя назвать стандартной операцией. Центральным компонентом пользовательской голосовой нейронной модели является большая коллекция звуковых образцов человеческой речи. Очень важно, чтобы эти аудиозаписи были высокого качества. Выберите актера озвучивания, у которого есть опыт создания таких записей, и пусть студийный звукоинженер запишет их с помощью профессионального оборудования.

Прежде чем вы сможете сделать эти записи, однако, вам потребуется сценарий: слова говорятся вашим талантом голоса, чтобы создать звуковые образцы.

Создание профессиональной записи речи включает в себя много важных деталей. В этом руководстве детально описывается процесс, с помощью которого вы получите соответствующие и согласованные результаты.

Советы для подготовки данных к высококачественной голосовой связи

Очень естественный пользовательский нейронный голос зависит от нескольких факторов, таких как качество и размер обучающих данных.

Качество обучающих данных является основным фактором. Например, в том же обучающем наборе, согласованном томе, скорости речи, разговорном шаге и стиле речи важно создать высококачественный пользовательский нейронный голос. Кроме того, следует избегать фонового шума в записи и убедиться, что сценарий и запись совпадают. Чтобы обеспечить качество данных, необходимо следовать критериям выбора скрипта и требованиям к записи.

В отношении размера обучающих данных в большинстве случаев можно создать разумный пользовательский нейронный голос с 500 речевых фрагментов. Согласно нашим тестам, добавление дополнительных обучающих данных на большинстве языков не обязательно улучшает естественность самого голоса (протестировано с помощью оценки MOS), однако с большим количеством обучающих данных, охватывающих больше экземпляров слов, у вас есть более высокая возможность уменьшить соотношение неудовлетворительных частей речи для голоса, таких как сбои. Чтобы услышать, какие недовольные части речи похожи, см. в примерах GitHub.

В некоторых случаях может потребоваться голосовая персона с уникальными характеристиками. Например, мультяшная персона нуждается в голосе с особым стилем речи, или голосом, который является динамическим в интонации. В таких случаях рекомендуется подготовить по крайней мере 1000 (предпочтительно 2000) речевых фрагментов и записать их в профессиональной студии записи. Дополнительные сведения о том, как улучшить качество голосовой модели, ознакомьтесь с характеристиками и ограничениями для использования пользовательского нейронного голоса.

Роли записи речи

В проекте записи пользовательского нейронного голоса есть четыре основные роли.

Role	Характер использования
Актер озвучивания	Голос этого человека формирует основу пользовательского нейронного голоса.
Студийный звукоинженер	Контролирует технические аспекты записи и управляет оборудованием звукозаписи.
Директор	Подготавливает сценарий и проводит коучинг актера озвучивания для получения эффективного результата.
Редактор	Обрабатывает звуковые файлы на последнем этапе и готовит их для отправки в Speech Studio.

Отдельный пользователь может заполнить несколько ролей. В этом руководстве предполагается, что вы заполняете роль директора и нанимаете как талант голоса, так и инженера записи. Если вы хотите создавать записи самостоятельно, в этой статье вы также найдете некоторые сведения о роли звукоинженера. Роль редактора не требуется до тех пор, пока после сеанса записи не требуется. В то же время директор или инженер записи могут заполнить эту роль.

Выбор актера озвучивания

Актеры с опытом голосовой передачи, голосовой персонаж работы, объявление или новости чтения делают хороший голос талант. Выберите актера, естественный голос которого вам нравится. Можно создать уникальные "символьные" голоса, но это труднее для большинства талантов выполнять их последовательно, и усилия могут вызвать напряжение голоса. Единственным наиболее важным фактором для выбора актера озвучивания является согласованность. Ваши записи речи в одном стиле должны звучать так, будто они сделаны в один день в одном помещении. Этого можно достичь благодаря применению специальных методов записи речи и навыков звукообработки.

Ваш актер озвучивания должен иметь возможность говорить с постоянной скоростью, уровнем громкости, частотой и тоном с четкой дикцией. Они также должны иметь возможность контролировать их вариации поля, эмоциональный эффект и манеры речи. Запись голосовых примеров может быть более жирной, чем другие виды голосовой работы, поэтому большинство талантов голоса могут записывать только в течение двух или трех часов в день. Ограничьте сеансы до трех или четырех дней в неделю. Желательно, чтобы между ними был выходной.

Вместе с вашим актером озвучивания создайте пользователя, который будет определять общее звучание и эмоциональный тон пользовательского нейронного голоса, убедившись, что точно определяете, что звучит "нейтрально" для этого пользователя. Вы определяете стили речи вашей персоны и попросите ваших голосовых талантов читать сценарий таким образом, чтобы резонировать с нужными стилями.

Например, пользователь с оптимистичным характером будет иметь нотку оптимизма, даже когда он говорит нейтрально. Однако этот признак должен быть едва заметным и уместным. Прослушайте записи речи современных актеров озвучивания, чтобы определиться с тем, что именно вам нужно.

Совет

Обычно директор хочет, чтобы ему принадлежали сделанные им звукозаписи. Актер озвучивания должен согласиться на контракт с выполнением работы по найму.

Создание сценария

Отправной точкой любого сеанса записи пользовательской нейронной голосовой модели является сценарий, который содержит высказывания, произносимые голосом актера. Термин "речевые фрагменты" охватывает полные предложения и короткие фразы. Для создания пользовательского нейронного голоса требуется по крайней мере 300 записанных речевых фрагментов в качестве обучающих данных.

Высказывания в сценарии могут быть разнообразными: взятыми из фантастики, научной литературы, быть расшифровками, новостными сообщениями и прочим, что доступно в печатной форме. Ознакомьтесь с требованиями закона об авторском праве в разделе Юридическая правомерность. Можно также написать собственный текст.

Речевые фрагменты не должны поступать из одного источника, одного и того же типа источника или иметь какую-либо связь друг с другом. Тем не менее, если в приложении речи вы используете стандартные фразы (например, "Вход выполнен успешно"), включите их в сценарий. Это дает пользовательский нейронный голос лучше всего произносить эти фразы.

Рекомендуем, чтобы сценарии записи включали общие предложения и предложения для конкретного домена. Например, если вы планируете записать 2000 предложений, 1000 из них могут быть общими, а оставшаяся 1000 может быть предложениями из целевого домена или варианта использования приложения.

Мы предоставляем примеры сценариев по тематикам "Общая", "Чат" и "Служба клиента" для каждого языка, которые помогут вам подготовить сценарии записи. Вы можете использовать эти общие сценарии Майкрософт непосредственно для записи или в качестве справочных данных для создания собственных записей.

Критерии выбора сценариев

Ниже приведены некоторые общие рекомендации, которые помогут создать хорошую основу (записанные аудиопримеры) для обучения пользовательского нейронного голоса.

Ваш сценарий должен включать в себя разные типы предложений по тематике, включая инструкции, вопросы, восклицания, длинные и короткие предложения.

Каждое предложение должно содержать четыре слова до 30 слов, и в скрипт не следует включать повторяющиеся предложения.
Сведения о том, как сбалансировать различные типы предложений, см. в следующей таблице:

Типы предложений	Охват
Предложения-инструкции	Утвердительные предложения должны составлять 70–80 % сценария.
Вопросительные предложения	Вопросительные предложения должны составлять около 10–20 % сценария по теме, включая 5–10 % с восходящей и 5–10 % с нисходящей интонацией.
Восклицательные предложения	Восклицательные предложения должны составлять около 10–20 % сценария.
Короткие слова и фразы	Короткие слова и фразы (по 5–7 слов на фразу) должны составлять около 10 % всех фраз.

Примечание.

Короткие слова и фразы должны быть разделены запятыми. Они напоминают вашему актеру озвучивания делать краткие паузы при чтении.

Основные рекомендации:

Сбалансированное использование частей речи, таких как глаголы, существительные, прилагательные и т. д.
Сбалансированное произношение. Включите все буквы от A до Z, чтобы текст в речевой механизм узнал, как произносить каждую букву в вашем стиле.
Понятный, читабельный, логичный текст для чтения.
Избегайте слишком большого количества похожих шаблонов для слов и фраз, таких как "легко" и "легче".
Включите разные форматы использования чисел: адреса, единицы измерения, номера телефонов, количество, даты и т. д. во всех типах предложений.
Включите орфографические предложения, если это то, что ваш пользовательский нейронный голос будет читать. Например, "яблоко по буквам — Я Б Л О К О".

Не размещайте несколько предложений в одну строку или одном высказывании. Каждый речевой фрагмент начинайте с новой строки.
Убедитесь, что предложение легкое для восприятия. Как правило, не включать слишком много нестандартных слов, таких как числа или сокращения, так как они трудно читать. Для некоторых приложений может потребоваться чтение множества чисел или акронимов. В этих случаях можно включить эти слова, но обязательно в нормальном разговорном формате.

Ниже приведены особые рекомендации для примера.
- Для строк с сокращениями используйте полную форму, например пишите "и так далее" вместо "и т. д.".
- Цифры в строках записывайте прописью, например, "девять один один" вместо "911".
- Для строк с акронимами вместо "ABC" пишите "A B C".
Кроме того, убедитесь, что актер озвучивания произносит эти слова соответствующим образом. Проверяйте соответствие записей сценариям в процессе обучения.
Сценарий должен включать в себя много разных слов и предложений с разной длиной, множеством структур и эмоциональных оттенков.
Внимательно проверьте сценарий на наличие ошибок. Если возможно, попросите кого-нибудь еще проверить его. Когда вы выполняете сценарий с вашим талантом голоса, вы можете поймать больше ошибок.

Разница между сценарием актера озвучивания и сценарием обучения

Сценарий обучения может отличаться от сценария актера озвучивания, особенно для сценариев, содержащих цифры, символы, сокращения, дату и время. Сценарии, подготовленные для актера озвучивания, имеют собственные нормы чтения, например 50 % и 45$. Сценарии, используемые для обучения, должны быть нормализованы, чтобы полностью соответствовать аудиозаписи, например пятьдесят процентов и сорок пять долларов.

Примечание.

Мы предоставляем некоторые примеры сценариев для актера озвучивания на GitHub. Чтобы использовать примеры сценариев для обучения, их необходимо нормализовать в соответствии с записью актера озвучивания перед отправкой файла.

В следующей таблице показаны различия между сценариями для актера озвучивания и нормализованным сценарием для обучения.

Категория	Пример сценария актера озвучивания	Пример сценария обучения (нормализованный)
Цифры	123	сто двадцать три
Символы	50%	пятьдесят процентов
Аббревиатура	Как можно скорее	как можно скорее
Дата и время	3 марта в 17:00	Третье марта в семнадцать часов

Типичные недостатки сценариев

Плохое качество сценария может негативно сказаться на результатах обучения. Для получения качественных результатов обучения важно избегать таких недостатков.

Недостатки сценария обычно делятся на следующие категории:

Категория	Пример
Бессмысленное содержимое.	"Бесцветные зеленые идеи яростно спят".
Неполные предложения.	- "Это была моя последняя канун" (ни тема, ни какой конкретный смысл) - "Они уже смешно (нет кавычки в конце концов, это не полный приговор)
Опечатки в предложениях.	— Начало предложения со строчной буквы — Отсутствие закрывающих знаков препинания при необходимости -Ошибочное — Отсутствие знаков препинания: нет точки в конце (кроме заголовков) - Конец символами, запятыми, вопросом, восклицательным — Неправильный формат, например: — руб. 45 (должно быть 45 руб.) — Отсутствие пробелов или лишние пробелы между словами/знаками препинания
Повторение в едином формате, достаточно по одному на шаблон.	— "Сейчас в Москве 13 часов" — "Сейчас в Москве14 часов" — "Сейчас в Москве 15 часов" — "Сейчас в Санкт-Петербурге 13 часов" — "Сейчас в Саратове 13 часов"
Редкие заимствованные слова: для сценариев допустимы только общеупотребимые заимствования.	В английском языке можно использовать французское слово faux в общеупотребимой речи, но такое французское выражение, как coincer la bulle, не будет общеупотребимым.
Эмодзи или любые другие нестандартные символы.

Формат сценария

Этот сценарий предназначается для использования во время сеанса записи, поэтому вы можете настроить его так, как вам удобно. Отдельно создайте текстовый файл, необходимый для Speech Studio.

Основной формат сценария включает в себя три столбца.

Номер высказывания, начиная с 1. Нумерация облегчит быстрый поиск конкретного высказывания для всех присутствующих в студии ("Давайте попробуем номер 356 снова"). Вы можете использовать возможность нумерации абзацев в текстовом процессоре Microsoft Word для автоматической нумерации строк таблицы.
Пустой столбец, в котором записывается номер или код времени каждой фразы, помогающий найти его в готовой записи.
Текст самого высказывания.

Sample script

Примечание.

Запись на большинстве студий производится короткими сегментами, которые называют "фрагментами". Каждый фрагмент обычно содержит от 10 до 24 высказываний. Указания номера фрагмента будет достаточно, чтобы позже найти высказывание. При записывании речи в студии, где предпочитают создавать более длинные записи, можно указать временной код. В студии будет на явном месте отображаться соответствующее время.

Оставьте достаточно места после каждой строки, чтобы писать заметки. Между страницами не должно быть разделенных высказываний. Пронумеруйте страницы и распечатайте сценарий на одной стороне листа.

Распечатайте три копии сценария: один для актера озвучивания, один для звукоинженера и один для директора (для себя). Используйте скрепку вместо скрепок: опытный голосовой художник отделяет страницы, чтобы избежать шума по мере поворота страниц.

Заявление актера озвучивания

Чтобы обучить нейронный голос, необходимо создать профиль таланта голоса с звуковым файлом, записанным талантом голоса, предоставив согласие на использование данных речи для обучения пользовательской голосовой модели. При подготовке сценария записи убедитесь, что вы включили в него предложение из заявления.

Юридическая правомерность

Согласно закону об авторском праве, чтение актером текста, защищенного авторским правом, может являться действием, за которое автор текста должен получить компенсацию. При воспроизведении этого текста в готовом продукте (с помощью пользовательской нейронной голосовой модели) источник обнаружен не будет, тем не менее правомерность использования работы, защищенной авторским правом, не установлена для этой цели явным образом. Корпорация Майкрософт не может предоставить юридическую консультацию по этому вопросу — вы можете получить консультацию у своего юриста.

К счастью, с этими проблемами можно и не столкнуться. Есть много источников текстов, которые можно использовать без разрешения или лицензии.

Источник текста	Description
Документация CMU Arctic	В проектах синтеза речи можно использовать около 1100 предложений, выбранных из работ, не защищенных авторским правом. Хороший старт.
Работы, больше не защищенные авторским правом	Сюда входят работы, опубликованные до 1923 года. Для английского языка Project Gutenberg предлагает десятки тысяч таких работ. Вы можете сосредоточиться на новых работах, так как язык ближе к современному английскому языку.
Государственные работы	Работы, созданные правительством США, не защищены авторскими правами в США, хотя правительство может претендовать на авторские права в других странах или регионах.
Работы, ставшие всеобщим достоянием	Работает, для которого авторские права явно не защищены или выделены для общественного домена. Возможно, не удастся полностью отказаться от авторских прав в некоторых юрисдикциях.
Лицензированные работы по разрешению	Работы, распространенные по лицензии, например Creative Commons или лицензии свободной документации GNU. Википедия использует лицензию GNU. Однако некоторые лицензии могут налагать ограничения на производительность лицензированного содержимого, которое может повлиять на создание пользовательской нейронной голосовой модели, поэтому внимательно прочтите лицензию.

Запись сценария

Запишите свой сценарий в профессиональной вокальной студии звукозаписи. У них есть стенд записи, правильное оборудование, и правильные люди для его работы. Рекомендуем не экономить на записи.

Обсудите свой проект со студийным звукоинженером и прислушайтесь к его рекомендациям. Запись должна иметь небольшое сжатие динамического диапазона или же оно должно отсутствовать (максимум 4:1). Очень важно, чтобы у записи была единая громкость и высокое отношение сигнала к шуму, при этом должны отсутствовать лишние звуки.

Требования к записи

Чтобы получить качественные результаты обучения, соблюдайте следующие требования во время записи или подготовки данных:

четкое и правильное произношение;
естественная скорость: не слишком медленное и не слишком быстрое воспроизведение файлов;
подходящий уровень громкости, интонация и паузация: одинаковые внутри предложения и между ними, правильная паузация для обозначения пунктуационных знаков;
отсутствие шума во время записи;
учет особенностей персонажа;
правильный акцент: в зависимости от целевой аудитории;
правильное произношение.

Чтобы подготовить примеры аудио, используйте приведенные ниже рекомендуемые характеристики.

Свойство	Значение
File format	*.wav, Mono
Частота выборки	24 кГц
Формат образца	16 бит, PCM
Пиковые уровни громкости	–3–6 дБ
Сигнал/шум	> 35 дБ
Тишина	— В начале и конце должен быть отрезок тишины (рекомендуется 100 мс), но не более 200 мс. — Тишина между словами или фразами << -30 дБ — Тишина после произнесения последнего слова < -60 дБ
Шум среды или эхо	— Уровень шума в начале перед говорением < –70 дБ

Примечание.

Вы можете записывать с более высокой частотой дискретизации и глубиной в битах, например в формате 48 кГц 24 бит PCM. Во время обучения пользовательского нейронного голоса мы автоматически сократим качество до 24 кГц 16 бит PCM.

Более высокий коэффициент сигнала и шума (SNR) обозначает более низкий уровень шума в звуковом файле. Обычно SNR выше 35 можно достичь при записи в профессиональных студиях. Звуковой файл с SNR менее 20 может привести к явному шуму в созданном голосе.

Рассмотрите возможность повторной записи любых высказываний с низкой оценкой произношения или слабым SNR. Если невозможно выполнить повторную запись, исключите эти речевые фрагменты из набора данных.

Типичные ошибки звукозаписи

Для качественных результатов обучения настоятельно рекомендуется избегать ошибок звукозаписи. Ошибки звука обычно находятся в следующих категориях:

Название аудиофайла не соответствует идентификатору сценария.
WAR-файл имеет недопустимый формат и не может быть прочитан.
Частота дискретизации звука ниже 16 кГц. Для высококачественного нейронного голоса рекомендованная частота дискретизации примеров WAV-файлов должна быть не меньше 24 кГц.
Пиковая громкость не находится в диапазоне от –3 дБ (70 % от максимальной громкости) до –6 дБ (50 %).
Переполнение формы колебаний: форма колебаний обрезается на своем пиковом значении, и поэтому не является полной.
Части записи без голоса не являются чистыми; вы можете слышать такие звуки, как фоновый шум, звук дыхания и эхо.

Например, в следующем примере между записанным звуком слышны фоновые шумы.

Ниже приведен пример, на котором слышны наводки или эхо.
Громкость слишком мала. Данные помечены как проблема, если объем меньше -18 dB (10 % максимального тома). Убедитесь, что все звуковые файлы имеют одинаковый уровень громкости.
Нет отрезка тишины перед первым словом и после последнего. Кроме того, тишина в начале и конце не должна длиться более 200 мс или менее 100 мс.

Сделайте сами

Если вы хотите создать запись самостоятельно, а не идти в студию звукозаписи, вот краткое руководство. Благодаря росту популярности любительских записей и аудиороликов можно быстро найти в Интернете полезные рекомендации по записи и нужные ресурсы.

В качестве речевой студии можно использовать небольшую комнату без заметного эха или звукового фона. Она должна быть максимально тихой и звуконепроницаемой. Ткани на стенах можно использовать для уменьшения эха и нейтрализации или "заглушения" звукового фона комнаты.

Используйте высококачественный студийный конденсаторный микрофон, предназначенный для записи голоса. Качественными считаются микрофоны Sennheiser, AKG и даже последняя версия Zoom. Вы можете купить микрофон или арендовать его у местной аудиовизуальной фирмы. Поищите микрофон с USB-интерфейсом. Этот тип микрофона удобно сочетает в себе микрофонный элемент, предусилитель и аналого-цифровой преобразователь, что упрощает подключение.

Вы также можете использовать аналоговый микрофон. Многие арендные дома предлагают винтажные микрофоны, известные своим звучанием. Профессиональные аналоговые передачи используют сбалансированные соединители XLR, а не 1/4-дюймовый подключаемый модуль, используемый в потребительском оборудовании. Если вы выбрали аналоговое оборудование, вам также понадобятся предусилитель и компьютерный аудиоинтерфейс с этими разъемами.

Установите микрофон на стенде или буме и установите поп-фильтр перед микрофоном, чтобы исключить шум из созвучных "p" и "b". Некоторые микрофоны приходят с подвесной монтированием, которое изолирует их от вибраций в стенде, что полезно.

Актер должен находиться на соответствующем расстоянии от микрофона. Используйте ленту для пола, чтобы отметить место, где нужно стать. Если актер предпочитает сидеть, внимательно следите за расстоянием между ним и микрофоном. Не стоит двигать стул, чтобы избежать лишних звуков.

Используйте подставку для сценария. Не двигайте подставку, так как она может отражать звук по направлению к микрофону.

Человек, который работает с оборудованием звукозаписи (звукоинженер), должен находиться в отдельной комнате, отдельно от актера, а также иметь возможность общаться с актером в речевой студии (по микрофону служебной связи).

Запись должна содержать как можно меньше шума с целевой громкостью 80 дБ или выше.

Прислушайтесь к записи тишины в своей речевой студии, выясните, откуда исходит какой-либо шум, и устраните причину. Распространенными источниками шума являются вентиляционные отверстия, флуоресцентная световая аппаратура, движение на близлежащих дорогах и вентиляторы оборудования (даже у ноутбуков могут быть вентиляторы). Микрофоны и кабели могут производить электрический шум из соседней проводки переменного тока, как правило это гул или дребезжание. Дребезжание может быть вызвано циклом заземления, возникающим из-за того, что оборудование подключено к нескольким электрическим цепям.

Совет

В некоторых случаях вы можете использовать эквалайзер или программный модуль для снижения шума, чтобы удалить шум из записей, хотя всегда лучше убрать его в источнике.

Установите уровни таким образом, чтобы большая часть доступного динамического диапазона цифровой записи использовалась без перенапряжения. Это означает, что уровень громкости не должен искажать звук. Ниже приведен пример формы колебаний хорошей записи.

A good recording waveform

Здесь используется большая часть диапазона (высота), но самые высокие пики сигнала не достигают верхней или нижней части окна. Вы также можете видеть, что тишина в записи приближается к тонкой горизонтальной линии, что указывает на низкий уровень шума. Эта запись имеет приемлемые динамический диапазон и отношение сигнала и шума.

Создавайте запись непосредственно на компьютере, используя высококачественный аудиоинтерфейс или USB-порт, в зависимости от используемого микрофона. Для аналоговой записи цепочка простая: микрофон, предусилитель, аудиоинтерфейс, компьютер. Avid Pro Tools и Adobe Audition можно лицензировать ежемесячно по разумной цене. Если ваш бюджет очень ограничен, попробуйте бесплатное ПО Audacity.

Создавайте записи монофонического формата 44,1 кГц 16 бит (качество CD) или выше. Используйте новейший формат 48 кГц 24 бит, если он поддерживается оборудованием. Нужно снизить разрешение аудиосигнала до 24 кГц 16 бит, прежде чем отправлять его в Speech Studio. Тем не менее требуется высококачественная исходная запись в случае необходимости редактирования.

В идеале, роли директора, инженера и актера должны выполнять разные люди. Не пытайтесь делать все сами! В крайнем случае один человек может быть директором и инженером.

Прежде началом сеанса

Чтобы не тратить время в студии, вместе с актером озвучивания быстро просмотрите сценарий перед записью. Когда актер озвучивания ознакомится с текстом, он сможет уточнить произношение каких-либо незнакомых слов.

Примечание.

Большинство студий звукозаписи предлагают электронное отображение сценариев в речевой студии. В этом случае введите примечания, которые нужно просмотреть, непосредственно в документ сценария. Однако помните, что вам все равно понадобится бумажная копия, в которую вы будете вносить заметки во время сеанса. Большинству звукоинженеров также понадобится печатная копия. На случай сбоя компьютера не лишним будет распечатать третью копию для актера.

Актер озвучивания может спросить, на каком слове в высказывании стоит сделать логическое ударение ("ключевое слово"). Скажите, что вам требуется естественное чтение без особого выделения слов. Логические ударения можно добавить при синтезе речи, но они не должны быть частью исходной записи.

Следите за тем, чтобы актеры отчетливо произносили слова. Каждое слово сценария должно быть произнесено в точности так, как оно написано. Не нужно опускать или "глотать" звуки, как это принято в повседневной речи, если только они не написаны таким образом в сценарии.

Письменный текст	Нежелательное повседневное произношение
Здравствуйте, Наталья Ивановна	Здрасте, Наталья Ивановна
Конечно, я понимаю	Конешно, я понимаю
Когда же он вернется	Када же он вернется
Она говорит, что все знает	Она грит, что все знает

Талант не должен* добавлять отдельные паузы между словами. Предложение все равно должно звучать естественным образом, даже если оно звучит немного формально. Для этого может потребоваться практика.

Сеанс записи

В начале сеанса создайте справочную запись или файл соответствия стандартного высказывания. Попросите актера повторять эту строку на каждой странице. Каждый раз сравнивайте новую запись со справочной. Эта практика поможет актеру придерживаться согласованности в громкости, темпе, подаче тона и интонации. В то же время инженер может использовать файл соответствия как справку по уровням и для общей согласованности звука.

Файл соответствия особенно важен при возобновлении записи после перерыва или в другой день. Для актера нужно будет воспроизвести ее несколько раз и попросить его повторять запись, пока не будет достигнуто соответствие.

Чтобы записать корпус с определенным стилем, тщательно выберите сценарии, демонстрирующие нужный стиль. Во время записи убедитесь, что талант голоса поддерживает согласованные в томе, темпе, шаге и тоне для достижения записей, которые воплощают предполагаемый стиль.

Попросите актера перед произнесением каждого высказывания на мгновение сделать глубокий вдох и паузу. Запишите паузу в несколько секунд между высказываниями. Слова должны произноситься одинаково каждый раз, когда они появляются, учитывая контекст. Например, "берег" как глагол произносится не так как "берег" как существительное.

Запишите паузу примерно в пять секунд, а затем приступите к созданию первой записи, чтобы записать звуковой фон комнаты. Это поможет Speech Studio компенсировать в записях любой оставшийся шум.

Совет

Все, что нужно — это актер озвучивания, поэтому можно сделать монофоническую (одноканальную) запись только нужных строк. Тем не менее, если вы записываете на стереопроигрыватель, вы можете использовать второй канал для записи обсуждения в диспетчерской, чтобы фиксировать обсуждение конкретных строк или фрагментов. Удалите эту запись из версии, загруженной в Speech Studio.

Используя наушники, внимательно слушайте, как звучит голос актера. Вам нужна хорошая естественная дикция, правильное произношение и отсутствие нежелательных звуков. При необходимости попросите актера перезаписать высказывание, которое не соответствует этим стандартам.

Совет

Если используется большое количество высказываний, одно высказывание может не оказывать заметного влияния на результирующую пользовательскую нейронную голосовую модель. Поэтому может быть целесообразнее просто отметить любые несоответствующие высказывания, исключить их из набора данных и еще раз прослушать запись. Вы всегда можете вернуться в студию и записать пропущенные образцы позже.

Обратите внимание на номер фрагмента или временной код в сценарии для каждого высказывания. Спросите звукоинженера, может ли он отметить каждое высказывание в метаданных записи или в файле разметки.

Рекомендуется делать регулярные перерывы и пить воду, чтобы голос актера оставался в хорошей форме.

После сеанса

В современных студиях звукозаписи используются компьютеры. В конце сеанса вы получаете один или несколько аудиофайлов, а не кассету. Эти файлы, вероятно, формат WAV или AIFF в качестве CD (44,1 КГц 16-разрядная версия) или лучше. Наиболее распространенный и предпочтительный формат — 24 кГц 16 бит. Частота дискретизации по умолчанию для пользовательского нейронного голоса составляет 24 кГц. Для обучающих данных рекомендуется использовать частоту выборки в 24 кГц. Более высокие частоты выборки, такие как 96 КГц, обычно не требуются.

В Speech Studio каждое высказывание должно предоставляться в собственном файле. В каждом звуковом файле, поставляемом студией, содержатся несколько высказываний. Поэтому основная задача после создания записей — разделить их и подготовить к отправке. Звукоинженер может разместить метки в файле (или предоставить отдельный файл разметки), чтобы указать начало каждого высказывания.

Используйте свои заметки, чтобы найти нужные фрагменты, затем используйте программу редактирования звука, например Avid Pro Tools, Adobe Audition или бесплатное ПО Audacity, чтобы скопировать каждое высказывание в новый файл.

Внимательно слушайте каждый файл. На этом этапе вы можете удалить небольшие нежелательные звуки, которые вы пропустили во время записи, например звук смыкания губ перед чтением строки, но будьте осторожны, чтобы не удалить какие-либо слова в речи. Если вы не можете исправить файл, удалите его из своего набора данных, сделав заметку об этом.

Перед сохранением конвертируйте каждый файл в формат 16 бит/24 кГц и, если вы записали студийное обсуждение, удалите второй канал. Сохраните каждый файл в формате WAV, присвоив файлам имена с номером высказывания из сценария.

Наконец, создайте расшифровку, которая связывает каждый WAV-файл с текстовой версией соответствующего высказывания. Обучение голосовой модели включает сведения о требуемом формате. Вы можете скопировать текст непосредственно из своего сценария. Затем создайте ZIP-файл WAV-файлов и текстовую расшифровку.

Архивируйте оригинальные записи в безопасном месте, в случае если они вам понадобятся позже. Сохраните свой сценарий и заметки.

Следующие шаги

Вы готовы загрузить свои записи и создать пользовательскую нейронную голосовую модель.

Обучение голосовой модели

Запись примеров голосов для пользовательского нейронного голоса

Советы для подготовки данных к высококачественной голосовой связи

Роли записи речи

Выбор актера озвучивания

Создание сценария

Критерии выбора сценариев

Разница между сценарием актера озвучивания и сценарием обучения

Типичные недостатки сценариев

Формат сценария

Заявление актера озвучивания

Юридическая правомерность

Запись сценария

Требования к записи

Типичные ошибки звукозаписи

Сделайте сами

Прежде началом сеанса

Сеанс записи

После сеанса

Следующие шаги

Дополнительные ресурсы