Запись образцов голоса для создания пользовательских голосовых моделейRecord voice samples to create a custom voice

Создание высококачественных рабочих пользовательских голосовых моделей с нуля нельзя назвать стандартной операцией.Creating a high-quality production custom voice from scratch is not a casual undertaking. Центральным компонентом пользовательской голосовой модели является большая коллекция звуковых образцов человеческой речи.The central component of a custom voice is a large collection of audio samples of human speech. Очень важно, чтобы эти аудиозаписи были высокого качества.It's vital that these audio recordings be of high quality. Выберите актера озвучивания, у которого есть опыт создания таких записей, и пусть компетентный студийный звукоинженер запишет их с помощью профессионального оборудования.Choose a voice talent who has experience making these kinds of recordings, and have them recorded by a competent recording engineer using professional equipment.

Перед созданием записей потребуется сценарий: слова, которые произнесет актер озвучивания для создания звуковых образцов.Before you can make these recordings, though, you need a script: the words that will be spoken by your voice talent to create the audio samples. Для достижения наилучших результатов у сценария должен быть соответствующий фонетический охват и достаточное разнообразие для обучения пользовательской голосовой модели.For best results, your script must have good phonetic coverage and sufficient variety to train the custom voice model.

Создание профессиональной записи речи включает в себя много важных деталей.Many small but important details go into creating a professional voice recording. В этом руководстве детально описывается процесс, с помощью которого вы получите соответствующие и согласованные результаты.This guide is a roadmap for a process that will help you get good, consistent results.

Совет

Для получения наилучшего качества можно привлечь к разработке своей пользовательской голосовой модели корпорацию Майкрософт.For the highest quality results, consider engaging Microsoft to help develop your custom voice. У нас большой опыт создания высококачественных голосовых моделей для собственных продуктов, включая Cortana и Office.Microsoft has extensive experience producing high-quality voices for its own products, including Cortana and Office.

Роли записи речиVoice recording roles

В проекте записи пользовательского голоса есть четыре основные роли.There are four basic roles in a custom voice recording project:

РольRole НазначениеPurpose
Актер озвучиванияVoice talent Голос этого человека станет основой пользовательской голосовой модели.This person's voice will form the basis of the custom voice.
Студийный звукоинженерRecording engineer Контролирует технические аспекты записи и управляет оборудованием звукозаписи.Oversees the technical aspects of the recording and operates the recording equipment.
ДиректорDirector Подготавливает сценарий и проводит коучинг актера озвучивания для получения эффективного результата.Prepares the script and coaches the voice talent's performance.
РедакторEditor Обрабатывает звуковые файлы на последнем этапе и готовит их для отправки на портал Custom Voice.Finalizes the audio files and prepares them for upload to the Custom Voice portal.

Один человек может выполнять несколько ролей.An individual may fill more than one role. В этом руководстве предполагается, что вы будете в первую очередь выполнять роль директора и нанимать актера озвучивания и звукоинженера.This guide assumes that you will be primarily filling the director role and hiring both a voice talent and a recording engineer. Если вы хотите создавать записи самостоятельно, в этой статье вы также найдете некоторые сведения о роли звукоинженера.If you want to make the recordings yourself, this article includes some information about the recording engineer role. Роль редактора не требуется до окончания сеанса, поэтому его может заменить директор или звукоинженер.The editor role isn't needed until after the session, so can be performed by the director or the recording engineer.

Выбор актера озвучиванияChoose your voice talent

Актеры, имеющие опыт в начитке текста или голосовых пародиях, считаются хорошими актерами озвучивания.Actors with experience in voiceover or voice character work make good custom voice talent. Вы также можете найти подходящего актера среди дикторов и телекомментаторов.You can also often find suitable talent among announcers and newsreaders.

Выберите актера, естественный голос которого вам нравится.Choose voice talent whose natural voice you like. Можно создавать уникальные голоса "персонажей", но большинству актеров сложно работать с ними на постоянной основе и такие усилия могут вызвать напряжение голосовых связок.It is possible to create unique "character" voices, but it's much harder for most talent to perform them consistently, and the effort can cause voice strain.

Совет

В целом для создания пользовательской голосовой модели не стоит использовать голоса знаменитостей, если только нет такой цели — создать узнаваемый голос.Generally, avoid using recognizable voices to create a custom voice—unless, of course, your goal is to produce a celebrity voice. Малоизвестные голоса обычно менее отвлекают пользователей.Lesser-known voices are usually less distracting to users.

Единственным наиболее важным фактором для выбора актера озвучивания является согласованность.The single most important factor for choosing voice talent is consistency. Ваши записи речи должны звучать так, будто они сделаны в один день в одном помещении.Your recordings should all sound like they were made on the same day in the same room. Этого можно достичь благодаря применению специальных методов записи речи и навыков звукообработки.You can approach this ideal through good recording practices and engineering.

Другой частью уравнения является вклад актера озвучивания.Your voice talent is the other half of the equation. Они должны иметь возможность проговаривать с постоянной скоростью, уровнем громкости, тоном и тоном.They must be able to speak with consistent rate, volume level, pitch, and tone. Четкая дикция является обязательной.Clear diction is a must. Кроме того, он должен иметь возможность строго контролировать свой тон, эмоциональном влиять и маннерисмс речи.The talent also needs to be able to strictly control their pitch variation, emotional affect, and speech mannerisms.

Запись образцов пользовательских голосовых моделей может быть более утомительной, чем другие виды работ с голосом.Recording custom voice samples can be more fatiguing than other kinds of voice work. Большинство актеров озвучивания могут работать два-три часа в день.Most voice talent can record for two or three hours a day. Ограничьте сеансы до трех или четырех раз в неделю. Желательно, чтобы между ними был выходной.Limit sessions to three or four a week, with a day off in-between if possible.

Записи речи для голосовой модели должны быть эмоционально нейтральными.Recordings made for a voice model should be emotionally neutral. То есть высказывание с оттенком грусти не должно быть прочитано печальным голосом.That is, a sad utterance should not be read in a sad way. Настроение можно добавить к синтезированной речи позже через элементы управления интонацией.Mood can be added to the synthesized speech later through prosody controls. Работайте с актером озвучивания над развитием "персонажа", который будет определять общее звучание и эмоциональный тон пользовательской голосовой модели.Work with your voice talent to develop a "persona" that defines the overall sound and emotional tone of the custom voice. В процессе работы вы определите, какое именно нейтральное звучание подходит этому "персонажу".In the process, you'll pinpoint what "neutral" sounds like for that persona.

Например, может прослеживаться оптимистичное настроение.A persona might have, for example, a naturally upbeat personality. Таким образом, оптимистичные настрои будут очевидны даже при сохранении эмоциональной нейтральности в речи.So "their" voice might carry a note of optimism even when they speak neutrally. Однако этот признак должен быть едва заметным и уместным.However, such a personality trait should be subtle and consistent. Прослушайте записи речи современных актеров озвучивания, чтобы определиться с тем, что именно вам нужно.Listen to readings by existing voices to get an idea of what you're aiming for.

Совет

Обычно директор хочет, чтобы ему принадлежали сделанные им звукозаписи.Usually, you'll want to own the voice recordings you make. Актер озвучивания должен согласиться на контракт с выполнением работы по найму.Your voice talent should be amenable to a work-for-hire contract for the project.

Создание сценарияCreate a script

Отправной точкой любого сеанса записи пользовательской голосовой модели является сценарий, который содержит высказывания, произносимые голосом актера.The starting point of any custom voice recording session is the script, which contains the utterances to be spoken by your voice talent. (Термин "высказывания" охватывает полные предложения и короткие фразы.)(The term "utterances" encompasses both full sentences and shorter phrases.)

Высказывания в сценарии могут быть разнообразными: взятыми из фантастики, научной литературы, быть расшифровками, новостными сообщениями и прочим, что доступно в печатной форме.The utterances in your script can come from anywhere: fiction, non-fiction, transcripts of speeches, news reports, and anything else available in printed form. Если вы хотите, чтобы голос звучал уверенно при употреблении определенных слов (например, медицинской терминологии или компьютерного жаргона), можно включить предложения из научной или технической документации.If you want to make sure your voice does well on specific kinds of words (such as medical terminology or programming jargon), you might want to include sentences from scholarly papers or technical documents. Ознакомьтесь с требованиями закона об авторском праве в разделе Юридическая правомерность.For a brief discussion of potential legal issues, see the "Legalities" section. Можно также написать собственный текст.You can also write your own text.

Фразы не обязательно должны происходить из одного источника или одного типа источника.Your utterances don't need to come from the same source, or the same kind of source. Они даже могут быть не взаимосвязанными.They don't even need to have anything to do with each other. Тем не менее, если в приложении речи вы будете использовать стандартные фразы (например: "Вход выполнен успешно"), включите их в сценарий.However, if you will use set phrases (for example, "You have successfully logged in") in your speech application, make sure to include them in your script. Так будет большая вероятность качественного воспроизведения этих фраз с помощью пользовательской голосовой модели.This will give your custom voice a better chance of pronouncing those phrases well. И если вы решите использовать запись вместо синтезированной речи, она уже будет создана с помощью того же голоса.And if you should decide to use a recording in place of synthesized speech, you'll already have it in the same voice.

В то время как согласованность является ключевым аспектом в выборе актера озвучивания, разнообразие — отличительная черта хорошего сценария.While consistency is key in choosing voice talent, variety is the hallmark of a good script. Сценарий должен включать в себя много разных слов и предложений с разной длиной, множеством структур и эмоциональных оттенков.Your script should include many different words and sentences with a variety of sentence lengths, structures, and moods. Каждый звук на языке должен быть представлен несколько раз и в многочисленных контекстах (называемом фонетическим покрытием).Every sound in the language should be represented multiple times and in numerous contexts (called phonetic coverage).

Кроме того, текст должен включать все способы, с помощью которых в письменной форме можно представить отдельный звук. Каждый звук должен содержаться в разных местах в предложениях.Furthermore, the text should incorporate all the ways that a particular sound can be represented in writing, and place each sound at varying places in the sentences. Должны использоваться и быть прочитанными с соответствующей интонацией повествовательные предложения и вопросы.Both declarative sentences and questions should be included and read with appropriate intonation.

Трудно написать сценарий, который бы обеспечивал достаточно данных, чтобы с помощью портала Custom Speech создать качественный голос.It's difficult to write a script that provides just enough data to allow the Custom Speech portal to build a good voice. На практике самый простой способ создать сценарий, который обеспечивает надежный фонетический охват, — это включить большое количество примеров.In practice, the simplest way to make a script that achieves robust phonetic coverage is to include a large number of samples. Стандартные голоса Майкрософт были созданы на основе десятков тысяч высказываний.The standard voices that Microsoft provides were built from tens of thousands of utterances. Чтобы создать пользовательскую голосовую модель рабочего уровня, необходимо записать как минимум от пары до нескольких тысяч высказываний.You should be prepared to record a few to several thousand utterances at minimum to build a production-quality custom voice.

Внимательно проверьте сценарий на наличие ошибок.Check the script carefully for errors. Если возможно, попросите кого-нибудь еще проверить его.If possible, have someone else check it too. Когда вы запустите сценарий с определенным голосом, вы, вероятно, найдете еще несколько ошибок.When you run through the script with your talent, you'll probably catch a few more mistakes.

Формат сценарияScript format

Можно написать сценарий в Microsoft Word.You can write your script in Microsoft Word. Этот сценарий предназначается для использования во время сеанса записи, поэтому вы можете настроить его так, как вам удобно.The script is for use during the recording session, so you can set it up any way you find easy to work with. Отдельно создайте текстовый файл, необходимый для портала Custom Voice.Create the text file that's required by the Custom Voice portal separately.

Основной формат сценария включает в себя три столбца.A basic script format contains three columns:

  • Номер высказывания, начиная с 1.The number of the utterance, starting at 1. Нумерация облегчит быстрый поиск конкретного высказывания для всех присутствующих в студии ("Давайте попробуем номер 356 снова").Numbering makes it easy for everyone in the studio to refer to a particular utterance ("let's try number 356 again"). Можно использовать функцию нумерации абзацев текстового процессора Word для автоматической нумерации строк таблицы.You can use the Word paragraph numbering feature to number the rows of the table automatically.
  • Пустой столбец, куда будут записываться номер фрагмента или временной код каждого высказывания и который облегчит поиск в готовой записи речи.A blank column where you'll write the take number or time code of each utterance to help you find it in the finished recording.
  • Текст самого высказывания.The text of the utterance itself.

Пример скрипта

Примечание

Большинство записей Studios в коротких сегментах, известных как, принимает.Most studios record in short segments known as takes. Каждый фрагмент обычно содержит от 10 до 24 высказываний.Each take typically contains 10 to 24 utterances. Указания номера фрагмента будет достаточно, чтобы позже найти высказывание.Just noting the take number is sufficient to find an utterance later. При записывании речи в студии, где предпочитают создавать более длинные записи, можно указать временной код.If you're recording in a studio that prefers to make longer recordings, you'll want to note the time code instead. В студии будет на явном месте отображаться соответствующее время.The studio will have a prominent time display.

Оставьте достаточно места после каждой строки, чтобы писать заметки.Leave enough space after each row to write notes. Между страницами не должно быть разделенных высказываний.Be sure that no utterance is split between pages. Пронумеруйте страницы и распечатайте сценарий на одной стороне листа.Number the pages, and print your script on one side of the paper.

Распечатайте три копии сценария: один для актера, один для инженера и один для директора (для себя).Print three copies of the script: one for the talent, one for the engineer, and one for the director (you). Вместо скрепок для степлера используйте зажим для бумаги: опытный актер сможет бесшумно отделять страницы.Use a paper clip instead of staples: an experienced voice artist will separate the pages to avoid making noise as the pages are turned.

Юридическая правомерностьLegalities

Согласно закону об авторском праве, чтение актером текста, защищенного авторским правом, может являться действием, за которое автор текста должен получить компенсацию.Under copyright law, an actor's reading of copyrighted text might be a performance for which the author of the work should be compensated. При воспроизведении этого текста в готовом продукте (с помощью пользовательской голосовой модели) источник обнаружен не будет,This performance will not be recognizable in the final product, the custom voice. тем не менее правомерность использования работы, защищенной авторским правом, не установлена для этой цели явным образом.Even so, the legality of using a copyrighted work for this purpose is not well established. Корпорация Майкрософт не может предоставить юридическую консультацию по этому вопросу — вы можете получить консультацию у своего юриста.Microsoft cannot provide legal advice on this issue; consult your own counsel.

К счастью, с этими проблемами можно и не столкнуться.Fortunately, it is possible to avoid these issues entirely. Есть много источников текстов, которые можно использовать без разрешения или лицензии.There are many sources of text you can use without permission or license.

Источник текстаText source ОписаниеDescription
Документация CMU ArcticCMU Arctic corpus В проектах синтеза речи можно использовать около 1100 предложений, выбранных из работ, не защищенных авторским правом.About 1100 sentences selected from out-of-copyright works specifically for use in speech synthesis projects. Хороший старт.An excellent starting point.
Работы, больше неWorks no longer
защищенные авторским правомunder copyright
Сюда входят работы, опубликованные до 1923 года.Typically works published prior to 1923. Для английского языка Project Gutenberg предлагает десятки тысяч таких работ.For English, Project Gutenberg offers tens of thousands of such works. Рекомендуется сосредоточиться на новых работах, так как язык будет ближе к современному английскому.You may want to focus on newer works, as the language will be closer to modern English.
Работы правительственных учрежденийGovernment works Работа, созданная США правительственными органами, в США не соблюдается, хотя правительственные учреждения могут запрашивать авторские права в других странах и регионах.Works created by the United States government are not copyrighted in the United States, though the government may claim copyright in other countries/regions.
Работы, ставшие всеобщим достояниемPublic domain Работы, запрос авторского права на которые был явно отклонен или которые стали достоянием общественности.Works for which copyright has been explicitly disclaimed or that have been dedicated to the public domain. В некоторых юрисдикциях, возможно, не удастся получить полный отказ от авторских прав.It may not be possible to waive copyright entirely in some jurisdictions.
Лицензированные работы по разрешениюPermissively-licensed works Работы, распространенные по лицензии, например Creative Commons или лицензии свободной документации GNU.Works distributed under a license like Creative Commons or the GNU Free Documentation License (GFDL). Википедия использует лицензию GNU.Wikipedia uses the GFDL. Однако некоторые лицензии могут налагать ограничения на воспроизведение лицензионного содержимого, которые могут повлиять на создание пользовательской голосовой модели, поэтому внимательно ознакомьтесь с лицензией.Some licenses, however, may impose restrictions on performance of the licensed content that may impact the creation of a custom voice model, so read the license carefully.

Запись сценарияRecording your script

Запишите свой сценарий в профессиональной вокальной студии звукозаписи.Record your script at a professional recording studio that specializes in voice work. Там используется речевая студия, нужное оборудование и есть квалифицированный персонал.They'll have a recording booth, the right equipment, and the right people to operate it. Не стоит экономить на записи.It pays not to skimp on recording.

Обсудите свой проект с инженером по записи в студии и прослушайте свои советы.Discuss your project with the studio's recording engineer and listen to their advice. Запись должна иметь небольшое сжатие динамического диапазона или же оно должно отсутствовать (максимум 4:1).The recording should have little or no dynamic range compression (maximum of 4:1). Очень важно, чтобы у записи была согласованная громкость и высокое отношение сигнала к шуму, при этом должны отсутствовать лишние звуки.It is critical that the audio have consistent volume and a high signal-to-noise ratio, while being free of unwanted sounds.

Попробуйте самиDo it yourself

Если вы хотите создать запись самостоятельно, а не идти в студию звукозаписи, вот краткое руководство.If you want to make the recording yourself, rather than going into a recording studio, here's a short primer. Благодаря росту популярности любительских записей и аудиороликов можно быстро найти в Интернете полезные рекомендации по записи и нужные ресурсы.Thanks to the rise of home recording and podcasting, it's easier than ever to find good recording advice and resources online.

В качестве речевой студии можно использовать небольшую комнату без заметного эха или звукового фона.Your "recording booth" should be a small room with no noticeable echo or "room tone." Она должна быть максимально тихой и звуконепроницаемой.It should be as quiet and soundproof as possible. Ткани на стенах можно использовать для уменьшения эха и нейтрализации или "заглушения" звукового фона комнаты.Drapes on the walls can be used to reduce echo and neutralize or "deaden" the sound of the room.

Используйте высококачественный студийный конденсаторный микрофон, предназначенный для записи голоса.Use a high-quality studio condenser microphone ("mic" for short) intended for recording voice. Качественными считаются микрофоны Sennheiser, AKG и даже последняя версия Zoom.Sennheiser, AKG, and even newer Zoom mics can yield good results. Вы можете купить микрофон или арендовать его у местной аудиовизуальной фирмы.You can buy a mic, or rent one from a local audio-visual rental firm. Поищите микрофон с USB-интерфейсом.Look for one with a USB interface. Этот тип микрофона удобно сочетает в себе микрофонный элемент, предусилитель и аналого-цифровой преобразователь, что упрощает подключение.This type of mic conveniently combines the microphone element, preamp, and analog-to-digital converter into one package, simplifying hookup.

Вы также можете использовать аналоговый микрофон.You may also use an analog microphone. Многие арендные дома предлагают винтажные микрофоны, известные своим звучанием.Many rental houses offer "vintage" microphones renowned for their voice character. Обратите внимание, что в профессиональном аналоговом оборудовании используются симметричные разъемы XLR, а не разъем 1/4 дюйма, используемый в бытовой аппаратуре.Note that professional analog gear uses balanced XLR connectors, rather than the 1/4-inch plug that's used in consumer equipment. Если вы выбрали аналоговое оборудование, вам также понадобятся предусилитель и компьютерный аудиоинтерфейс с этими разъемами.If you go analog, you'll also need a preamp and a computer audio interface with these connectors.

Установите микрофон на подставку или микрофонный журавль, установите поп-фильтр перед микрофоном, чтобы избежать шума от "взрывных" звуков, таких как "п" и "б".Install the microphone on a stand or boom, and install a pop filter in front of the microphone to eliminate noise from "plosive" consonants like "p" and "b." Некоторые микрофоны поставляются с подвесным креплением, которое изолирует их от вибраций на подставке.Some microphones come with a suspension mount that isolates them from vibrations in the stand, which is helpful.

Актер должен находиться на соответствующем расстоянии от микрофона.The voice talent must stay at a consistent distance from the microphone. Используйте ленту для пола, чтобы отметить место, где нужно стать.Use tape on the floor to mark where they should stand. Если актер предпочитает сидеть, внимательно следите за расстоянием между ним и микрофоном. Не стоит двигать стул, чтобы избежать лишних звуков.If the talent prefers to sit, take special care to monitor mic distance and avoid chair noise.

Используйте подставку для сценария.Use a stand to hold the script. Не двигайте подставку, так как она может отражать звук по направлению к микрофону.Avoid angling the stand so that it can reflect sound toward the microphone.

Человек, который работает с оборудованием звукозаписи, — звукоинженер, должен находиться в отдельной комнате, отдельно от актера, а также иметь возможность общаться с актером в речевой студии по микрофону служебной связи.The person operating the recording equipment—the engineer—should be in a separate room from the talent, with some way to talk to the talent in the recording booth (a talkback circuit).

Запись должна содержать как можно меньше шума, в идеале коэффициент сигнала и шума должен составлять 80 дБ или выше.The recording should contain as little noise as possible, with a goal of an 80-db signal-to-noise ratio or better.

Прислушайтесь к записи тишины в своей речевой студии, выясните, откуда исходит какой-либо шум, и устраните причину.Listen closely to a recording of silence in your "booth," figure out where any noise is coming from, and eliminate the cause. Распространенными источниками шума являются вентиляционные отверстия, флуоресцентная световая аппаратура, движение на близлежащих дорогах и вентиляторы оборудования (даже у ноутбуков могут быть вентиляторы).Common sources of noise are air vents, fluorescent light ballasts, traffic on nearby roads, and equipment fans (even notebook PCs might have fans). Микрофоны и кабели могут производить электрический шум из соседней проводки переменного тока, как правило это гул или дребезжание.Microphones and cables can pick up electrical noise from nearby AC wiring, usually a hum or buzz. Дребезжание может быть вызвано циклом заземления, возникающим из-за того, что оборудование подключено к нескольким электрическим цепям.A buzz can also be caused by a ground loop, which is caused by having equipment plugged into more than one electrical circuit.

Совет

В некоторых случаях вы можете использовать эквалайзер или программный модуль для снижения шума, чтобы удалить шум из записей, хотя всегда лучше убрать его в источнике.In some cases, you might be able to use an equalizer or a noise reduction software plug-in to help remove noise from your recordings, although it is always best to stop it at its source.

Установите уровни таким образом, чтобы большая часть доступного динамического диапазона цифровой записи использовалась без перенапряжения.Set levels so that most of the available dynamic range of digital recording is used without overdriving. Это означает, что уровень громкости не должен искажать звук.That means set the audio loud, but not so loud that it becomes distorted. Ниже приведен пример формы колебаний хорошей записи.An example of the waveform of a good recording is shown in the following image:

Форма колебаний хорошей записи

Здесь используется большая часть диапазона (высота), но самые высокие пики сигнала не достигают верхней или нижней части окна.Here, most of the range (height) is used, but the highest peaks of the signal do not reach the top or bottom of the window. Вы также можете видеть, что тишина в записи приближается к тонкой горизонтальной линии, что указывает на низкий уровень шума.You can also see that the silence in the recording approximates a thin horizontal line, indicating a low noise floor. Эта запись имеет приемлемые динамический диапазон и отношение сигнала и шума.This recording has acceptable dynamic range and signal-to-noise ratio.

Создавайте запись непосредственно на компьютере, используя высококачественный аудиоинтерфейс или USB-порт, в зависимости от используемого микрофона.Record directly into the computer via a high-quality audio interface or a USB port, depending on the mic you're using. Для аналоговой записи цепочка простая: микрофон, предусилитель, аудиоинтерфейс, компьютер.For analog, keep the audio chain simple: mic, preamp, audio interface, computer. Avid Pro Tools и Adobe Audition можно лицензировать ежемесячно по разумной цене.You can license both Avid Pro Tools and Adobe Audition monthly at a reasonable cost. Если ваш бюджет очень ограничен, попробуйте бесплатное ПО Audacity.If your budget is extremely tight, try the free Audacity.

Создавайте записи монофонического формата 44,1 кГц 16 бит (качество CD) или выше.Record at 44.1 kHz 16 bit monophonic (CD quality) or better. Используйте новейший формат 48 кГц 24 бит, если он поддерживается оборудованием.Current state-of-the-art is 48 kHz 24-bit, if your equipment supports it. Нужно снизить разрешение аудиосигнала до 16 кГц 16 бит, прежде чем отправлять его на портал Custom Voice.You will down-sample your audio to 16 kHz 16-bit before you submit it to the Custom Voice portal. Тем не менее требуется высококачественная исходная запись в случае необходимости редактирования.Still, it pays to have a high-quality original recording in the event edits are needed.

В идеале, роли директора, инженера и актера должны выполнять разные люди.Ideally, have different people serve in the roles of director, engineer, and talent. Не пытайтесь делать все сами!Don't try to do it all yourself. В крайнем случае один человек может быть директором и инженером.In a pinch, one person can be both the director and the engineer.

Прежде началом сеансаBefore the session

Чтобы не тратить время в студии, вместе с актером озвучивания быстро просмотрите сценарий перед записью.To avoid wasting studio time, run through the script with your voice talent before the recording session. Несмотря на то, что автор речи знаком с текстом, он может прояснить произношение любых незнакомых слов.While the voice talent becomes familiar with the text, they can clarify the pronunciation of any unfamiliar words.

Примечание

Большинство студий звукозаписи предлагают электронное отображение сценариев в речевой студии.Most recording studios offer electronic display of scripts in the recording booth. В этом случае введите примечания, которые нужно просмотреть, непосредственно в документ сценария.In this case, type your run-through notes directly into the script's document. Однако помните, что вам все равно понадобится бумажная копия, в которую вы будете вносить заметки во время сеанса.You'll still want a paper copy to take notes on during the session, though. Большинству звукоинженеров также понадобится печатная копия.Most engineers will want a hard copy, too. На случай сбоя компьютера не лишним будет распечатать третью копию для актера.And you'll still want a third printed copy as a backup for the talent in case the computer is down.

Актер озвучивания может спросить, на каком слове в высказывании стоит сделать логическое ударение ("ключевое слово").Your voice talent might ask which word you want emphasized in an utterance (the "operative word"). Расскажите им, что вы хотите выполнить естественное чтение без какого-либо особого внимания.Tell them that you want a natural reading with no particular emphasis. Логические ударения можно добавить при синтезе речи, но они не должны быть частью исходной записи.Emphasis can be added when speech is synthesized; it should not be a part of the original recording.

Следите за тем, чтобы актеры отчетливо произносили слова.Direct the talent to pronounce words distinctly. Каждое слово сценария должно быть произнесено в точности так, как оно написано.Every word of the script should be pronounced as written. Не нужно опускать или "глотать" звуки, как это принято в повседневной речи, если только они не написаны таким образом в сценарии.Sounds should not be omitted or slurred together, as is common in casual speech, unless they have been written that way in the script.

Письменный текстWritten text Нежелательное повседневное произношениеUnwanted casual pronunciation
Здравствуйте, Наталья Ивановнаnever going to give you up Здрасте, Наталья Ивановнаnever gonna give you up
Конечно, я понимаюthere are four lights Конешно, я понимаюthere're four lights
Когда же он вернетсяhow's the weather today Када же он вернетсяhow's th' weather today
Она говорит, что все знаетsay hello to my little friend Она грит, что все знаетsay hello to my lil' friend

Актер не должен делать явные паузы между словами.The talent should not add distinct pauses between words. Предложение все равно должно звучать естественным образом, даже если оно звучит немного формально.The sentence should still flow naturally, even while sounding a little formal. Для этого может потребоваться практика.This fine distinction might take practice to get right.

Сеанс записиThe recording session

В начале сеанса создайте справочную запись или файл соответствия стандартного высказывания.Create a reference recording, or match file, of a typical utterance at the beginning of the session. Попросите актера повторять эту строку на каждой странице.Ask the talent to repeat this line every page or so. Каждый раз сравнивайте новую запись со справочной.Each time, compare the new recording to the reference. Эта практика поможет актеру придерживаться согласованности в громкости, темпе, подаче тона и интонации.This practice helps the talent remain consistent in volume, tempo, pitch, and intonation. В то же время инженер может использовать файл соответствия как справку по уровням и для общей согласованности звука.Meanwhile, the engineer can use the match file as a reference for levels and overall consistency of sound.

Файл соответствия особенно важен при возобновлении записи после перерыва или в другой день.The match file is especially important when you resume recording after a break or on another day. Для актера нужно будет воспроизвести ее несколько раз и попросить его повторять запись, пока не будет достигнуто соответствие.You'll want to play it a few times for the talent and have them repeat it each time until they are matching well.

Попросите актера перед произнесением каждого высказывания на мгновение сделать глубокий вдох и паузу.Coach your talent to take a deep breath and pause for a moment before each utterance. Запишите паузу в несколько секунд между высказываниями.Record a couple of seconds of silence between utterances. Слова должны произноситься одинаково каждый раз, когда они появляются, учитывая контекст.Words should be pronounced the same way each time they appear, considering context. Например, "берег" как глагол произносится не так как "берег" как существительное.For example, "record" as a verb is pronounced differently from "record" as a noun.

Запишите качественную паузу в пять секунд, а затем приступите к созданию первой записи, чтобы записать звуковой фон комнаты.Record a good five seconds of silence before the first recording to capture the "room tone." Это поможет порталу Custom Voice компенсировать в записях любой оставшийся шум.This practice helps the Custom Voice portal compensate for any remaining noise in the recordings.

Совет

Все, что действительно нужно, — это голос актера, поэтому можно сделать монофоническую (одноканальную) запись только нужных строк.All you really need to capture is the voice talent, so you can make a monophonic (single-channel) recording of just their lines. Тем не менее, если вы записываете на стереопроигрыватель, вы можете использовать второй канал для записи обсуждения в диспетчерской, чтобы фиксировать обсуждение конкретных строк или фрагментов.However, if you record in stereo, you can use the second channel to record the chatter in the control room to capture discussion of particular lines or takes. Удалите эту запись из версии, загруженной на портал Custom Voice.Remove this track from the version that's uploaded to the Custom Voice portal.

Используя наушники, внимательно слушайте, как звучит голос актера.Listen closely, using headphones, to the voice talent's performance. Вам нужна хорошая естественная дикция, правильное произношение и отсутствие нежелательных звуков.You're looking for good but natural diction, correct pronunciation, and a lack of unwanted sounds. При необходимости попросите актера перезаписать высказывание, которое не соответствует этим стандартам.Don't hesitate to ask your talent to re-record an utterance that doesn't meet these standards.

Совет

Если используется большое количество высказываний, одно высказывание может не оказывать заметного влияния на результирующую пользовательскую голосовую модель.If you are using a large number of utterances, a single utterance might not have a noticeable effect on the resultant custom voice. Может быть более укороченного, что просто обратите внимание на все фразы продолжительностью с проблемами, исключите их из набора данных и посмотрим, как выводится пользовательская речь. Вы всегда можете вернуться в студию и записать пропущенные примеры позже.It might be more expedient to simply note any utterances with issues, exclude them from your dataset, and see how your custom voice turns out. You can always go back to the studio and record the missed samples later.

Обратите внимание на номер фрагмента или временной код в сценарии для каждого высказывания.Note the take number or time code on your script for each utterance. Спросите звукоинженера, может ли он отметить каждое высказывание в метаданных записи или в файле разметки.Ask the engineer to mark each utterance in the recording's metadata or cue sheet as well.

Примите участие в обычных перерывах и укажите напитки, чтобы помочь Вашему голосовому обеспечению голоса в хорошем виде.Take regular breaks and provide a beverage to help your voice talent keep their voice in good shape.

После сеансаAfter the session

В современных студиях звукозаписи используются компьютеры.Modern recording studios run on computers. В конце сеанса вы получаете один или несколько аудиофайлов, а не кассету.At the end of the session, you receive one or more audio files, not a tape. Эти файлы, вероятно, будут иметь формат WAV или AIFF в качестве CD (44,1 кГц 16 бит) или лучшем.These files will probably be WAV or AIFF format in CD quality (44.1 kHz 16-bit) or better. Наиболее распространенный и предпочтительный формат — 48 кГц 24 бит.48 kHz 24-bit is common and desirable. Более высокие частоты выборки, например 96 кГц, обычно не нужны.Higher sampling rates, such as 96 kHz, are generally not needed.

На портале Custom Voice каждое высказывание должно предоставляться в собственном файле.The Custom Voice portal requires each provided utterance to be in its own file. В каждом звуковом файле, поставляемом студией, содержатся несколько высказываний.Each audio file delivered by the studio contains multiple utterances. Поэтому основная задача после создания записей — разделить их и подготовить к отправке.So the primary post-production task is to split up the recordings and prepare them for submission. Звукоинженер может разместить метки в файле (или предоставить отдельный файл разметки), чтобы указать начало каждого высказывания.The recording engineer might have placed markers in the file (or provided a separate cue sheet) to indicate where each utterance starts.

Используйте свои заметки, чтобы найти нужные фрагменты, затем используйте программу редактирования звука, например Avid Pro Tools, Adobe Audition или бесплатное ПО Audacity, чтобы скопировать каждое высказывание в новый файл.Use your notes to find the exact takes you want, and then use a sound editing utility, such as Avid Pro Tools, Adobe Audition, or the free Audacity, to copy each utterance into a new file.

В начале и конце каждого клипа за исключением первого должна быть пауза приблизительно 0,2 секунды.Leave only about 0.2 seconds of silence at the beginning and end of each clip, except for the first. Этот файл должен начинаться с паузы в пять секунд.That file should start with a full five seconds of silence. Не используйте аудиоредактор для "обнуления" частей с паузами в файле.Do not use an audio editor to "zero out" silent parts of the file. Включение звукового фона комнаты поможет алгоритмам Custom Voice компенсировать любые остаточные фоновые шумы.Including the "room tone" will help the Custom Voice algorithms compensate for any residual background noise.

Внимательно слушайте каждый файл.Listen to each file carefully. На этом этапе вы можете удалить небольшие нежелательные звуки, которые вы пропустили во время записи, например звук смыкания губ перед чтением строки, но будьте осторожны, чтобы не удалить какие-либо слова в речи.At this stage, you can edit out small unwanted sounds that you missed during recording, like a slight lip smack before a line, but be careful not to remove any actual speech. Если вы не можете исправить файл, удалите его из своего набора данных, сделав заметку об этом.If you can't fix a file, remove it from your dataset and note that you have done so.

Конвертируйте каждый файл в 16 бит и скорость выборки 16 кГц перед сохранением и, если вы записали студийное обсуждение, удалите второй канал.Convert each file to 16 bits and a sample rate of 16 kHz before saving and, if you recorded the studio chatter, remove the second channel. Сохраните каждый файл в формате WAV, присвоив файлам имена с номером высказывания из сценария.Save each file in WAV format, naming the files with the utterance number from your script.

Наконец, создайте расшифровку, которая связывает каждый WAV-файл с текстовой версией соответствующего высказывания.Finally, create the transcript that associates each WAV file with a text version of the corresponding utterance. Создание пользовательских голосов включает в себя сведения о требуемом формате.Creating custom voice fonts includes details of the required format. Вы можете скопировать текст непосредственно из своего сценария.You can copy the text directly from your script. Затем создайте ZIP-файл WAV-файлов и текстовую расшифровку.Then create a Zip file of the WAV files and the text transcript.

Архивируйте оригинальные записи в безопасном месте, в случае если они вам понадобятся позже.Archive the original recordings in a safe place in case you need them later. Сохраните свой сценарий и заметки.Preserve your script and notes, too.

Следующие шагиNext steps

Вы готовы загрузить свои записи и создать пользовательскую голосовую модель.You're ready to upload your recordings and create your custom voice.