Что такое пользовательский нейронный голос?

Пользовательский нейронный голос (CNV) — это функция речи, которая позволяет создавать однообразный, настраиваемый искусственный голос для ваших приложений. С помощью пользовательского нейронного голоса вы можете создать очень естественный звук для вашего бренда или символов, предоставив человеческие образцы речи в качестве обучающих данных.

Внимание

Настраиваемый нейронный доступ к голосовой связи ограничен на основе критериев соответствия и использования. Запросите доступ в форме приема.

Доступ к пользовательской нейронной голосовой связи (CNV) Lite доступен для всех, кто будет демонстрации и оценки CNV, прежде чем инвестировать в профессиональные записи, чтобы создать более качественный голос.

Из поля текст для речи можно использовать с предварительно созданными нейронными голосами для каждого поддерживаемого языка. Предварительно созданные нейронные голоса хорошо работают в большинстве сценариев речи, если уникальный голос не требуется.

Пользовательский нейронный голос основан на нейронном тексте в технологии речи и многоязычной, многофакторной, универсальной модели. Вы можете создавать искусственные голоса, богатые стилями речи, или адаптируемые кросс-языки. Реалистичный и естественный звук пользовательского нейронного голоса может представлять бренды, персонифицировать компьютеры и разрешать пользователям взаимодействовать с приложениями беседы. Поддерживаемые языки для Пользовательского нейронного голоса см. здесь.

Как это работает?

Чтобы создать пользовательский нейронный голос, загрузите записанные фрагменты речи с соответствующими скриптами с помощью Speech Studio, выполните обучение модели и развертывание полученного голоса в пользовательской конечной точке.

Совет

Попробуйте использовать Пользовательский нейронный голос (CNV) Lite для демонстрации и оценки CNV, прежде чем инвестировать в профессиональные записи, чтобы создать более качественный голос.

Создание эффектного пользовательского нейронного голоса требует тщательного контроля качества на каждом этапе, от проектирования голоса и подготовки данных до развертывания модели голоса в системе.

Прежде чем приступить к работе в Speech Studio, ознакомьтесь с некоторыми рекомендациями.

  • Проектирование лица голоса, представляющего ваш бренд с помощью краткого документа persona. В этом документе определяются такие элементы, как характеристики голоса и образ, с которым связан голос. Это поможет направлять процесс создания модели пользовательского нейронного голоса, включая определение сценариев, выбор актера озвучивания, обучение и настройку голоса.
  • Выберите сценарий записи, чтобы представить пользовательские сценарии для голоса. К примеру, при создании бота для обслуживания клиентов можно использовать фразы из разговоров с ботами в качестве сценария записи. Включите в свои сценарии различные типы предложений, включая утверждения, вопросы и восклицания.

Ниже приведен обзор действий по созданию пользовательского нейронного голоса в Speech Studio:

  1. Создайте проект для хранения данных, голосовых моделей, тестов и конечных точек. Каждый проект зависит от страны или региона и языка. Если вы собираетесь создать несколько голосов, рекомендуется создать проект для каждого голоса.
  2. Настройте талант голоса. Прежде чем вы сможете обучить нейронный голос, необходимо отправить запись заявления о согласии таланта голоса. Заявление о таланте голоса — это запись голосового таланта, прочитав заявление, которое они дают согласие на использование данных речи для обучения пользовательской голосовой модели.
  3. Подготовьте обучающие данные в правильном формате. Рекомендуется записывать аудио в профессиональной студии звукозаписи, чтобы обеспечить оптимальное соотношение “сигнал/шум”. Качество модели голоса во многом зависит от ваших обучающих данных. Требуются постоянная громкость, скорость речи, высота тона и последовательность в выразительных манерах речи.
  4. Обучение голосовой модели. Для создания пользовательского нейронного голоса требуется не менее 300 речевых фрагментов. При загрузке автоматически выполняется серия проверок качества данных. Чтобы создать высококачественные модели голоса, следует исправить ошибки и отправить данные еще раз.
  5. Проверьте голос. Подготовьте тестовые сценарии для своей модели голоса, которые охватывают различные варианты использования ваших приложений. Рекомендуется использовать скрипты, входящие и не входящие в набор обучающих данных, чтобы провести более широкую проверку качества для различного содержимого.
  6. Развертывание и использование голосовой модели в приложениях.

Вы можете настроить, настроить и использовать пользовательский голос, аналогично использованию предварительно созданного нейронного голоса. Преобразуйте текст в речь в режиме реального времени или создайте звуковое содержимое в автономном режиме с помощью ввода текста. Вы используете REST API, пакет SDK службы "Речь" или "Речь".

Совет

Вы также можете использовать пакет SDK службы "Речь" и пользовательский REST API голосовой связи для обучения пользовательского нейронного голоса.

Ознакомьтесь с примерами кода в репозитории пакета SDK службы "Речь" на GitHub , чтобы узнать, как использовать настраиваемый нейронный голос в приложении.

Стиль и характеристики модели обученного голоса зависят от стиля и качества записей голосового таланта, используемого для обучения. Тем не менее, можно внести некоторые корректировки с помощью SSML (языка разметки синтеза речи) при выполнении вызовов API к модели голоса для генерации синтетической речи. SSML — это язык разметки, используемый для обмена данными с текстом в службу распознавания речи для преобразования текста в звук. Корректировки включают изменение высоты звука, скорости, интонации и коррекцию произношения. Если модель голоса построена с использованием нескольких стилей, SSML также можно использовать для переключения стилей.

Последовательность компонентов

Пользовательский нейронный голос состоит из трех основных компонентов: текстового анализатора, нейронной акустической модели и нейронного vocoder. Чтобы преобразовать текст в естественно звучащую искусственную речь, его сначала вводят в анализатор текста, который предоставляет выходные данные в виде последовательности фонем. Фонема — это базовая единица звукового строя языка, которая служит для различения слов на определенном языке. Последовательность фонем определяет произношение слов в тексте.

После этого последовательность фонем передается в нейронную акустическую модель для прогнозирования характеристик звучания, которые определяют речевые сигналы. Акустические характеристики включают тембр, стиль и скорость речи, интонации и систему ударений. На заключительном этапе нейронный вокодер преобразует характеристики звучания в звуковые волны, создавая искусственный голос.

Блок-схема, отображающая компоненты пользовательского нейронного голоса.

Нейронный текст для голосовых моделей обучен с помощью глубоких нейронных сетей на основе образцов записей человеческих голосов. Дополнительные сведения см. в этой записи блога Microsoft. Подробнее об обучении нейронного вокодера см. в этой записи блога Microsoft.

Переход на пользовательский нейронный голос

Если вы используете старую версию пользовательского голоса (которая планируется выйти из эксплуатации в феврале 2024 г.), см . статью "Как перейти на пользовательский нейронный голос".

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.

Следующие шаги