Обучение и развертывание модели Пользовательского распознавания речи

В этой статье вы узнаете, как обучать и развертывать модели Пользовательского распознавания речи. Обучение модели преобразования речи в текст может улучшить точность распознавания для базовой модели Майкрософт. Для обучения модели используются транскрипции с меткой и связанный с ней текст. Эти наборы данных вместе с ранее загруженными аудиоданными используются для уточнения и обучения модели преобразования речи в текст.

Проведение обучения для устранения проблем с точностью

При возникновении проблем с распознаванием в базовой модели вы можете воспользоваться транскрипциями с метками и связанными данными для обучения пользовательской модели и повышения точности. Чтобы определить, какой набор данных следует использовать для решения проблем, воспользуйтесь следующей таблицей:

Вариант использования Тип данных
Улучшение точности распознавания в терминологии и грамматике конкретной отрасли, например медицинских терминов или ИТ-жаргона Обычный текст или структурированные текстовые данные
Определите фонетическую и отображаемую форму слова или термина, которые имеют нестандартное произношение, например названия продуктов или акронимы Произношение данных или фонетическая транскрипция в структурированном тексте
Улучшение точности распознавания в стилях, акцентах и отдельных фоновых шумах Аудиоданные и транскрипция с метками

Обучение и оценка модели

Первым шагом обучения модели является загрузка обучающих данных. Пошаговые инструкции по подготовке транскрипций и связанного текста (речевые фрагменты и произношение) см. в разделе Подготовка и тестирование данных. После загрузки обучающих данных, выполните следующие инструкции, чтобы начать обучение модели:

  1. Войдите на портал Пользовательского распознавания речи. Если вы планируете обучить модель с помощью наборов, состоящих из аудиоданных и транскрипции с метками, выберите подписку на службу "Речь" в Регионе с выделенным оборудованием для обучения.
  2. Перейдите в раздел " речь-текст" пользовательское распознавание речи[имя проекта]обучение.
  3. Выберите Обучение модели.
  4. Задайте для обучения Имя и Описание.
  5. В списке Сценарий и базовая модель выберите сценарий, который лучше подходит для вашего домена. Если вы не знаете, какой сценарий выбрать, выберите Общий. Базовая модель является отправной точкой для обучения. Лучше всего выбрать, как правило, самую последнюю модель.
  6. На странице Выбор обучающих данных выберите один или несколько связанных текстовых наборов данных, а также наборы транскрипций с метками, которые вы хотите использовать для обучения.

Примечание

При обучении новой модели начните со связанного текста; обучение с помощью аудиоданных и транскрипции может занять много времени (до нескольких дней ).

Примечание

Не все базовые модели поддерживают обучение с помощью аудио. Если базовая модель не поддерживает аудио, служба "Речь" будет использовать только текст из записей и игнорировать аудиоданные. Список базовых моделей, поддерживающих обучение с аудиоданными, см. в разделе Поддержка языков.

Примечание

При изменении базовой модели, используемой для обучения, и наличии аудиоданных в наборе данных для обучения всегда проверяйте, поддерживает ли новая выбранная базовая модель обучение с помощью аудиоданных. Если ранее использованная базовая модель не поддерживала обучение с использованием аудиоданных, а набор данных для обучения содержит аудиоданные, то время обучения для новой базовой модели резко увеличится и может занять от нескольких часов до нескольких дней и более. Это особенно верно, если ваша подписка на службу "Речь" не находится в регионе с выделенным оборудованием для обучения.

Если вы сталкиваетесь с проблемой, описанной в предыдущем абзаце, можно быстро уменьшить время обучения, уменьшив количество аудиоданных в наборе данных или полностью удалив их из набора, оставив только текст. Последний вариант особенно рекомендуется, если используемая подписка службы "Речь" не находится в Регионе с выделенным оборудованием для обучения.

  1. После завершения обучения можно выполнить проверку точности для новой, уже обученной, модели. Это необязательный шаг.
  2. Выберите Создать, чтобы создать пользовательскую модель.

В таблице Обучениепоявится новая запись, соответствующая вновь созданной модели. Также в таблице будет отображаться статус выполнения: Обработка, Успешно, или Сбой.

См. Инструкции по оценке и повышению точности моделей пользовательского распознавания речи. Если вы выполняете тестирование на точность, важно выбрать набор акустических данных, отличный от использованного при создании модели. Это позволит более реалистично оценить эффективность модели.

Примечание

Базовые модели и пользовательские модели можно использовать только до определенной даты (см. раздел модель и жизненный цикл конечной точки). В Speech Studio эта дата отображается в столбце Срок действия для каждой модели и конечной точки. После этого запроса к конечной точке или записи пакетной службы может произойти сбой или вернуться к базовой модели.

Переучите вашу модель с помощью самой последней базовой модели, чтобы воспользоваться преимуществами повышения точности и избежать истечения срока действия модели.

Развертывание пользовательской модели

После отправки и проверки данных, оценки точности и обучения настраиваемой модели вы можете развернуть пользовательскую конечную точку для использования в приложениях, инструментах и продуктах.

Чтобы создать пользовательскую конечную точку, войдите на Портал пользовательского распознавания речи. Выберите Развертывание в меню Пользовательское распознавание речи в верхней части страницы. Если это ваш первый запуск, вы увидите, что в таблице нет конечных точек. После создания конечной точки, эту страницу вы используете для мониторинга каждой развернутой конечной точки.

Далее, выберите Добавить конечную точку и введите Имя и Описание для конечной точки. Затем выберите пользовательскую модель, которую необходимо связать с конечной точкой. Вы также можете включить ведение журнала на этой странице. Ведение журнала позволяет отслеживать трафик конечных точек. Если ведение журнала отключено, трафик сохраняться не будет.

Снимок экрана, на котором представлена страница новой конечной точки.

Примечание

Не забудьте принять условия использования и сведения о ценах.

Далее выберите Создать. Вы вернетесь на страницу Развертывания. Теперь таблица содержит запись, которая соответствует вашей новой конечной точке. Статус конечной точки показывает ее текущее состояние. Создание экземпляра новой конечной точки с пользовательскими моделями может занять до 30 минут. Если статус развертывания поменялся на Выполнено, конечная точка готова к использованию.

После развертывания конечной точки ее имя отображается в виде ссылки. Щелкните на ссылку, чтобы отобразить сведения, относящиеся к конечной точке, такие как ключ конечной точки, URL-адрес конечной точки и пример кода. Запишите дату окончания срока действия и обновите модель конечной точки до наступления этой даты, чтобы обеспечить непрерывную работу службы.

Просмотр данных журнала

Данные журнала можно экспортировать, если вы перейдете на страницу конечной точки в разделе Развертывания.

Примечание

Данные журнала доступны в течение 30 дней в хранилище, принадлежащем Майкрософт. После этого будет удалено. Если учетная запись хранения, принадлежащая клиенту, связана с подпиской Cognitive Services, данные журнала не будут удаляться автоматически.

Дальнейшие действия

Дополнительные ресурсы