Что такое распознавание устной речи?

Распознавание устной речи — это одна из пользовательских функций, предлагаемых языком ИИ Azure. Это облачная служба API, которая применяет аналитику машинного обучения для создания компонента распознавания естественного языка, который будет использоваться в комплексном приложении для общения.

Распознавание устной речи (CLU) позволяет пользователям создавать настраиваемые модели распознавания естественного языка для прогнозирования общего намерения входящего речевого фрагмента и извлечения из него важных сведений. CLU лишь предоставляет аналитику для понимания входного текста клиентского приложения и не выполняет никаких действий. Создав проект CLU, разработчики могут итеративно помечать речевые фрагменты, обучать модель и оценивать ее производительность, прежде чем сделать ее доступной для использования. Качество данных с метками значительно влияет на производительность модели. Чтобы упростить создание и настройку модели, служба предлагает настраиваемый веб-портал, доступ к которому можно получить с помощью Language Studio. Вы можете легко приступить к работе со службой, выполнив действия, описанные в этом кратком руководстве.

Эта документация включает статьи следующих типов:

Примеры сценариев использования

CLU можно использовать в нескольких сценариях в различных отраслях. Ниже приведены некоторые примеры.

Комплексный бот для общения

Используйте CLU для создания и обучения настраиваемой модели распознавания естественного языка на основе определенной предметной области и речевых фрагментов ожидаемых пользователей. Интегрируйте ее с любым комплексным ботом для общения, чтобы он мог обрабатывать и анализировать входящий текст в режиме реального времени для определения намерения текста и извлечения из него важной информации. Настройте бота для выполнения требуемого действия на основе намерения и извлеченных сведений. В качестве примера можно привести настраиваемый бот розничной торговли для покупок в Интернете или заказа продуктов питания.

Боты-помощники

Одним из примеров бота-помощника является бот, помогающий персоналу улучшать взаимодействие с клиентами путем рассмотрения запросов клиентов и назначения их соответствующему сотруднику службы поддержки. Другим примером может быть бот кадровых ресурсов на предприятии, который позволяет сотрудникам взаимодействовать на естественном языке и получать рекомендации на основе запроса.

Приложения для контроля и управления

При интеграции клиентского приложения с компонентом преобразования речи в текст пользователи могут произносить команду на естественном языке, чтобы CLU обрабатывала, определяла намерение и извлекла информацию из текста, чтобы клиентское приложение выполнило действие. Этот вариант использования имеет множество применений, таких как остановка, воспроизведение и перемотка композиции или включение и отключение освещения.

Корпоративный чат-бот

В крупной корпорации корпоративный чат-бот может обрабатывать самые разные дела сотрудников. Он может обрабатывать часто задаваемые вопросы, обслуживаемые пользовательской базой знаний с ответами на вопросы, определенный навык для календаря, обслуживаемый CLU, и навык обратной связи для интервью, обслуживаемый LUIS. Используйте рабочий процесс оркестрации, чтобы объединить все эти навыки и соответствующим образом направлять входящие запросы в подходящую службу.

Жизненный цикл разработки проекта

Создание проекта CLU для классификации обычно включает в себя несколько шагов.

Жизненный цикл разработки

Чтобы максимально эффективно использовать модель, выполните следующие шаги:

  1. Определение схемы. Изучите свои данные и определите действия и соответствующие сведения, которые необходимо распознать из входных речевых фрагментов пользователя. На этом шаге вы создаете намерения, которые хотите назначить речевым фрагментам пользователя, и релевантные сущности, которые хотите извлечь.

  2. Маркировка данных. Качество этого процесса является ключевым фактором, от которого зависит производительность модели.

  3. Обучение модели. Обучение модели начинается с изучения промаркированных данных.

  4. Просмотр сведений о производительности модели. Просмотрите сведения об оценке модели, чтобы определить, насколько она эффективна при внесении новых данных.

  5. Улучшение модели. После просмотра сведений о производительности модели вы можете изучить возможности по ее улучшению.

  6. Развертывание модели. Развернутая модель становится доступной для использования посредством API среды выполнения.

  7. Прогнозирование намерений и сущностей. Используйте настраиваемую модель для прогнозирования намерений и сущностей на основе речевых фрагментов пользователя.

Справочная документация и примеры кода

При использовании CLU ознакомьтесь со следующей справочной документацией и примерами для языка ИИ Azure:

Язык/вариант разработки Справочная документация Примеры
REST API (разработка) Документация по REST API
REST API (среда выполнения) Документация по REST API
C# (среда выполнения) Документация по C# Примеры для C#
Python (среда выполнения) Документация по Python. Примеры для Python

Ответственный подход к использованию ИИ

Система ИИ включает не только технологии, но и людей, которые будут ею пользоваться и которых она затронет, а также среду, в которой она будет развернута. Ознакомьтесь с примечанием о прозрачности для CLU, чтобы узнать больше об ответственном использовании и развертывании искусственного интеллекта в своих системах. Дополнительные сведения см. в следующих статьях:

Следующие шаги