Что такое распознавание ключевых слов?

Распознавание ключевых слов обнаруживает слово или короткую фразу в звуковом потоке. Этот метод также называется ключевое слово пятно.

Наиболее распространенным вариантом использования распознавания ключевых слов является голосовая активация виртуальных помощников. Например, "Привет, Кортана" — ключевое слово для помощника Кортаны. После распознавания ключевого слова выполняется действие, зависящее от сценария. Для сценариев виртуальных помощников типичным действием является распознавание речи, следующей за ключевым словом.

Как правило, виртуальные помощники всегда находятся в режиме прослушивания. Распознавание ключевых слов действует как граница конфиденциальности для пользователя. Требование ключевого слова действует как шлюз, который не позволяет звукам пользователя выйти за пределы локального устройства и попасть в облако.

Чтобы обеспечить баланс между точностью, задержкой и вычислительной сложностью, распознавание ключевых слов реализовано в виде многоэтапной системы. Для всех этапов, помимо первых, звук обрабатывается только в том случае, если этап до него распознает ключевое слово интереса.

Текущая система включает несколько этапов, охватывающих все пространство от границы до облака:

Diagram that shows multiple stages of keyword recognition across the edge and cloud.

Точность распознавания ключевых слов измеряется с помощью следующих метрик:

  • Коэффициент правильно распознанных сигналов — измеряет способность системы распознавать ключевые слова, произнесенные конечным пользователем. Этот параметр также называют процентом истинноположительных результатов.
  • Коэффициент ложно распознанных сигналов — измеряет способность системы отфильтровывать звуки, которые не являются ключевыми словами, произнесенными конечным пользователем. Этот параметр также называют процентом ложноположительных результатов.

Цель состоит в том, чтобы максимально увеличить коэффициент правильно распознанных сигналов и свести к минимуму коэффициент ложно распознанных сигналов. Текущая система предназначена для обнаружения ключевых слов или фраз, которым предшествует короткая пауза. Обнаружение ключевых слов в середине предложения или речевого фрагмента не поддерживается.

Пользовательские ключевые слова для моделей на устройстве

Портал Пользовательских ключевых слов в Speech Studio позволяет создавать модели распознавания ключевых слов, выполняемые на границе, указав любое слово или короткую фразу. Вы можете дополнительно персонализировать свою модель, выбрав правильное произношение.

Цены

Плата за использование Пользовательских ключевых слов для создания базовых или расширенных моделей не взимается. Кроме того, для запуска моделей на устройстве с помощью пакета SDK службы "Речь" при использовании с другими функциями службы "Речь", такими как речь в тексте, также не требуется.

Типы моделей

Пользовательские ключевые слова позволяют создавать два типа моделей на устройстве для любого ключевого слова.

Тип модели Description
Базовая Лучше всего подходит для демонстрации или быстрого создания прототипов. Модели создаются с использованием общей базовой модели, и для их подготовки может потребоваться до 15 минут. Модели могут не иметь оптимальных характеристик точности.
Расширенные Лучше всего подходит для интеграции продуктов. Модели создаются путем адаптации общей базовой модели с помощью смоделированных обучающих данных для повышения точности. Для подготовки моделей может потребоваться до 48 часов.

Примечание.

Список регионов, поддерживающих Расширенный тип модели, можно просмотреть в документации по поддержке регионов для распознавания ключевых слов.

Ни один тип модели не требует отправки обучающих данных. Пользовательские ключевые слова полностью обеспечивают создание данных и обучение модели.

Произношение

При создании новой модели Пользовательские ключевые слова автоматически создают возможные варианты произношения указанного ключевого слова. Можно прослушать каждый вариант и выбрать все, которые достаточно точно отражают способ произнесения ключевого слова пользователями. Остальные варианты произношения следует проигнорировать.

Для обеспечения наиболее высокой точности важно вдумчиво подойти к вопросу выбора вариантов произношения. Например, если выбрать больше вариантов произношения, чем требуется, можно получить больше ложноположительных сигналов. Если же выбрать слишком мало вариантов, которые не охватывают все возможные звучания, коэффициент правильно распознанных сигналов может снизиться.

Тестовые модели

После создания пользовательских ключевое слово модели на устройстве можно протестировать непосредственно на портале. Портал позволяет получить результаты распознавания ключевых слов непосредственно в браузере.

Проверка ключевого слова

Проверка ключевых слов — это облачная служба, которая снижает влияние ложных приемов из моделей на устройстве с надежными моделями, работающими в Azure. Для проверки вашего ключевого слова с помощью этой службы не требуется настройка или обучение. В службе постоянно развертываются добавочные обновления модели, чтобы улучшить показатели точности и задержки. Этот процесс прозрачен для клиентских приложений.

Цены

Проверка ключевых слов всегда используется в сочетании с речью к тексту. Нет затрат на использование ключевое слово проверки за пределами затрат на речь в тексте.

Проверка ключевых слов и речь в тексте

При использовании проверки ключевое слово всегда в сочетании с речью к тексту. Обе службы выполняются параллельно. Это означает, что звук отправляется обеим службам для одновременной обработки.

Diagram that shows parallel processing of keyword verification and speech to text.

Выполнение ключевое слово проверки и речи в текст параллельно дает следующие преимущества:

  • Никакой другой задержки при передаче речи в текстовые результаты: параллельное выполнение означает, что ключевое слово проверка не добавляет задержки. Клиент быстро получает результаты речи к тексту. Если проверка ключевое слово определяет, что ключевое слово отсутствует в звуке, преобразование речи в текст завершается. Это действие защищает от ненужной речи в обработке текста. Обработка сетевых и облачных моделей увеличивает заметную для пользователя задержку при голосовом управлении. Дополнительные сведения см. в разделе Рекомендации и инструкции.
  • Принудительное ключевое слово префикс речи в текстовые результаты: преобразование речи в обработку текста гарантирует, что результаты, отправленные клиенту, префиксируются ключевое слово. Это позволяет повысить точность речи в текстовых результатах для речи, которая следует за ключевое слово.
  • Увеличение времени ожидания речи к тексту: из-за ожидаемого присутствия ключевое слово в начале звука речь в тексте позволяет дольше приостанавливаться до пяти секунд после ключевое слово, прежде чем определить конец речи и завершить обработку текста. Такое поведение гарантирует, что взаимодействие с пользователем будет правильно обработано для промежуточных (<ключевое слово><пауза><команда>) и сцепленных команд (<ключевое слово><команда>).

Ответы на проверку ключевых слов и рекомендации по задержке

Для каждого запроса служба проверки ключевых слов возвращает один из двух ответов: принято или отклонено. Задержка обработки зависит от длины ключевого слова и длины аудиосегмента, который должен его содержать. Задержка обработки не включает стоимость сети между клиентскими службами и службами распознавания речи.

Ответ проверки ключевых слов Description
Акцептировано Указывает, что служба нашла ключевое слово в аудиопотоке, включенном в запрос.
Аннулировано Указывает, что служба не нашла ключевое слово в аудиопотоке, включенном в запрос.

Отклоненные варианты часто характеризуются более высокой задержкой, так как служба обрабатывает больше звуков, чем для принятых вариантов. По умолчанию для поиска ключевого слова проверка ключевых слов обрабатывает аудиопоток длительностью не более двух секунд. Если ключевое слово не найден в течение двух секунд, время ожидания службы и сигнал отклонить ответ клиенту.

Использование проверки ключевых слов с моделями на устройстве из Пользовательских ключевых слов

Пакет SDK службы "Речь" позволяет легко использовать модели на устройстве, созданные с помощью пользовательских ключевое слово с ключевое слово проверкой и речью в тексте. Он обеспечивает прозрачную обработку следующих задач:

  • Проверка аудиопотока для служб проверки ключевых слов и распознавания речи согласно результату модели на устройстве.
  • Передача ключевого слова в службу проверки ключевых слов.
  • Передача всех дополнительных метаданных в облако для оркестрации комплексного сценария.

Вам не нужно явно указывать какие-либо параметры конфигурации. Вся необходимая информация будет автоматически извлечена из модели на устройстве, созданной с помощью Пользовательских ключевых слов.

В примере и учебниках, ссылки на которые приведены ниже, показано, как использовать пакет SDK службы "Речь":

Интеграция с пакетом SDK для службы "Речь" и сценарии

Пакет SDK службы "Речь" упрощает использование персонализированных моделей распознавания ключевых слов на устройстве, созданных с помощью Пользовательских ключевых слов, и проверки ключевых слов. Для обеспечения соответствия требованиям к продукту пакет SDK поддерживает два сценария:

Сценарий Description Примеры
Комплексное распознавание ключевое слово с речью к тексту Лучше всего подходит для продуктов, использующих настраиваемую модель ключевое слово на устройстве из пользовательской ключевое слово с ключевое слово проверкой и речью в текст. Этот сценарий является наиболее распространенным.
Автономное распознавание ключевых слов Лучше всего подходит для продуктов без сетевого подключения, использующих настраиваемую модель ключевое слово на устройстве из пользовательской ключевое слово.

Следующие шаги