Использование API распознавания речи ВИ Azure для текста

Завершено

Служба распознавания речи Azure AI поддерживает распознавание речи с помощью двух ИНТЕРФЕЙСов REST API:

  • API преобразования речи в текст, который является основным способом распознавания речи.
  • API преобразования речи в текст short Audio API, оптимизированный для коротких потоков звука (до 60 секунд).

Любой API можно использовать для интерактивного распознавания речи в зависимости от ожидаемой длины голосового ввода. Вы также можете использовать API преобразования речи в текст для пакетной транскрибирования, транскрибируя несколько звуковых файлов в виде пакетной операции.

Дополнительные сведения о REST API см. в документации по REST API службы "Речь" в текстовой документации по REST API. На практике большинство интерактивных приложений с поддержкой речи используют службу "Речь" с помощью пакета SDK для конкретного языка (программирования).

Использование пакета SDK службы "Распознавание речи Azure"

Хотя конкретные сведения зависят от используемого пакета SDK (Python, C#и т. д.); Существует согласованный шаблон использования API преобразования речи в текст :

A SpeechRecognizer object is created from a SpeechConfig and AudioConfig, and its RecognizeOnceAsync method is used to call the Speech API

  1. Используйте объект SpeechConfig, чтобы инкапсулировать сведения, необходимые для подключения к ресурсу службы "Речь ИИ Azure". таких как расположение и ключ.
  2. При необходимости используйте AudioConfig, чтобы определить источник входных данных для транскрибирования звуковой речи. Как правило, это системный микрофон по умолчанию, но можно также указать звуковой файл.
  3. Используйте SpeechConfig и AudioConfig для создания объекта SpeechRecognizer. Этот объект является прокси-клиентом для API преобразования речи в текст .
  4. Для вызова базовых функций API используйте методы объекта SpeechRecognizer. Например, метод RecognizeOnceAsync() использует службу "Речь ИИ Azure" для асинхронной транскрибирования одного речевого фрагмента.
  5. Обработайте ответ от службы "Речь" Azure AI. В случае метода RecognizeOnceAsync() результатом является объект SpeechRecognitionResult , содержащий следующие свойства:
    • Длительность
    • OffsetInTicks
    • Свойства
    • Причина
    • ResultId
    • Text

Если операция выполнена успешно, свойство Reason имеет перечисляемое значение RecognizedSpeech, а свойство Text содержит транскрипцию. Другие возможные значения для результирующих значений включают NoMatch (указывая, что звук был успешно проанализирован, но речь не распознана) или Отменено, указывая, что произошла ошибка (в этом случае можно проверка коллекцию свойств для свойства CancelReason, чтобы определить, что пошло не так).