Uso de la API de conversión de voz en texto de Azure AI

Completado

El servicio de Voz de Azure AI admite el reconocimiento de voz a través de dos API de REST:

  • La API Speech to Text, que es la forma principal de realizar el reconocimiento de voz.
  • La API Speech to text Short Audio, que está optimizada para secuencias cortas de audio (de hasta 60 segundos).

Puede usar cualquiera de las API para el reconocimiento de voz interactivo, en función de la longitud esperada de la entrada hablada. También puede usar la API Speech to Text para la transcripción por lotes, con la transcripción de varios archivos de audio a texto como operación por lotes.

Puede obtener más información sobre las API REST en la documentación de las API REST de conversión de voz en texto. En la práctica, la mayoría de las aplicaciones interactivas habilitadas para voz usan el servicio de Voz a través de un SDK específico del lenguaje (programación).

Uso del SDK de Voz de Azure AI

Aunque los detalles específicos varían, según el SDK que se esté usando (Python, C#, etc.), hay un patrón coherente para usar la API Speech to Text:

A diagram showing how a SpeechRecognizer object is created from a SpeechConfig and AudioConfig, and its RecognizeOnceAsync method is used to call the Speech API.

  1. Use un objeto SpeechConfig para encapsular la información requerida para conectarse al recurso de Voz de Azure AI. En concreto, su ubicación y clave.
  2. También puede usar un objeto AudioConfig para definir el origen de entrada del audio que se va a transcribir. De manera predeterminada, es el micrófono predeterminado del sistema, pero también puede especificar un archivo de audio.
  3. Use SpeechConfig y AudioConfig para crear un objeto SpeechRecognizer. Este objeto es un cliente proxy para la API Speech to Text.
  4. Use los métodos del objeto SpeechRecognizer para llamar a las funciones de API subyacentes. Por ejemplo, el método RecognizeOnceAsync() usa el servicio de Voz de Azure AI para transcribir de manera asincrónica una única expresión hablada.
  5. Procese la respuesta del servicio de Voz de Azure AI. En el caso del método RecognizeOnceAsync(), el resultado es un objeto SpeechRecognitionResult que incluye las propiedades siguientes:
    • Duration
    • OffsetInTicks
    • Propiedades
    • Motivo
    • ResultId
    • Texto

Si la operación se ha realizado correctamente, la propiedad Reason tiene el valor enumerado RecognizedSpeechy la propiedad Text contiene la transcripción. Otros valores posibles de Result incluyen NoMatch (lo que indica que el audio se ha analizado correctamente, pero no se ha reconocido ninguna voz) o Canceled, que indica que se ha producido un error (en cuyo caso, puede comprobar la colección de propiedades de la propiedad CancellationReason para determinar lo que salió mal).