¿Qué es la conversión de voz a texto?

En esta introducción, descubrirá las ventajas y las funcionalidades del servicio de conversión de voz en texto. La conversión de voz en texto, que también se conoce como "reconocimiento de voz", permite transcribir secuencias de audio como texto en tiempo real. Las aplicaciones, las herramientas o los dispositivos pueden consumir y mostrar este texto como una entrada de comando, así como manipularlo. Este servicio funciona con la misma tecnología de reconocimiento que Microsoft utiliza para los productos de Cortana y Office. Funciona sin problemas con las ofertas de servicio de traducción y conversión de texto en voz. Si desea obtener una lista completa de los idiomas disponibles para la conversión de voz a texto, consulte Idiomas admitidos.

De forma predeterminada, el servicio de conversión de voz en texto utiliza el modelo de lenguaje universal. Este modelo se entrenó con datos propiedad de Microsoft y se implementa en la nube. Resulta óptimo para escenarios de conversación y dictado. Si usa la conversión de voz en texto para el reconocimiento y la transcripción en un entorno único, puede crear y entrenar modelos acústicos, de lenguaje y pronunciación personalizados. La personalización es útil para abordar el ruido ambiente o el vocabulario específico del sector.

Esta documentación contiene los siguientes tipos de artículos:

  • Los inicios rápidos son instrucciones de inicio que le guiarán a la hora de hacer solicitudes al servicio.
  • Las guías de procedimientos contienen instrucciones para usar el servicio de una manera más específica o personalizada.
  • Los conceptos proporcionan explicaciones detalladas sobre la funcionalidad y las características del servicio.
  • Los tutoriales son guías más largas que muestran cómo usar el servicio como componente de soluciones empresariales más amplias.

Nota

Bing Speech se ha retirado el 15 de octubre de 2019. Si sus aplicaciones, herramientas o productos usan Bing Speech API, hemos creado guías para que le ayuden a migrar al servicio de voz.

Introducción

Consulte el inicio rápido para empezar a usar la conversión de voz en texto. El servicio está disponible con el SDK de voz, la API REST y la CLI de voz.

Código de ejemplo

Hay un ejemplo de código para el SDK de voz disponible en GitHub. En estos ejemplos se tratan escenarios comunes como la lectura de audio de un archivo o flujo, el reconocimiento continuo y al inicio, y el trabajo con modelos personalizados.

Personalización

Además del modelo de servicio de voz estándar, puede crear modelos personalizados. La personalización ayuda a eliminar las barreras del reconocimiento de voz, como el estilo de habla, el vocabulario y el ruido de fondo. Consulte Habla personalizada. Las opciones de personalización varían según el idioma o la configuración regional (consulte los idiomas admitidos para comprobar la compatibilidad).

Transcripción de Azure Batch

La transcripción por lotes es un conjunto de operaciones de API REST que permite transcribir una gran cantidad de audio en almacenamiento. Puede apuntar a archivos de audio con un identificador URI de firma de acceso compartido (SAS) y recibir los resultados de las transcripciones de forma asincrónica. Para más información sobre cómo usar la API de transcripción por lotes, consulte el procedimiento.

Documentos de referencia

El servicio de voz proporciona dos SDK. El primer SDK es el SDK de voz principal y proporciona la mayoría de las funcionalidades necesarias para interactuar con el servicio de voz. El segundo SDK es específico de los dispositivos, denominado correctamente SDK de dispositivos de voz. Ambos SDK están disponibles en muchos idiomas.

Documentos de referencia del SDK de voz

Use la lista siguiente para encontrar los documentos de referencia del SDK de voz adecuado:

Sugerencia

El SDK del servicio de voz se mantiene y actualiza de forma activa. Para realizar un seguimiento de los cambios, las actualizaciones y las adiciones de características, consulte las notas de la versión del SDK de voz.

Documentos de referencia del SDK de dispositivos de voz

El SDK de dispositivos de voz es un superconjunto del SDK de voz, con funcionalidad ampliada para dispositivos específicos. Para descargar el SDK de dispositivos de voz, primero debe elegir un kit de desarrollo.

Referencias de la API de REST

Para obtener referencias de las distintas API de REST del servicio de voz, consulte la siguiente lista:

Pasos siguientes