¿Qué es la conversión de voz a texto?What is speech-to-text?

La conversión de voz a texto de Servicios de voz de Azure, también conocida simplemente como voz a texto, permite la transcripción en tiempo real de secuencias de audio a texto que las aplicaciones, herramientas o dispositivos pueden usar, mostrar o actuar como ante una entrada de comandos.Speech-to-text from Azure Speech Services, also known as speech-to-text, enables real-time transcription of audio streams into text that your applications, tools, or devices can consume, display, and take action on as command input. Este servicio funciona con la misma tecnología de reconocimiento que Microsoft utiliza para los productos de Cortana y Office, y funciona sin problemas con la traducción y el servicio de texto a voz.This service is powered by the same recognition technology that Microsoft uses for Cortana and Office products, and works seamlessly with the translation and text-to-speech. Si desea obtener una lista completa de los idiomas disponibles para la conversión de voz a texto, consulte Idiomas admitidos.For a full list of available speech-to-text languages, see supported languages.

De forma predeterminada, el servicio de voz a texto utiliza el modelo de lenguaje universal.By default, the speech-to-text service uses the Universal language model. Este modelo se entrenó con datos propiedad de Microsoft y se implementa en la nube.This model was trained using Microsoft-owned data and is deployed in the cloud. Resulta óptimo para escenarios de conversación y dictado.It's optimal for conversational and dictation scenarios. Si usa voz a texto para el reconocimiento y la transcripción en un entorno único, puede crear y entrenar modelos acústicos, de lenguaje y pronunciación personalizados para dirigir el sonido ambiental o vocabulario específico del sector.If you are using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary.

Puede capturar audio desde un micrófono fácilmente, leer de una secuencia o acceder a archivos de audio desde el almacenamiento con el SDK de voz y las API REST de Speech Services.You can easily capture audio from a microphone, read from a stream, or access audio files from storage with the Speech SDK and REST APIs. El SDK de voz admite WAV/PCM de 16 bits, 16 kHz u 8 kHz y audio de un solo canal para el reconocimiento de voz.The Speech SDK supports WAV/PCM 16-bit, 16 kHz/8 kHz, single-channel audio for speech recognition. Los formatos de audio adicionales se admiten mediante el punto de conexión de REST de voz a texto o el servicio de transcripción por lotes.Additional audio formats are supported using the speech-to-text REST endpoint or the batch transcription service.

Características principalesCore features

Estas son las características disponibles en el SDK de voz y las API REST de Speech Services:Here are the features available via the Speech SDK and REST APIs:

Caso de usoUse case SDKSDK RESTREST
Transcripción de expresiones de voz (<15 segundos).Transcribe short utterances (<15 seconds). Solo es compatible con el resultado final de la transcripción.Only supports final transcription result. Yes Yes
Transcripción continua de expresiones de voz largas y streaming de audio (>15 segundos).Continuous transcription of long utterances and streaming audio (>15 seconds). Es compatible con resultados de transcripción intermedios y finales.Supports interim and final transcription results. Yes SinNo
Derivación de intenciones a partir de resultados de reconocimiento con LUIS.Derive intents from recognition results with LUIS. Yes No*No*
Transcripción por lotes de archivos de audio de forma asincrónica.Batch transcription of audio files asynchronously. SinNo Sí**Yes**
Creación y administración de modelos de voz.Create and manage speech models. SinNo Sí**Yes**
Creación y administración de implementaciones de modelos personalizados.Create and manage custom model deployments. SinNo Sí**Yes**
Creación de pruebas de precisión para medir la exactitud de la base de referencia del modelo frente a los modelos personalizados.Create accuracy tests to measure the accuracy of the baseline model versus custom models. SinNo Sí**Yes**
Administración de suscripciones.Manage subscriptions. SinNo Sí**Yes**

* Las entidades e intenciones de LUIS pueden derivarse mediante una suscripción independiente de LUIS. Con esta suscripción, el SDK puede llamar a LUIS y proporcionar resultados de la entidad y la intención. Con la API REST, puede llamar a LUIS usted mismo para deducir las entidades y las intenciones con su suscripción a LUIS.* LUIS intents and entities can be derived using a separate LUIS subscription. With this subscription, the SDK can call LUIS for you and provide entity and intent results. With the REST API, you can call LUIS yourself to derive intents and entities with your LUIS subscription.

** Estos servicios están disponibles mediante el punto de conexión cris.ai. Consulte la referencia de Swagger.** These services are available using the cris.ai endpoint. See Swagger reference.

Introducción a la conversión de voz a textoGet started with speech-to-text

Ofrecemos guías de inicio rápido en los lenguajes de programación más populares, cuyo diseño individual le permite ejecutar código en menos de 10 minutos.We offer quickstarts in most popular programming languages, each designed to have you running code in less than 10 minutes. Esta tabla incluye una lista completa de inicios rápidos del SDK de Voz ordenados por plataforma e idioma.This table includes a complete list of Speech SDK quickstarts organized by platfrom and language. La referencia de API también se puede encontrar aquí.API reference can also be found here.

Si prefiere usar el servicio REST de voz a texto, consulte API REST.If you prefer to use the speech-to-text REST service, see REST APIs.

Tutoriales y ejemplo de códigoTutorials and sample code

Una vez que haya tenido la oportunidad de usar los servicios de voz, pruebe nuestro tutorial, que le enseña a reconocer intenciones a partir de contenido de voz mediante el SDK de voz y LUIS.After you've had a chance to use the Speech Services, try our tutorial that teaches you how to recognize intents from speech using the Speech SDK and LUIS.

Hay un ejemplo de código para el SDK de voz disponible en GitHub.Sample code for the Speech SDK is available on GitHub. En estos ejemplos se tratan escenarios comunes como la lectura de audio de un archivo o flujo, el reconocimiento continuo y de una sola emisión, y el trabajo con modelos personalizados.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models.

PersonalizaciónCustomization

Además del modelo universal que usa Servicios de voz, se pueden crear modelos acústicos, de idiomas y de pronunciación personalizados específicos para su experiencia.In addition to the Universal model used by the Speech Services, you can create custom acoustic, language, and pronunciation models specific to your experience. Esta es una lista de las opciones de personalización:Here's a list of customization options:

ModeloModel DESCRIPCIÓNDescription
Modelo acústicoAcoustic model La creación de un modelo acústico personalizado resulta útil si las aplicaciones, herramientas o dispositivos se emplean en un entorno concreto como en un automóvil o en una planta de producción, cada uno con unas condiciones de grabación específicas.Creating a custom acoustic model is helpful if your application, tools, or devices are used in a particular environment, like in a car or factory with specific recording conditions. Los ejemplos incluyen el habla con acento, ruidos de fondo específicos o el uso de un micrófono específico para la grabación.Examples involve accented speech, specific background noises, or using a specific microphone for recording.
Modelo de lenguajeLanguage model Cree un modelo de lenguaje personalizado para mejorar la transcripción de gramática y vocabulario específicos del sector, como terminología médica o jerga de TI.Create a custom language model to improve transcription of industry-specific vocabulary and grammar, such as medical terminology, or IT jargon.
Modelo de pronunciaciónPronunciation model Con un modelo de pronunciación personalizado, puede definir el formato fonético y mostrar una palabra o un término.With a custom pronunciation model, you can define the phonetic form and display of a word or term. Es útil para controlar términos personalizados, como nombres de producto o acrónimos.It's useful for handling customized terms, such as product names or acronyms. Basta con un archivo de pronunciación (un archivo .txt simple).All you need to get started is a pronunciation file -- a simple .txt file.

Nota

Las opciones de personalización varían según el idioma o la configuración regional (consulte los idiomas admitidos).Customization options vary by language/locale (see Supported languages).

Guías de migraciónMigration guides

Advertencia

Bing Speech se retirará el 15 de octubre de 2019.Bing Speech will be decommissioned on October 15, 2019.

Si sus aplicaciones, herramientas o productos usan Bing Speech API o Custom Speech, hemos creado guías para que le ayuden a migrar a Servicios de voz.If your applications, tools, or products are using the Bing Speech APIs or Custom Speech, we've created guides to help you migrate to Speech Services.

Documentos de referenciaReference docs

Pasos siguientesNext steps