¿Qué es la conversión de voz a texto?What is speech-to-text?

En esta introducción, descubrirá las ventajas y las funcionalidades del servicio de conversión de voz en texto.In this overview, you learn about the benefits and capabilities of the speech-to-text service. La conversión de voz en texto, que también se conoce como "reconocimiento de voz", permite transcribir secuencias de audio como texto en tiempo real.Speech-to-text, also known as speech recognition, enables real-time transcription of audio streams into text. Las aplicaciones, las herramientas o los dispositivos pueden consumir y mostrar este texto como una entrada de comando, así como manipularlo.Your applications, tools, or devices can consume, display, and take action on this text as command input. Este servicio funciona con la misma tecnología de reconocimiento que Microsoft utiliza para los productos de Cortana y Office.This service is powered by the same recognition technology that Microsoft uses for Cortana and Office products. Funciona sin problemas con las ofertas de servicio de traducción y conversión de texto en voz.It seamlessly works with the translation and text-to-speech service offerings. Si desea obtener una lista completa de los idiomas disponibles para la conversión de voz a texto, consulte Idiomas admitidos.For a full list of available speech-to-text languages, see supported languages.

De forma predeterminada, el servicio de conversión de voz en texto utiliza el modelo de lenguaje universal.The speech-to-text service defaults to using the Universal language model. Este modelo se entrenó con datos propiedad de Microsoft y se implementa en la nube.This model was trained using Microsoft-owned data and is deployed in the cloud. Resulta óptimo para escenarios de conversación y dictado.It's optimal for conversational and dictation scenarios. Si usa la conversión de voz en texto para el reconocimiento y la transcripción en un entorno único, puede crear y entrenar modelos acústicos, de lenguaje y pronunciación personalizados.When using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models. La personalización es útil para abordar el ruido ambiente o el vocabulario específico del sector.Customization is helpful for addressing ambient noise or industry-specific vocabulary.

Con texto de referencia adicional como entrada, el servicio de conversión de voz a texto también habilita la funcionalidad de evaluación de la pronunciación para evaluar la pronunciación de la voz y proporcionar a los hablantes información sobre la precisión y la fluidez del audio hablado.With additional reference text as input, speech-to-text service also enables pronunciation assessment capability to evaluate speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. Con la evaluación de la pronunciación, los estudiantes de idiomas pueden practicar, obtener comentarios instantáneos y mejorar su pronunciación para poder hablar y realizar presentaciones con confianza.With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. Los educadores pueden utilizar la funcionalidad para evaluar la pronunciación de varios hablantes en tiempo real.Educators can use the capability to evaluate pronunciation of multiple speakers in real-time. Actualmente, la característica es compatible con el inglés de Estados Unidos y guarda una alta relación con las evaluaciones de voz realizadas por expertos.The feature currently supports US English, and correlates highly with speech assessments conducted by experts.

Nota

Bing Speech se ha retirado el 15 de octubre de 2019.Bing Speech was decommissioned on October 15, 2019. Si sus aplicaciones, herramientas o productos usan Bing Speech API, hemos creado guías para que le ayuden a migrar al servicio de voz.If your applications, tools, or products are using the Bing Speech APIs, we've created guides to help you migrate to the Speech service.

Importante

TLS 1.2 ya se exige en todas las solicitudes HTTP para este servicio.TLS 1.2 is now enforced for all HTTP requests to this service. Para más información, consulte Seguridad de Azure Cognitive Services.For more information, see Azure Cognitive Services security.

IntroducciónGet started

Consulte el inicio rápido para empezar a usar la conversión de voz en texto.See the quickstart to get started with speech-to-text. El servicio está disponible con el SDK de voz, la API REST y la CLI de voz.The service is available via the Speech SDK, the REST API, and the Speech CLI.

Código de ejemploSample code

Hay un ejemplo de código para el SDK de voz disponible en GitHub.Sample code for the Speech SDK is available on GitHub. En estos ejemplos se tratan escenarios comunes como la lectura de audio de un archivo o flujo, el reconocimiento continuo y de una sola emisión, y el trabajo con modelos personalizados.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models.

PersonalizaciónCustomization

Además del modelo de servicio de voz estándar, puede crear modelos personalizados.In addition to the standard Speech service model, you can create custom models. La personalización ayuda a eliminar las barreras del reconocimiento de voz, como el estilo de habla, el vocabulario y el ruido de fondo. Consulte Habla personalizada.Customization helps to overcome speech recognition barriers such as speaking style, vocabulary and background noise, see Custom Speech. Las opciones de personalización varían según el idioma o la configuración regional (consulte los idiomas admitidos para comprobar la compatibilidad).Customization options vary by language/locale, see supported languages to verify support.

Transcripción de Azure BatchBatch transcription

La transcripción por lotes es un conjunto de operaciones de API REST que permite transcribir una gran cantidad de audio en almacenamiento.Batch transcription is a set of REST API operations that enable you to transcribe a large amount of audio in storage. Puede apuntar a archivos de audio con un identificador URI de firma de acceso compartido (SAS) y recibir los resultados de las transcripciones de forma asincrónica.You can point to audio files with a shared access signature (SAS) URI and asynchronously receive transcription results. Para más información sobre cómo usar la API de transcripción por lotes, consulte el procedimiento.See the how-to for more information on how to use the batch transcription API.

Documentos de referenciaReference docs

El servicio de voz proporciona dos SDK.The Speech service provides two SDKs. El primer SDK es el SDK de voz principal y proporciona la mayoría de las funcionalidades necesarias para interactuar con el servicio de voz.The first SDK is the primary Speech SDK and provides most of the functionalities needed to interact with the Speech service. El segundo SDK es específico de los dispositivos, denominado correctamente SDK de dispositivos de voz.The second SDK is specific to devices, appropriately named the Speech Devices SDK. Ambos SDK están disponibles en muchos idiomas.Both SDKs are available in many languages.

Documentos de referencia del SDK de vozSpeech SDK reference docs

Use la lista siguiente para encontrar los documentos de referencia del SDK de voz adecuado:Use the following list to find the appropriate Speech SDK reference docs:

Sugerencia

El SDK del servicio de voz se mantiene y actualiza de forma activa.The Speech service SDK is actively maintained and updated. Para realizar un seguimiento de los cambios, las actualizaciones y las adiciones de características, consulte las notas de la versión del SDK de voz.To track changes, updates and feature additions refer to the Speech SDK release notes.

Documentos de referencia del SDK de dispositivos de vozSpeech Devices SDK reference docs

El SDK de dispositivos de voz es un superconjunto del SDK de voz, con funcionalidad ampliada para dispositivos específicos.The Speech Devices SDK is a superset of the Speech SDK, with extended functionality for specific devices. Para descargar el SDK de dispositivos de voz, primero debe elegir un kit de desarrollo.To download the Speech Devices SDK, you must first choose a development kit.

Referencias de la API de RESTREST API references

Para obtener referencias de las distintas API de REST del servicio de voz, consulte la siguiente lista:For references of various Speech service REST APIs, refer to the listing below:

Pasos siguientesNext steps