¿Qué es Bing Speech?What is Bing Speech?

Nota

El nuevo servicio y SDK de Voz va a sustituir a Bing Speech, que dejará de funcionar a partir del 15 de octubre de 2019.The new Speech Service and SDK is replacing Bing Speech, which will no longer work starting October 15, 2019. Para más información acerca de cómo cambiar al servicio Voz, consulte Migrating from Bing Speech to the Speech Service (Migración de Bing Speech al servicio Voz).For information on switching to the Speech Service, see Migrating from Bing Speech to the Speech Service.

Microsoft Bing Speech API es una API basada en la nube que proporciona a los desarrolladores un mecanismo sencillo para crear en las aplicaciones eficaces características con voz habilitada, como el control de comandos por voz, el diálogo con el usuario mediante una conversación en lenguaje natural y la transcripción y el dictado de voz.The cloud-based Microsoft Bing Speech API provides developers an easy way to create powerful speech-enabled features in their applications, like voice command control, user dialog using natural speech conversation, and speech transcription and dictation. Microsoft Speech API admite tanto la conversión de voz en texto como la conversión de texto a voz.The Microsoft Speech API supports both Speech to Text and Text to Speech conversion.

  • Speech to Text API convierte la voz humana en texto que puede usarse como entrada o comandos para controlar la aplicación.Speech to Text API converts human speech to text that can be used as input or commands to control your application.
  • Text to Speech API convierte el texto en secuencias de audio que pueden reproducirse para el usuario de la aplicación.Text to Speech API converts text to audio streams that can be played back to the user of your application.

Conversión de voz a texto (reconocimiento de voz)Speech to text (speech recognition)

Microsoft Speech Recognition API transcribe secuencias de audio en texto que la aplicación puede mostrar al usuario o actuar como si fueran entrada de comandos.Microsoft speech recognition API transcribes audio streams into text that your application can display to the user or act upon as command input. Proporciona a los desarrolladores dos maneras agregar voz a sus aplicaciones: las API de REST o las bibliotecas cliente basadas en Websocket.It provides two ways for developers to add Speech to their apps: REST APIs or Websocket-based client libraries.

  • API de REST: los desarrolladores pueden usar llamadas HTTP desde sus aplicaciones al servicio para el reconocimiento de voz.REST APIs: Developers can use HTTP calls from their apps to the service for speech recognition.
  • Bibliotecas cliente: para características avanzadas, los desarrolladores pueden descargar las bibliotecas cliente de voz de Microsoft y vincular sus aplicaciones.Client libraries: For advanced features, developers can download Microsoft Speech client libraries, and link into their apps. Las bibliotecas cliente están disponibles en distintas plataformas (Windows, Android, iOS) con distintos lenguajes (C#, Java, JavaScript, ObjectiveC).The client libraries are available on various platforms (Windows, Android, iOS) using different languages (C#, Java, JavaScript, ObjectiveC). A diferencia de las API REST, las bibliotecas cliente utilizan un protocolo basado en Websocket.Unlike the REST APIs, the client libraries utilize Websocket-based protocol.
Casos de usoUse cases API de RESTREST APIs Bibliotecas clienteClient Libraries
Convertir un audio hablado corto, por ejemplo, comandos (longitud audio < 15 s) sin resultados provisionalesConvert a short spoken audio, for example, commands (audio length < 15 s) without interim results Yes Yes
Convertir un audio largo (> 15 s)Convert a long audio (> 15 s) Sin No Yes
Audio de secuencia con resultados provisionales deseadosStream audio with interim results desired Sin No Yes
Comprender el texto convertido desde audio mediante LUISUnderstand the text converted from audio using LUIS Sin No Yes

Sea cual sea el enfoque que los desarrolladores elijan (las API de REST o las bibliotecas cliente), el servicio de voz de Microsoft admite lo siguiente:Whichever approach developers choose (REST APIs or client libraries), Microsoft speech service supports the following:

  • Tecnologías avanzadas de reconocimiento de voz de Microsoft que usan Cortana, el dictado de Office, el traductor de Office y otros productos de Microsoft.Advanced speech recognition technologies from Microsoft that are used by Cortana, Office Dictation, Office Translator, and other Microsoft products.
  • Reconocimiento continuado en tiempo real.Real-time continuous recognition. Speech Recognition API permite a los usuarios transcribir audio en texto en tiempo real y admite recibir los resultados intermedios de las palabras que se han reconocido hasta ahora.The speech recognition API enables users to transcribe audio into text in real time, and supports to receive the intermediate results of the words that have been recognized so far. El servicio de voz también admite la detección del fin de voz.The speech service also supports end-of-speech detection. Además, los usuarios pueden elegir funcionalidades de formato adicionales, como el uso de mayúsculas y signos de puntuación, el enmascaramiento de palabras soeces y la normalización de texto.In addition, users can choose additional formatting capabilities, like capitalization and punctuation, masking profanity, and text normalization.
  • Admite los resultados del reconocimiento de voz optimizados para escenarios interactivos, de conversación y de dictado.Supports optimized speech recognition results for interactive, conversation, and dictation scenarios. Para los escenarios de usuario que requieren modelos de lenguaje y modelos acústicos personalizados, Custom Speech Service le permite crear modelos de voz adaptados a la aplicación y los usuarios.For user scenarios which require customized language models and acoustic models, Custom Speech Service allows you to create speech models that tailored to your application and your users.
  • Admite muchos idiomas hablados en varios dialectos.Support many spoken languages in multiple dialects. Para obtener la lista completa de los idiomas admitidos en cada modo de reconocimiento, consulte los idiomas de reconocimiento.For the full list of supported languages in each recognition mode, see recognition languages.
  • Integración con Language Understanding.Integration with language understanding. Además de convertir el audio de entrada en texto, la conversión de voz en texto proporciona a las aplicaciones una capacidad adicional para comprender lo que significa el texto.Besides converting the input audio into text, the Speech to Text provides applications an additional capability to understand what the text means. Usa Language Understanding Intelligent Service (LUIS) para extraer intenciones y entidades del texto reconocido.It uses the Language Understanding Intelligent Service(LUIS) to extract intents and entities from the recognized text.

Pasos siguientesNext steps

Conversión de texto a voz (síntesis de voz)Text to speech (speech synthesis)

Las Text to Speech API usan REST para convertir el texto estructurado en una secuencia de audio.Text to Speech APIs use REST to convert structured text to an audio stream. Las API proporcionan la conversión rápida de texto a voz en distintos idiomas y voces.The APIs provide fast text to speech conversion in various voices and languages. Además, los usuarios también tienen la capacidad de cambiar las características de audio, como la pronunciación, el volumen, el tono, etc.In addition users also have the ability to change audio characteristics like pronunciation, volume, pitch etc. con etiquetas SSML.using SSML tags.

Pasos siguientesNext steps