¿Qué es Speech Service?What is the Speech service?

Speech Service agrupa las funciones de voz de Azure que estaban disponibles a través de Bing Speech API, Translator Speech, Custom Speech y los servicios de Custom Voice.The Speech service unites the Azure speech features previously available via the Bing Speech API, Translator Speech, Custom Speech, and Custom Voice services. Ahora, una sola suscripción proporciona acceso a todas estas funcionalidades.Now, one subscription provides access to all of these capabilities.

Al igual que otros servicios de voz de Azure, el servicio Voz funciona con las tecnologías de voz usadas en productos como Cortana y Microsoft Office.Like the other Azure speech services, the Speech service is powered by the speech technologies used in products like Cortana and Microsoft Office. Puede confiar en la calidad de los resultados y la confiabilidad de la plataforma en la nube.You can count on the quality of the results and the reliability of the cloud platform.

Principales funciones de Speech ServiceMain Speech service functions

Las principales funciones de Speech Service son la conversión de voz en texto (también llamada reconocimiento de voz o transcripción), la conversión de texto a voz (síntesis de voz) y la traducción de voz.The primary functions of the Speech service are Speech to Text (also called speech recognition or transcription), Text to Speech (speech synthesis), and Speech Translation.

FunciónFunction CaracterísticasFeatures
Conversión de voz en textoSpeech to Text
  • Permite transcribir en tiempo real voz en texto.Transcribes continuous real-time speech into text.
  • Puede transcribir por lotes voz a partir de grabaciones de audio.Can batch-transcribe speech from audio recordings.
  • Ofrece modos de reconocimiento para casos de uso interactivos, de conversación y dictado.Offers recognition modes for interactive, conversation, and dictation use cases.
  • Admite resultados intermedios, detección de fin de voz, formato de texto automático y enmascaramiento de palabras soeces.Supports intermediate results, end-of-speech detection, automatic text formatting, and profanity masking.
  • Puede llamar al servicio Language Understanding (LUIS) para extraer la intención del usuario de la transcripción de voz.*Can call on Language Understanding (LUIS) to derive user intent from transcribed speech.*
Texto a vozText to Speech
  • Convierte el texto a una voz que parece natural.Converts text to natural-sounding speech.
  • Ofrece varios géneros y dialectos para muchos idiomas compatibles.Offers multiple genders and/or dialects for many supported languages.
  • Admite la entrada de texto sin formato o el lenguaje de marcado de síntesis de voz (SSML).Supports plain text input or Speech Synthesis Markup Language (SSML).
Traducción de vozSpeech Translation
  • Traduce el audio en streaming casi en tiempo real.Translates streaming audio in near-real-time.
  • También puede procesar voz grabada.Can also process recorded speech.
  • Puede proporcionar resultados como texto o como voz sintetizada.Provides results as text or synthesized speech.

* El reconocimiento de intenciones requiere una suscripción a LUIS.* Intent recognition requires a LUIS subscription.

Características de personalización de vozCustomize speech features

Puede usar sus propios datos para entrenar los modelos subyacentes de las características de conversión de voz a texto y texto a voz del servicio Voz.You can use your own data to train the models that underlie the Speech service's Speech-to-Text and Text-to-Speech features.

CaracterísticaFeature ModeloModel PropósitoPurpose
Speech to TextSpeech to Text Modelo acústicoAcoustic model Ayuda a transcribir a oradores en entornos determinados como coches o fábricas.Helps transcribe particular speakers and environments, such as cars or factories.
Modelo de lenguajeLanguage model Ayuda a transcribir un vocabulario y una gramática específicos de un sector, como la jerga especializada médica o de TI.Helps transcribe field-specific vocabulary and grammar, such as medical or IT jargon.
Modelo de pronunciaciónPronunciation model Ayuda a transcribir abreviaturas y acrónimos como, por ejemplo, "IOU" para "I owe you" (pagaré).Helps transcribe abbreviations and acronyms, such as "IOU" for "I owe you."
Texto a vozText to Speech Fuente de vozVoice font Proporciona a su aplicación una voz propia mediante el entrenamiento del modelo basado en ejemplos de voz humana.Gives your app a voice of its own by training the model on samples of human speech.

Puede usar modelos personalizados en cualquier lugar en el que usaría los modelos estándares en la funcionalidad de conversión de voz en texto o texto a voz de la aplicación.You can use your custom models anywhere you use the standard models in your app's Speech-to-Text or Text-to-Speech functionality.

Uso del servicio VozUse the Speech service

Para simplificar el desarrollo de aplicaciones habilitadas para voz, Microsoft proporciona Speech SDK para su uso con el nuevo Speech Service.To simplify the development of speech-enabled applications, Microsoft provides the Speech SDK for use with the new Speech service. SDK de Voz proporciona API coherentes nativas de conversión de voz en texto y de traducción de voz para C#, C++ y Java.The Speech SDK provides consistent native Speech-to-Text and Speech Translation APIs for C#, C++, and Java. Si desarrolla en alguno de estos lenguajes, SDK de Voz facilita el desarrollo controlando la información de red en su lugar.If you develop with one of these languages, the Speech SDK makes development easier by handling the network details for you.

Speech Service también tiene una API REST que funciona con cualquier lenguaje de programación que pueda realizar solicitudes HTTP.The Speech service also has a REST API that works with any programming language that can make HTTP requests. La interfaz de REST no ofrece la funcionalidad de streaming en tiempo real del SDK.The REST interface does not offer the streaming, real-time functionality of the SDK.


MétodoMethod
VozSpeech
en textoto Text
Texto aText to
VozSpeech
VozSpeech
TraducciónTranslation

DESCRIPCIÓNDescription
Speech SDKSpeech SDK Yes Sin No Yes API nativas para C#, C++ y Java para simplificar el desarrollo.Native APIs for C#, C++, and Java to simplify development.
RESTREST Yes Yes Sin No Una API sencilla basada en HTTP que facilita la incorporación de la voz a la aplicación.A simple HTTP-based API that makes it easy to add speech to your applications.

WebsocketWebSockets

El servicio Voz también tiene protocolos WebSocket para hacer streaming de voz en texto y de traducción de voz.The Speech service also has WebSocket protocols for streaming Speech to Text and Speech Translation. Speech SDK usa estos protocolos para comunicarse con Speech Service.The Speech SDKs use these protocols to communicate with the Speech service. Use el SDK de Voz en lugar de intentar implementar su propia comunicación de WebSockets con el servicio Voz.Use the Speech SDK instead of trying to implement your own WebSocket communication with the Speech service.

Si ya tiene código que utiliza Bing Speech o Translator Speech a través de WebSockets, puede actualizarlo para que use el servicio Voz.If you already have code that uses Bing Speech or Translator Speech via WebSockets, you can update it to use the Speech service. Los protocolos WebSocket son compatibles; solo los puntos de conexión son diferentes.The WebSocket protocols are compatible, only the endpoints are different.

SDK de dispositivos de vozSpeech Devices SDK

Speech Devices SDK es una plataforma integrada de hardware y software para desarrolladores de dispositivos habilitados para voz.The Speech Devices SDK is an integrated hardware and software platform for developers of speech-enabled devices. Nuestros asociados de hardware proporcionan diseños de referencia y unidades de desarrollo.Our hardware partner provides reference designs and development units. Microsoft ofrece un SDK optimizado para dispositivos que aprovecha plenamente las funcionalidades del hardware.Microsoft provides a device-optimized SDK that takes full advantage of the hardware's capabilities.

Escenarios de vozSpeech scenarios

Entre los casos de uso de Speech Service se incluyen:Use cases for the Speech service include:

  • Creación de aplicaciones que se activan por vozCreate voice-triggered apps
  • Transcripción de las grabaciones de los centros de llamadasTranscribe call center recordings
  • Implementación de bots de vozImplement voice bots

Interfaz de usuario de vozVoice user interface

La entrada de voz es un mecanismo excelente para hacer que la aplicación resulte flexible, sea rápida de usar y pueda utilizarse con la funcionalidad de manos libres.Voice input is a great way to make your app flexible, hands-free, and quick to use. Con una aplicación con la voz habilitada, los usuarios solo tienen que pedir la información que necesitan.With a voice-enabled app, users can just ask for the information they want.

Si la aplicación está diseñada para el público general, puede utilizar los modelos de reconocimiento de voz predeterminados.If your app is intended for use by the general public, you can use the default speech recognition models. Estos reconocen una gran variedad de hablantes en entornos comunes.They recognize a wide variety of speakers in common environments.

Si se usa la aplicación en un dominio específico, por ejemplo, medicina o TI, puede crear un modelo de lenguaje.If your app is used in a specific domain, for example, medicine or IT, you can create a language model. Puede usar este modelo para enseñar al servicio Voz la terminología especial que usa la aplicación.You can use this model to teach the Speech service about the special terminology used by your app.

Si se usa la aplicación en un entorno ruidoso como, por ejemplo, una fábrica, puede crear un modelo acústico personalizado.If your app is used in a noisy environment, such as a factory, you can create a custom acoustic model. Este modelo ayuda al servicio Voz a distinguir la voz del ruido.This model helps the Speech service to distinguish speech from noise.

Comenzar es fácil.Getting started is easy. Simplemente descargue el SDK de Voz y siga la Guía de inicio rápido correspondiente.Just download the Speech SDK and follow the relevant Quickstart article.

Transcripción para los centros de llamadasCall center transcription

Normalmente, las grabaciones de los centros de llamadas solo se consultan si se produce algún problema con una llamada.Often, call center recordings are consulted only if an issue arises with a call. Con el servicio Voz, resulta fácil transcribir todas las grabaciones.With the Speech service, it's easy to transcribe every recording to text. Puede indexar fácilmente el texto para realizar búsquedas de texto completo o aplicar análisis de texto para detectar opiniones, idiomas y frases clave.You can easily index the text for full-text search or apply Text Analytics to detect sentiment, language, and key phrases.

Si las grabaciones del centro de llamadas contienen terminología especializada (como nombres de producto o jerga de TI), puede crear un modelo de lenguaje para enseñar al servicio Voz ese vocabulario.If your call center recordings involve specialized terminology, such as product names or IT jargon, you can create a language model to teach the Speech service the vocabulary. Los modelos acústicos personalizados pueden ayudar al servicio Voz a comprender las llamadas telefónicas que no tienen buena calidad.A custom acoustic model can help the Speech service understand less-than-optimal phone connections.

Para más información acerca de este escenario, consulte documentación sobre batch transcription (Transcripción en bloque) con el servicio Voz.For more information about this scenario, read more about batch transcription with the Speech service.

Bots de vozVoice bots

Los bots son un mecanismo popular para conectar a los usuarios con la información que quieren y a los clientes con las empresas que les gustan.Bots are a popular way to connect users with the information they want and customers with businesses they like. Si agrega una interfaz de usuario conversacional a una aplicación o a un sitio web, será más fácil y rápido encontrar las funciones y acceder a ellas.When you add a conversational user interface to your website or app, the functionality is easier to find and quicker to access. Con Speech Service, la fluidez de la conversación alcanza una nueva dimensión de influencia gracias a la capacidad para responder consultas habladas de Kind.With the Speech service, this conversation takes on a new dimension of fluency by responding to spoken queries in kind.

Para agregar una personalidad única al bot con voz, puede utilizar una voz propia.To add a unique personality to your voice-enabled bot, you can give it a voice of its own. El proceso de crear una voz personalizada se compone de dos pasos.Creating a custom voice is a two-step process. En primer lugar, debe realizar grabaciones de la voz que desee utilizar.First, make recordings of the voice you want to use. Después, tiene que enviar estas grabaciones (junto con una transcripción de texto) al portal de personalización de voz del servicio, que se encargará de todo lo demás.Then submit those recordings along with a text transcript to the Speech service's voice customization portal, which does the rest. Después de crear su voz personalizada, los pasos para usarla en la aplicación son sencillos.After you create your custom voice, the steps to use it in your app are straightforward.

Pasos siguientesNext steps

Consiga una clave de suscripción del servicio Voz.Get a subscription key for the Speech service.