¿Qué es Speech Services?What is Speech Services?

Al igual que con los otros servicios de voz de Azure, Speech Services funciona con las tecnologías de voz usadas en productos como Cortana y Microsoft Office.Like the other Azure speech services, Speech Services are powered by speech technologies used in products like Cortana and Microsoft Office.

Speech Services agrupa las características de voz de Azure que estaban disponibles a través de los servicios Bing Speech API, Translator Speech, Custom Speech y Custom Voice.The Speech Services unite Azure speech features previously available via the Bing Speech API, Translator Speech, Custom Speech, and Custom Voice services. Ahora, una sola suscripción proporciona acceso a todas estas funcionalidades.Now, one subscription provides access to all of these capabilities.

Principales funciones de Speech ServicesMain Speech Services functions

Las principales funciones de Speech Service son la conversión de voz en texto (también llamada reconocimiento de voz o transcripción), la conversión de texto a voz (síntesis de voz) y la traducción de voz.The primary functions of the Speech Services are speech-to-text (also called speech recognition or transcription), text-to-speech (speech synthesis), and speech translation.

FunciónFunction CaracterísticasFeatures
Voz a textoSpeech-to-text
  • Permite transcribir en tiempo real voz en texto.Transcribes continuous real-time speech into text.
  • Puede transcribir por lotes voz a partir de grabaciones de audio.Can batch-transcribe speech from audio recordings.
  • Admite resultados intermedios, detección de fin de voz, formato de texto automático y enmascaramiento de palabras soeces.Supports intermediate results, end-of-speech detection, automatic text formatting, and profanity masking.
  • Puede llamar al servicio Language Understanding (LUIS) para extraer la intención del usuario de la transcripción de voz.*Can call on Language Understanding (LUIS) to derive user intent from transcribed speech.*
  • Texto a vozText-to-Speech
  • NUEVO: Proporciona voces neuronales de texto a voz casi indistinguibles de la voz humana (en inglés).NEW: Provides neural text-to-speech voices nearly indistinguishable from human speech (English).
  • Convierte el texto a una voz que parece natural.Converts text to natural-sounding speech.
  • Ofrece varios géneros y dialectos para muchos idiomas compatibles.Offers multiple genders and/or dialects for many supported languages.
  • Admite la entrada de texto sin formato o el lenguaje de marcado de síntesis de voz (SSML).Supports plain text input or Speech Synthesis Markup Language (SSML).
  • Traducción de vozSpeech translation
  • Traduce el audio en streaming casi en tiempo real.Translates streaming audio in near-real-time.
  • También puede procesar voz grabada.Can also process recorded speech.
  • Puede proporcionar resultados como texto o como voz sintetizada.Provides results as text or synthesized speech.
  • Características de personalización de vozCustomize speech features

    Puede usar sus propios datos para entrenar los modelos subyacentes de las características de conversión de voz a texto y texto a voz del servicio Voz.You can use your own data to train the models that underlie the Speech service's Speech-to-Text and Text-to-Speech features.

    CaracterísticaFeature ModeloModel PropósitoPurpose
    Voz a textoSpeech-to-text Modelo acústicoAcoustic model Ayuda a transcribir a oradores en entornos determinados como coches o fábricas.Helps transcribe particular speakers and environments, such as cars or factories.
    Modelo de lenguajeLanguage model Ayuda a transcribir un vocabulario y una gramática específicos de un sector, como la jerga especializada médica o de TI.Helps transcribe field-specific vocabulary and grammar, such as medical or IT jargon.
    Modelo de pronunciaciónPronunciation model Ayuda a transcribir abreviaturas y acrónimos como, por ejemplo, "IOU" para "I owe you" (pagaré).Helps transcribe abbreviations and acronyms, such as "IOU" for "I owe you."
    Texto a vozText-to-speech Fuente de vozVoice font Proporciona a su aplicación una voz propia mediante el entrenamiento del modelo basado en ejemplos de voz humana.Gives your app a voice of its own by training the model on samples of human speech.

    Puede usar modelos personalizados en cualquier lugar en el que usaría los modelos estándares en la funcionalidad de conversión de voz en texto o texto a voz de la aplicación.You can use your custom models anywhere you use the standard models in your app's Speech-to-Text or Text-to-Speech functionality.

    Uso del servicio VozUse the Speech service

    Para simplificar el desarrollo de aplicaciones habilitadas para voz, Microsoft proporciona el SDK de Voz para su uso con el servicio Voz.To simplify the development of speech-enabled applications, Microsoft provides the Speech SDK for use with the Speech service. SDK de Voz proporciona API coherentes nativas de conversión de voz en texto y de traducción de voz para C#, C++ y Java.The Speech SDK provides consistent native Speech-to-Text and Speech Translation APIs for C#, C++, and Java. Si desarrolla en alguno de estos lenguajes, SDK de Voz facilita el desarrollo controlando la información de red en su lugar.If you develop with one of these languages, the Speech SDK makes development easier by handling the network details for you.

    Speech Services también tiene una API REST que funciona con cualquier lenguaje de programación que puede realizar solicitudes HTTP.The Speech Services also has a REST API that works with any programming language that can make HTTP requests. La interfaz de REST no ofrece la funcionalidad de streaming en tiempo real del SDK.The REST interface does not offer the streaming, real-time functionality of the SDK.


    MétodoMethod
    VozSpeech
    en textoto Text
    Texto aText to
    VozSpeech
    VozSpeech
    TraducciónTranslation

    DESCRIPCIÓNDescription
    Speech SDKSpeech SDK Yes Sin No Yes API nativas para C#, C++ y Java para simplificar el desarrollo.Native APIs for C#, C++, and Java to simplify development.
    API de RESTREST APIs Yes Yes Sin No Una API sencilla basada en HTTP que facilita la incorporación de la voz a la aplicación.A simple HTTP-based API that makes it easy to add speech to your applications.

    WebsocketWebSockets

    Speech Services también admite los protocolos WebSocket para transmitir conversión de voz en texto y traducción de voz.The Speech Services also support WebSocket protocols for streaming speech-to-text and speech translation. Speech SDK usa estos protocolos para comunicarse con Speech Service.The Speech SDKs use these protocols to communicate with the Speech service. Use el SDK de Voz en lugar de intentar implementar su propia comunicación de WebSockets con el servicio Voz.Use the Speech SDK instead of trying to implement your own WebSocket communication with the Speech service.

    Si ya tiene código que utiliza Bing Speech o Translator Speech a través de WebSockets, puede actualizarlo para que use Speech Services.If you already have code that uses Bing Speech or Translator Speech via WebSockets, you can update it to use the Speech Services. Los protocolos WebSocket son compatibles, pero los puntos de conexión son diferentes.The WebSocket protocols are compatible, however, the endpoints are different.

    SDK de dispositivos de vozSpeech Devices SDK

    Speech Devices SDK es una plataforma integrada de hardware y software para desarrolladores de dispositivos habilitados para voz.The Speech Devices SDK is an integrated hardware and software platform for developers of speech-enabled devices. Nuestros asociados de hardware proporcionan diseños de referencia y unidades de desarrollo.Our hardware partner provides reference designs and development units. Microsoft ofrece un SDK optimizado para dispositivos que aprovecha plenamente las funcionalidades del hardware.Microsoft provides a device-optimized SDK that takes full advantage of the hardware's capabilities.

    Escenarios de vozSpeech scenarios

    Algunos casos de Speech Services son:Use cases for Speech Services include:

    • Creación de aplicaciones que se activan por vozCreate voice-triggered apps
    • Transcripción de las grabaciones de los centros de llamadasTranscribe call center recordings
    • Implementación de bots de vozImplement voice bots

    Interfaz de usuario de vozVoice user interface

    La entrada de voz es un mecanismo excelente para hacer que la aplicación resulte flexible, sea rápida de usar y pueda utilizarse con la funcionalidad de manos libres.Voice input is a great way to make your app flexible, hands-free, and quick to use. Con una aplicación con la voz habilitada, los usuarios solo tienen que pedir la información que necesitan.With a voice-enabled app, users can just ask for the information they want.

    Si la aplicación está diseñada para el público general, puede utilizar los modelos de reconocimiento de voz predeterminados.If your app is intended for use by the general public, you can use the default speech recognition models. Estos reconocen una gran variedad de hablantes en entornos comunes.They recognize a wide variety of speakers in common environments.

    Si se usa la aplicación en un dominio específico, por ejemplo, medicina o TI, puede crear un modelo de lenguaje.If your app is used in a specific domain, for example, medicine or IT, you can create a language model. Puede usar este modelo para enseñar a Speech Services la terminología especial que usa la aplicación.You can use this model to teach the Speech Services about the special terminology used by your app.

    Si se usa la aplicación en un entorno ruidoso como, por ejemplo, una fábrica, puede crear un modelo acústico personalizado.If your app is used in a noisy environment, such as a factory, you can create a custom acoustic model. Este modelo ayuda a Speech Services a distinguir la voz del ruido.This model helps the Speech Services to distinguish speech from noise.

    Transcripción para los centros de llamadasCall center transcription

    Normalmente, las grabaciones de los centros de llamadas solo se consultan si se produce algún problema con una llamada.Often, call center recordings are consulted only if an issue arises with a call. Con el servicio Voz, resulta fácil transcribir todas las grabaciones.With the Speech service, it's easy to transcribe every recording to text. Puede indexar fácilmente el texto para realizar búsquedas de texto completo o aplicar análisis de texto para detectar opiniones, idiomas y frases clave.You can easily index the text for full-text search or apply Text Analytics to detect sentiment, language, and key phrases.

    Si las grabaciones del centro de llamadas contienen terminología especializada (como nombres de producto o jerga de TI), puede crear un modelo de lenguaje para enseñar el vocabulario a Speech Services.If your call center recordings involve specialized terminology, such as product names or IT jargon, you can create a language model to teach the Speech Services the vocabulary. Los modelos acústicos personalizados pueden ayudar a Speech Services a entender las llamadas telefónicas que no tienen buena calidad.A custom acoustic model can help the Speech Services understand less-than-optimal phone connections.

    Para más información acerca de este escenario, consulte documentación sobre batch transcription (Transcripción en bloque) con el servicio Voz.///For more information about this scenario, read more about batch transcription with the Speech service.

    Bots de vozVoice bots

    Los bots son un mecanismo popular para conectar a los usuarios con la información que quieren y a los clientes con las empresas que les gustan.Bots are a popular way to connect users with the information they want and customers with businesses they like. Si agrega una interfaz de usuario conversacional a una aplicación o a un sitio web, será más fácil y rápido encontrar las funciones y acceder a ellas.When you add a conversational user interface to your website or app, the functionality is easier to find and quicker to access. Con Speech Service, la fluidez de la conversación alcanza una nueva dimensión de influencia gracias a la capacidad para responder consultas habladas de Kind.With the Speech service, this conversation takes on a new dimension of fluency by responding to spoken queries in kind.

    Para agregar una personalidad única al bot con voz, puede utilizar una voz propia.To add a unique personality to your voice-enabled bot, you can give it a voice of its own. El proceso de crear una voz personalizada se compone de dos pasos.Creating a custom voice is a two-step process. En primer lugar, debe realizar grabaciones de la voz que desee utilizar.First, make recordings of the voice you want to use. Después, tiene que enviar estas grabaciones (junto con una transcripción de texto) al portal de personalización de voz del servicio, que se encargará de todo lo demás.Then submit those recordings along with a text transcript to the Speech service's voice customization portal, which does the rest. Después de crear su voz personalizada, los pasos para usarla en la aplicación son sencillos.After you create your custom voice, the steps to use it in your app are straightforward.

    Pasos siguientesNext steps

    Consiga una clave de suscripción a Speech Services.Get a subscription key for the Speech Services.