¿Qué es el texto a voz?What is text-to-speech?

Importante

TLS 1.2 ya se exige en todas las solicitudes HTTP para este servicio.TLS 1.2 is now enforced for all HTTP requests to this service. Para más información, consulte Seguridad de Azure Cognitive Services.For more information, see Azure Cognitive Services security.

En esta introducción, encontrará información sobre las ventajas y las funcionalidades del servicio de conversión de texto a voz. Con este servicio, sus aplicaciones, herramientas o dispositivos podrán convertir un texto en voz sintetizada similar a la de los humanos.In this overview, you learn about the benefits and capabilities of the text-to-speech service, which enables your applications, tools, or devices to convert text into human-like synthesized speech. Puede elegir entre voces estándar y neuronales, o puede crear una voz personalizada única para su producto o marca.Choose from standard and neural voices, or create a custom voice unique to your product or brand. Tiene más de 75 voces estándar disponibles en más de 45 idiomas y configuraciones regionales, y 5 voces neuronales que están disponibles en varios idiomas y configuraciones regionales.75+ standard voices are available in more than 45 languages and locales, and 5 neural voices are available in a select number of languages and locales. Para obtener una lista completa de las voces, los idiomas y las configuraciones regionales compatibles, consulte Idiomas admitidos.For a full list of supported voices, languages, and locales, see supported languages.

Nota

Bing Speech se ha retirado el 15 de octubre de 2019.Bing Speech was decommissioned on October 15, 2019. Si sus aplicaciones, herramientas o productos usan Bing Speech API o Habla personalizada, hemos creado guías para que le ayuden a migrar al servicio de voz.If your applications, tools, or products are using the Bing Speech APIs or Custom Speech, we've created guides to help you migrate to the Speech service.

Características principalesCore features

  • Síntesis de voz: use el SDK de voz o la API de REST para convertir texto a voz mediante las voces estándar, neuronal o personalizada.Speech synthesis - Use the Speech SDK or REST API to convert text-to-speech using standard, neural, or custom voices.

  • Síntesis asincrónica de audio de larga duración: use Long Audio API para sintetizar asincrónicamente archivos de texto a voz de más de 10 minutos (por ejemplo, audiolibros o audioconferencias).Asynchronous synthesis of long audio - Use the Long Audio API to asynchronously synthesize text-to-speech files longer than 10 minutes (for example audio books or lectures). A diferencia de la síntesis realizada mediante el SDK de voz o la API de REST de voz a texto, las respuestas no se devuelven en tiempo real.Unlike synthesis performed using the Speech SDK or speech-to-text REST API, responses aren't returned in real time. La expectativa es que las solicitudes se envíen de forma asincrónica, se sondeen las respuestas y el audio sintetizado se descargue cuando esté disponible en el servicio.The expectation is that requests are sent asynchronously, responses are polled for, and that the synthesized audio is downloaded when made available from the service. Solo se admiten las voces neuronales personalizadas.Only custom neural voices are supported.

  • Voces estándar: se crean mediante técnicas de síntesis paramétrica estadística y de síntesis de concatenación.Standard voices - Created using Statistical Parametric Synthesis and/or Concatenation Synthesis techniques. Estas voces son realmente inteligibles y suenan muy naturales.These voices are highly intelligible and sound natural. Puede habilitar fácilmente sus aplicaciones para que hablen en más de 45 idiomas, con una amplia gama de opciones de voz.You can easily enable your applications to speak in more than 45 languages, with a wide range of voice options. Estas voces proporcionan una alta precisión de pronunciación, admiten abreviaturas, expanden acrónimos, interpretan la fecha y la hora, son polifónicas y ofrecen muchas cosas más.These voices provide high pronunciation accuracy, including support for abbreviations, acronym expansions, date/time interpretations, polyphones, and more. Hay una lista completa de voces estándar en Idiomas admitidos.For a full list of standard voices, see supported languages.

  • Voces neuronales: las redes neuronales profundas se usan para superar los límites de la síntesis de voz tradicional con respecto al acento y la entonación del lenguaje hablado.Neural voices - Deep neural networks are used to overcome the limits of traditional speech synthesis with regards to stress and intonation in spoken language. La predicción de la prosodia y la síntesis de voz se realizan simultáneamente, lo que resulta en una voz más fluida y natural.Prosody prediction and voice synthesis are performed simultaneously, which results in more fluid and natural-sounding outputs. Las voces neuronales se pueden usar para que las interacciones con los bots de chat y los asistentes de voz sean más naturales y atractivas, para convertir textos digitales (por ejemplo, los libros electrónicos) en audiolibros y para mejorar los sistemas de navegación de los automóviles.Neural voices can be used to make interactions with chatbots and voice assistants more natural and engaging, convert digital texts such as e-books into audiobooks, and enhance in-car navigation systems. Gracias a su prosodia natural similar a la humana y a la clara articulación de las palabras, las voces neuronales reducen considerablemente la fatiga al escucharlas que suele aparecer cuando los usuarios interactúan con sistemas de inteligencia artificial.With the human-like natural prosody and clear articulation of words, neural voices significantly reduce listening fatigue when you interact with AI systems. Hay una lista completa de voces neuronales en Idiomas admitidos.For a full list of neural voices, see supported languages.

  • Lenguaje de marcado de síntesis de voz (SSML): lenguaje de marcado basado en XML que se usa para personalizar las salidas de voz a texto.Speech Synthesis Markup Language (SSML) - An XML-based markup language used to customize speech-to-text outputs. Con SSML, puede ajustar el tono, agregar pausas, mejorar la pronunciación, acelerar o ralentizar la velocidad del habla, subir o bajar el volumen y atribuir varias voces a un solo documento.With SSML, you can adjust pitch, add pauses, improve pronunciation, speed up or slow down speaking rate, increase or decrease volume, and attribute multiple voices to a single document. Consulte SSML.See SSML.

IntroducciónGet started

Consulte el inicio rápido para empezar a usar texto a voz.See the quickstart to get started with text-to-speech. El servicio de texto a voz está disponible con el SDK de voz, la API REST y la CLI de voz.The text-to-speech service is available via the Speech SDK, the REST API, and the Speech CLI

Código de ejemploSample code

El ejemplo de código para texto a voz está disponible en GitHub.Sample code for text-to-speech is available on GitHub. Estos ejemplos tratan la conversión de texto a voz en los lenguajes de programación más populares.These samples cover text-to-speech conversion in most popular programming languages.

PersonalizaciónCustomization

Además de las voces estándar y neuronales, puede crear y ajustar las voces personalizadas exclusivas del producto o la marca.In addition to standard and neural voices, you can create and fine-tune custom voices unique to your product or brand. Todo lo que se necesita para empezar son unos cuantos archivos de audio y las transcripciones asociadas.All it takes to get started are a handful of audio files and the associated transcriptions. Para obtener información, consulte Introducción a voz personalizada.For more information, see Get started with Custom Voice

Nota de preciosPricing note

Al usar el servicio de texto a voz, se le facturará por cada carácter que se convierte a voz, incluida la puntuación.When using the text-to-speech service, you are billed for each character that is converted to speech, including punctuation. Si bien el documento SSML en sí no es facturable, los elementos opcionales que se usan para ajustar el modo de convertir el texto a voz, como los fonemas y el tono, se cuentan como caracteres facturables.While the SSML document itself is not billable, optional elements that are used to adjust how the text is converted to speech, like phonemes and pitch, are counted as billable characters. Aquí tiene una lista de lo que se puede facturar:Here's a list of what's billable:

  • El texto que se ha pasado al servicio de texto a voz en el cuerpo SSML de la solicitud.Text passed to the text-to-speech service in the SSML body of the request
  • Todas las marcas en el campo de texto del cuerpo de la solicitud que están en formato SSML, excepto las etiquetas <speak> y <voice>.All markup within the text field of the request body in the SSML format, except for <speak> and <voice> tags
  • Letras, puntuación, espacios, tabulaciones, marcas y todos los caracteres de espacios en blanco.Letters, punctuation, spaces, tabs, markup, and all white-space characters
  • Cada punto de código que se define en UnicodeEvery code point defined in Unicode

Para obtener más información, consulte Precios.For detailed information, see Pricing.

Importante

Cada carácter en chino, japonés y coreano se cuenta como dos caracteres para la facturación.Each Chinese, Japanese, and Korean language character is counted as two characters for billing.

Documentos de referenciaReference docs

Pasos siguientesNext steps