¿Qué es el texto a voz?What is text-to-speech?

La opción de texto a voz de los servicios de voz de Azure es un servicio que permite que sus aplicaciones, herramientas o dispositivos conviertan el texto en una voz sintetizada natural similar a la humana.Text-to-speech from Azure Speech Services is a service that enables your applications, tools, or devices to convert text into natural human-like synthesized speech. Puede elegir entre voces estándar y neuronales, o puede crear su propia voz personalizada única para su producto o marca.Choose from standard and neural voices, or create your own custom voice unique to your product or brand. Tiene más de 75 voces estándar disponibles en más de 45 idiomas y configuraciones regionales y 5 voces neuronales que están disponibles en 4 idiomas y configuraciones regionales.75+ standard voices are available in more than 45 languages and locales, and 5 neural voices are available in 4 languages and locales. Para ver una lista completa, consulte los idiomas admitidos.For a full list, see supported languages.

La tecnología de texto a voz permite a los creadores de contenido interactuar con sus usuarios de diferentes maneras.Text-to-speech technology allows content creators to interact with their users in different ways. La conversión de texto a voz puede mejorar la accesibilidad al ofrecer a los usuarios la opción de interactuar con el contenido de manera audible.Text-to-speech can improve accessibility by providing users with an option to interact with content audibly. Si el usuario tiene dificultades visuales, problemas de aprendizaje o requiere información de navegación mientras conduce, el texto a voz puede mejorar una experiencia ya existente.Whether the user has a visual impairment, a learning disability, or requires navigation information while driving, text-to-speech can improve an existing experience. Asimismo, el texto a voz también es un complemento valioso para los robots de voz y los asistentes virtuales.Text-to-speech is also a valuable add-on for voice bots and virtual assistants.

Al aprovechar el lenguaje de marcado de síntesis de voz (SSML), que es un lenguaje de marcado basado en XML, los desarrolladores que usan el servicio de texto a voz pueden especificar cómo se convierte el texto de entrada en una voz sintetizada.By leveraging Speech Synthesis Markup Language (SSML), an XML-based markup language, developers using the text-to-speech service can specify how input text is converted into synthesized speech. Con SSML, puede ajustar el tono, la pronunciación, la velocidad del habla, el volumen y muchas cosas más.With SSML, you can adjust pitch, pronunciation, speaking rate, volume, and more. Para obtener más información, consulte SSML.For more information, see SSML.

Voces estándarStandard voices

Las voces estándar se crean mediante técnicas de Síntesis paramétrica estadística y de Síntesis de concatenación.Standard voices are created using Statistical Parametric Synthesis and/or Concatenation Synthesis techniques. Estas voces son realmente inteligibles y suenan muy naturales.These voices are highly intelligible and sound natural. Puede habilitar fácilmente sus aplicaciones para que hablen en más de 45 idiomas, con una amplia gama de opciones de voz.You can easily enable your applications to speak in more than 45 languages, with a wide range of voice options. Estas voces proporcionan una alta precisión de pronunciación, admiten abreviaturas, expanden acrónimos, interpretan la fecha y la hora, son polifónicas y ofrecen muchas cosas más.These voices provide high pronunciation accuracy, including support for abbreviations, acronym expansions, date/time interpretations, polyphones, and more. Use la voz estándar para mejorar la accesibilidad de sus aplicaciones y servicios al permitir que los usuarios interactúen con su contenido de manera audible.Use standard voice to improve accessibility for your applications and services by allowing users to interact with your content audibly.

Voces neuronalesNeural voices

Las voces neuronales usan redes neuronales profundas para superar los límites de los sistemas tradicionales de texto a voz y así poder hacer coincidir los patrones de acentuación y entonación en el lenguaje hablado y sintetizar las unidades del habla en una voz del equipo.Neural voices use deep neural networks to overcome the limits of traditional text-to-speech systems in matching the patterns of stress and intonation in spoken language, and in synthesizing the units of speech into a computer voice. La conversión de texto a voz estándar divide la prosodia en análisis lingüísticos separados y pasos de predicción acústica que se rigen por modelos independientes, lo que puede resultar en una síntesis de voz que se oye amortiguada.Standard text-to-speech breaks down prosody into separate linguistic analysis and acoustic prediction steps that are governed by independent models, which can result in muffled voice synthesis. La capacidad neuronal se encarga de la predicción de la prosodia y la síntesis de voz simultáneamente, lo que resulta en una voz más fluida y natural.Our neural capability does prosody prediction and voice synthesis simultaneously, which results in a more fluid and natural-sounding voice.

Las voces neuronales se pueden usar para que las interacciones con los bots de chat y los asistentes virtuales sean más naturales y atractivas, para convertir textos digitales, como los libros electrónicos, en audiolibros y para mejorar los sistemas de navegación de los automóviles.Neural voices can be used to make interactions with chatbots and virtual assistants more natural and engaging, convert digital texts such as e-books into audiobooks and enhance in-car navigation systems. Gracias a su prosodia natural similar a la humana y a la clara articulación de las palabras, las voces neuronales reducen considerablemente la fatiga al escucharlas que suele aparecer cuando los usuarios interactúan con sistemas de inteligencia artificial.With the human-like natural prosody and clear articulation of words, neural voices significantly reduce listening fatigue when you interact with AI systems.

Las voces neuronales admiten diferentes estilos, como el neutral y el alegre.Neural voices support different styles, such as neutral and cheerful. Por ejemplo, la voz Jessa (en-US) puede hablar alegremente, lo que está optimizado para tener una conversación cálida y feliz.For example, the Jessa (en-US) voice can speak cheerfully, which is optimized for warm, happy conversation. Puede ajustar la salida de voz, como el tono, el timbre y la velocidad mediante el Lenguaje de marcado de síntesis de voz.You can adjust the voice output, like tone, pitch, and speed using Speech Synthesis Markup Language. Hay una lista completa de voces disponibles en Idiomas admitidos.For a full list of available voices, see supported languages.

Para obtener más información sobre los beneficios de las voces neuronales, consulte Microsoft’s new neural text-to-speech service helps machines speak like people (El nuevo servicio neuronal de conversión de texto a voz de Microsoft ayuda a las máquinas a hablar como personas).To learn more about the benefits of neural voices, see Microsoft’s new neural text-to-speech service helps machines speak like people.

Voces personalizadasCustom voices

La personalización de la voz le permite crear una voz reconocible y única para su marca.Voice customization lets you create a recognizable, one-of-a-kind voice for your brand. Para crear su fuente de voz, haga que un estudio grabe y cargue los scripts asociados como datos de aprendizaje.To create your custom voice font, you make a studio recording and upload the associated scripts as the training data. A continuación, el servicio crea un modelo de voz único ajustado a la grabación.The service then creates a unique voice model tuned to your recording. Asimismo, puede usar esta fuente de voz personalizada para sintetizar la voz.You can use this custom voice font to synthesize speech. Para obtener más información, consulte las voces personalizadas.For more information, see custom voices.

Lenguaje de marcado de síntesis de voz (SSML)Speech Synthesis Markup Language (SSML)

El lenguaje de marcado de síntesis de voz (SSML) es un lenguaje de marcado basado en XML que permite a los desarrolladores especificar cómo se convierte el texto de entrada en una voz sintetizada mediante el servicio de texto a voz.Speech Synthesis Markup Language (SSML) is an XML-based markup language that lets developers specify how input text is converted into synthesized speech using the text-to-speech service. En comparación con el texto sin formato, SSML permite a los desarrolladores ajustar el tono, la pronunciación, la velocidad del habla, el volumen y muchas cosas más en la salida de texto a voz.Compared to plain text, SSML allows developers to fine-tune the pitch, pronunciation, speaking rate, volume, and more of the text-to-speech output. La puntuación normal, como hacer una pausa después de un punto o usar la entonación correcta cuando una oración termina con un signo de interrogación, se administra automáticamente.Normal punctuation, such as pausing after a period, or using the correct intonation when a sentence ends with a question mark are automatically handled.

Todas las entradas de texto enviadas al servicio de texto a voz deben estar estructuradas como SSML.All text inputs sent to the text-to-speech service must be structured as SSML. Para obtener más información, consulte Speech Synthesis Markup Language (Lenguaje de marcado de síntesis de voz).For more information, see Speech Synthesis Markup Language.

Nota de preciosPricing note

Al usar el servicio de texto a voz, se le facturará por cada carácter que se convierte a voz, incluida la puntuación.When using the text-to-speech service, you are billed for each character that is converted to speech, including punctuation. Si bien el documento SSML en sí no es facturable, los elementos opcionales que se usan para ajustar el modo de convertir el texto a voz, como los fonemas y el tono, se cuentan como caracteres facturables.While the SSML document itself is not billable, optional elements that are used to adjust how the text is converted to speech, like phonemes and pitch, are counted as billable characters. Aquí tiene una lista de lo que se puede facturar:Here's a list of what's billable:

  • El texto que se ha pasado al servicio de texto a voz en el cuerpo SSML de la solicitud.Text passed to the text-to-speech service in the SSML body of the request
  • Todas las marcas en el campo de texto del cuerpo de la solicitud que están en formato SSML, excepto las etiquetas <speak> y <voice>.All markup within the text field of the request body in the SSML format, except for <speak> and <voice> tags
  • Letras, puntuación, espacios, tabulaciones, marcas y todos los caracteres de espacios en blanco.Letters, punctuation, spaces, tabs, markup, and all white-space characters
  • Cada punto de código que se define en UnicodeEvery code point defined in Unicode

Para obtener más información, consulte Precios.For detailed information, see Pricing.

Importante

Cada carácter en chino, japonés y coreano se cuenta como dos caracteres para la facturación.Each Chinese, Japanese, and Korean language character is counted as two characters for billing.

Características principalesCore features

En esta tabla se enumeran las características principales de texto a voz:This table lists the core features for text-to-speech:

Caso de usoUse case SDKSDK RESTREST
Convertir texto a voz.Convert text to speech. Yes Yes
Carga de conjuntos de datos para la adaptación de voces.Upload datasets for voice adaptation. SinNo Sí*Yes*
Creación y administración de modelos de fuentes de voz.Create and manage voice font models. SinNo Sí*Yes*
Creación y administración de implementaciones de fuentes de voz.Create and manage voice font deployments. SinNo Sí*Yes*
Creación y administración de pruebas de fuentes de voz.Create and manage voice font tests. SinNo Sí*Yes*
Administración de suscripciones.Manage subscriptions. SinNo Sí*Yes*

*Estos servicios están disponibles al usar el punto de conexión cris.ai. Consulte la referencia de Swagger. Estas API de administración y aprendizaje de voz personalizadas implementan una limitación que permite 25 solicitudes por 5 segundos, mientras que la API de síntesis de voz implementa una limitación que permite 200 solicitudes por segundo como el valor más alto. Cuando se produzca una limitación, recibirá una notificación a través de los encabezados de los mensajes.* These services are available using the cris.ai endpoint. See Swagger reference. These custom voice training and management APIs implement throttling that limits requests to 25 per 5 seconds, while the speech synthesis API itself implements throttling that allows 200 requests per second as the highest. When throttling occurs, you'll be notified via message headers.

Empezar a trabajar con texto a vozGet started with text to speech

Le ofrecemos inicios rápidos diseñados para que ejecute el código en menos de 10 minutos.We offer quickstarts designed to have you running code in less than 10 minutes. Esta tabla incluye una lista de inicios rápidos de texto a voz ordenados en función del idioma.This table includes a list of text-to-speech quickstarts organized by language.

Guías de inicio rápido de SDKSDK quickstarts

Inicio rápido (SDK)Quickstart (SDK) PlataformaPlatform Referencia de APIAPI reference
C#, .NET CoreC#, .NET Core WindowsWindows BrowseBrowse
C#, .NET FrameworkC#, .NET Framework WindowsWindows BrowseBrowse
C#, UWPC#, UWP WindowsWindows BrowseBrowse
C#, UnityC#, Unity Windows, AndroidWindows, Android BrowseBrowse
C++C++ WindowsWindows BrowseBrowse
C++C++ LinuxLinux BrowseBrowse

Inicios rápidos de RESTREST quickstarts

Inicio rápido (REST)Quickstart (REST) PlataformaPlatform Referencia de APIAPI reference
C#, .NET CoreC#, .NET Core Windows, macOS, LinuxWindows, macOS, Linux BrowseBrowse
Node.jsNode.js Window, macOS, LinuxWindow, macOS, Linux BrowseBrowse
PythonPython Window, macOS, LinuxWindow, macOS, Linux BrowseBrowse

Código de ejemploSample code

El ejemplo de código para texto a voz está disponible en GitHub.Sample code for text-to-speech is available on GitHub. Estos ejemplos tratan la conversión de texto a voz en los lenguajes de programación más populares.These samples cover text-to-speech conversion in most popular programming languages.

Documentos de referenciaReference docs

Pasos siguientesNext steps