O que é a conversão de texto em voz?What is text-to-speech?

A conversão de texto em fala do serviço de fala permite que seus aplicativos, ferramentas ou dispositivos convertam texto em fala sintetizada semelhante à humana.Text-to-speech from the Speech service enables your applications, tools, or devices to convert text into natural human-like synthesized speech. Escolha entre as vozes padrão e neural ou crie sua própria voz personalizada exclusiva para seu produto ou marca.Choose from standard and neural voices, or create your own custom voice unique to your product or brand. 75 vozes padrão estão disponíveis em mais de 45 idiomas e localidades, e 5 vozes neurais estão disponíveis em 4 idiomas e localidades.75+ standard voices are available in more than 45 languages and locales, and 5 neural voices are available in 4 languages and locales. Para obter uma lista completa, consulte idiomas com suporte.For a full list, see supported languages.

A tecnologia de conversão de texto em fala permite que os criadores de conteúdo interajam com seus usuários de maneiras diferentes.Text-to-speech technology allows content creators to interact with their users in different ways. A conversão de texto em fala pode melhorar a acessibilidade, fornecendo aos usuários uma opção para interagir com o conteúdo forma audível.Text-to-speech can improve accessibility by providing users with an option to interact with content audibly. Se o usuário tem um deficiência visual, uma deficiência de aprendizado ou requer informações de navegação enquanto conduz, a conversão de texto em fala pode melhorar uma experiência existente.Whether the user has a visual impairment, a learning disability, or requires navigation information while driving, text-to-speech can improve an existing experience. Conversão de texto em fala também é um complemento valioso para bots de voz e assistentes de voz.Text-to-speech is also a valuable add-on for voice bots and voice assistants.

Ao aproveitar a linguagem de marcação de síntese de fala (SSML), uma linguagem de marcação baseada em XML, os desenvolvedores que usam o serviço de conversão de texto em fala podem especificar como o texto de entrada é convertido em fala sintetizada.By leveraging Speech Synthesis Markup Language (SSML), an XML-based markup language, developers using the text-to-speech service can specify how input text is converted into synthesized speech. Com a SSML, você pode ajustar a densidade, a pronúncia, a taxa de fala, o volume e muito mais.With SSML, you can adjust pitch, pronunciation, speaking rate, volume, and more. Para obter mais informações, consulte SSML.For more information, see SSML.

Vozes padrãoStandard voices

As vozes padrão são criadas usando as técnicas de síntese paramétricas estatística e/ou síntese de concatenação.Standard voices are created using Statistical Parametric Synthesis and/or Concatenation Synthesis techniques. Essas vozes são altamente inteligível e sólidas.These voices are highly intelligible and sound natural. Você pode facilmente permitir que seus aplicativos falem em mais de 45 idiomas, com uma ampla gama de opções de voz.You can easily enable your applications to speak in more than 45 languages, with a wide range of voice options. Essas vozes fornecem alta precisão de pronúncia, incluindo suporte para abreviações, expansões de acrônimo, interpretações de data/hora, telefones e muito mais.These voices provide high pronunciation accuracy, including support for abbreviations, acronym expansions, date/time interpretations, polyphones, and more. Use voz padrão para aprimorar a acessibilidade para seus aplicativos e serviços, permitindo que os usuários interajam com o conteúdo forma audível.Use standard voice to improve accessibility for your applications and services by allowing users to interact with your content audibly.

Vozes neuraisNeural voices

As vozes neurais usam redes neurais profundas para superar os limites de sistemas de conversão de texto em fala tradicionais na correspondência dos padrões de estresse e intonation na linguagem falada e no sintetizamento das unidades de fala em uma voz de computador.Neural voices use deep neural networks to overcome the limits of traditional text-to-speech systems in matching the patterns of stress and intonation in spoken language, and in synthesizing the units of speech into a computer voice. A conversão de texto em fala padrão prosody em análise linguística separada e etapas de previsão acústica que são governadas por modelos independentes, o que pode resultar em síntese de voz muffled.Standard text-to-speech breaks down prosody into separate linguistic analysis and acoustic prediction steps that are governed by independent models, which can result in muffled voice synthesis. A nossa funcionalidade neural leva a cabo a predição da prosódia e a sintetização de voz em simultâneo, produzindo uma voz mais fluida e natural.Our neural capability does prosody prediction and voice synthesis simultaneously, which results in a more fluid and natural-sounding voice.

As vozes neurais podem ser usadas para fazer interações com os assistentes de voz e chatbots mais naturais e envolventes, converter textos digitais, como livros eletrônicos, em Audiobooks e aprimorar os sistemas de navegação no carro.Neural voices can be used to make interactions with chatbots and voice assistants more natural and engaging, convert digital texts such as e-books into audiobooks and enhance in-car navigation systems. Com a Prosody natural humana e a clara Articulation de palavras, as vozes neurais reduzem significativamente a escuta de fadiga quando você interage com sistemas de ia.With the human-like natural prosody and clear articulation of words, neural voices significantly reduce listening fatigue when you interact with AI systems.

As vozes neurais dão suporte a diferentes estilos, como neutral e cheerful.Neural voices support different styles, such as neutral and cheerful. Por exemplo, a voz Jessa (en-US) pode falar cheerfully, que é otimizado para uma conversa boa e feliz.For example, the Jessa (en-US) voice can speak cheerfully, which is optimized for warm, happy conversation. Você pode ajustar a saída de voz, como Tom, densidade e velocidade usando a linguagem de marcação de síntese de fala.You can adjust the voice output, like tone, pitch, and speed using Speech Synthesis Markup Language. Para obter uma lista completa de vozes disponíveis, consulte idiomas com suporte.For a full list of available voices, see supported languages.

Para saber mais sobre os benefícios das vozes neurais, consulte o novo serviço de conversão de texto em fala do neural da Microsoft ajuda as máquinas a falarem como pessoas.To learn more about the benefits of neural voices, see Microsoft’s new neural text-to-speech service helps machines speak like people.

Vozes personalizadasCustom voices

A personalização de voz permite que você crie uma voz de um tipo reconhecível para sua marca.Voice customization lets you create a recognizable, one-of-a-kind voice for your brand. Para criar sua fonte de voz personalizada, você faz uma gravação no estúdio e carrega os scripts associados como os dados de treinamento.To create your custom voice font, you make a studio recording and upload the associated scripts as the training data. Em seguida, o serviço cria um modelo de voz exclusivo ajustado à sua gravação.The service then creates a unique voice model tuned to your recording. Você pode usar essa fonte de voz personalizada para sintetizar a fala.You can use this custom voice font to synthesize speech. Para obter mais informações, consulte vozes personalizadas.For more information, see custom voices.

Speech Synthesis Markup Language (SSML)Speech Synthesis Markup Language (SSML)

A linguagem de marcação de síntese de fala (SSML) é uma linguagem de marcação baseada em XML que permite aos desenvolvedores especificar como o texto de entrada é convertido em fala sintetizada usando o serviço de conversão de texto em fala.Speech Synthesis Markup Language (SSML) is an XML-based markup language that lets developers specify how input text is converted into synthesized speech using the text-to-speech service. Em comparação com o texto sem formatação, o SSML permite que os desenvolvedores ajustem a densidade, a pronúncia, a taxa de fala, o volume e muito mais da saída de conversão de texto em fala.Compared to plain text, SSML allows developers to fine-tune the pitch, pronunciation, speaking rate, volume, and more of the text-to-speech output. Pontuação normal, como pausar após um período ou usar o intonation correto quando uma frase termina com um ponto de interrogação é manipulada automaticamente.Normal punctuation, such as pausing after a period, or using the correct intonation when a sentence ends with a question mark are automatically handled.

Todas as entradas de texto enviadas ao serviço de conversão de texto em fala devem ser estruturadas como SSML.All text inputs sent to the text-to-speech service must be structured as SSML. Para obter mais informações, consulte linguagem de marcação de síntese de fala.For more information, see Speech Synthesis Markup Language.

Nota de preçosPricing note

Ao usar o serviço de conversão de texto em fala, você será cobrado por cada caractere convertido em fala, incluindo pontuação.When using the text-to-speech service, you are billed for each character that is converted to speech, including punctuation. Embora o documento SSML em si não seja Faturável, elementos opcionais usados para ajustar como o texto é convertido em fala, como fonemas e pitch, são contados como caracteres faturáveis.While the SSML document itself is not billable, optional elements that are used to adjust how the text is converted to speech, like phonemes and pitch, are counted as billable characters. Aqui está uma lista do que é Faturável:Here's a list of what's billable:

  • Texto passado para o serviço de conversão de texto em fala no corpo de SSML da solicitaçãoText passed to the text-to-speech service in the SSML body of the request
  • Toda a marcação dentro do campo de texto do corpo da solicitação no formato SSML, com exceção das marcas <speak> e <voice>All markup within the text field of the request body in the SSML format, except for <speak> and <voice> tags
  • Letras, pontuação, espaços, tabulações, marcação e todos os caracteres de espaço em brancoLetters, punctuation, spaces, tabs, markup, and all white-space characters
  • Todos os pontos de código definidos em UnicodeEvery code point defined in Unicode

Para obter informações detalhadas, consulte preços.For detailed information, see Pricing.

Importante

Cada caractere de idioma chinês, japonês e coreano é contado como dois caracteres para cobrança.Each Chinese, Japanese, and Korean language character is counted as two characters for billing.

Principais recursosCore features

Esta tabela lista os principais recursos para conversão de texto em fala:This table lists the core features for text-to-speech:

Caso de utilizaçãoUse case SDKSDK RESTREST
Converter texto em fala.Convert text to speech. SimYes SimYes
Carregar conjuntos de valores para adaptação de voz.Upload datasets for voice adaptation. NãoNo Sim*Yes*
Crie e gerencie modelos de fonte de voz.Create and manage voice font models. NãoNo Sim*Yes*
Crie e gerencie implantações de fontes de voz.Create and manage voice font deployments. NãoNo Sim*Yes*
Criar e gerenciar testes de fonte de voz.Create and manage voice font tests. NãoNo Sim*Yes*
Gerenciar assinaturas.Manage subscriptions. NãoNo Sim*Yes*

*esses serviços estão disponíveis usando o ponto de extremidade Cris.ai. Consulte referência do Swagger. Essas APIs de treinamento e gerenciamento de voz personalizadas implementam a limitação que limita as solicitações a 25 por 5 segundos, enquanto a própria API de síntese de fala implementa a limitação que permite 200 solicitações por segundo como a mais alta. Quando a limitação ocorrer, você será notificado por meio de cabeçalhos de mensagem.*These services are available using the cris.ai endpoint. See Swagger reference. These custom voice training and management APIs implement throttling that limits requests to 25 per 5 seconds, while the speech synthesis API itself implements throttling that allows 200 requests per second as the highest. When throttling occurs, you'll be notified via message headers.

Introdução ao texto para falaGet started with text to speech

Oferecemos guias de início rápido projetados para que você execute códigos em menos de 10 minutos.We offer quickstarts designed to have you running code in less than 10 minutes. Esta tabela inclui uma lista de guias de início rápido de conversão de texto em fala organizadas por idioma.This table includes a list of text-to-speech quickstarts organized by language.

Guias de início rápido do SDKSDK quickstarts

Início rápido (SDK)Quickstart (SDK) PlataformaPlatform Referência da APIAPI Reference
C#, .NET CoreC#, .NET Core WindowsWindows NavegadorBrowse
C#.NET FrameworkC#, .NET Framework WindowsWindows NavegadorBrowse
C#, UWPC#, UWP WindowsWindows NavegadorBrowse
C#, UnityC#, Unity Windows, AndroidWindows, Android NavegadorBrowse
C++C++ WindowsWindows NavegadorBrowse
C++C++ LinuxLinux NavegadorBrowse
JavaJava Windows, Linux, macOSWindows, Linux, macOS NavegadorBrowse
JavaJava AndroidAndroid NavegadorBrowse
Objective-CObjective-C macOSmacOS NavegadorBrowse
Objective-CObjective-C iOSiOS NavegadorBrowse
SwiftSwift macOSmacOS NavegadorBrowse
SwiftSwift iOSiOS NavegadorBrowse
PythonPython Janela, Linux, macOSWindow, Linux, macOS NavegadorBrowse

Guias de início rápido do RESTREST quickstarts

Início rápido (REST)Quickstart (REST) PlataformaPlatform Referência de APIAPI reference
C#, .NET CoreC#, .NET Core Windows, macOS, LinuxWindows, macOS, Linux NavegadorBrowse
Node.jsNode.js Windows, macOS, LinuxWindow, macOS, Linux NavegadorBrowse
PythonPython Windows, macOS, LinuxWindow, macOS, Linux NavegadorBrowse

Código de exemploSample code

O código de exemplo para conversão de texto em fala está disponível no GitHub.Sample code for text-to-speech is available on GitHub. Esses exemplos abordam a conversão de texto em fala nas linguagens de programação mais populares.These samples cover text-to-speech conversion in most popular programming languages.

Documentos de referênciaReference docs

Passos seguintesNext steps