Melhorar a síntese com a ferramenta de criação de conteúdo de áudioImprove synthesis with the Audio Content Creation tool

A criação de conteúdo de áudio é uma ferramenta online que permite que você personalize e ajuste a saída de conversão de texto em fala da Microsoft para seus aplicativos e produtos.Audio Content Creation is an online tool that allows you to customize and fine-tune Microsoft's text-to-speech output for your apps and products. Você pode usar essa ferramenta para ajustar as vozes pública e personalizada para expressões naturais mais precisas e gerenciar sua saída na nuvem.You can use this tool to fine-tune public and custom voices for more accurate natural expressions, and manage your output in the cloud.

A ferramenta de criação de conteúdo de áudio baseia-se na SSML (linguagem de marcação de síntese de fala).The Audio Content Creation tool is based on Speech Synthesis Markup Language (SSML). Para simplificar a personalização e o ajuste, a criação de conteúdo de áudio permite que você inspecione visualmente suas saídas de texto em fala em tempo real.To simplify customization and tuning, Audio Content Creation allows you to visually inspect your text-to-speech outputs in real time.

Como funciona?How does it work?

Este diagrama mostra as etapas necessárias para ajustar as saídas de conversão de texto em fala.This diagram shows the steps it takes to fine-tune text-to-speech outputs. Use os links abaixo para saber mais sobre cada etapa.Use the links below to learn more about each step.

  1. Configure sua conta do Azure e o recurso de fala para começar.Set up your Azure account and Speech resource to get started.

  2. Crie um arquivo de ajuste de áudio usando texto sem formatação ou scripts de SSML.Create an audio tuning file using plain text or SSML scripts.

  3. Escolha a voz e o idioma para o conteúdo do script.Choose the voice and the language for your script content. A criação de conteúdo de áudio inclui todas as vozes de texto em fala da Microsoft.Audio Content Creation includes all of the Microsoft text-to-speech voices. Você pode usar o padrão, neural ou sua própria voz personalizada.You can use standard, neural, or your own custom voice.

    Observação

    O acesso restrito está disponível para vozes neurais personalizadas, que permitem criar vozes de alta definição semelhantes à fala de som natural.Gated access is available for Custom Neural Voices, which allow you to create high-definition voices similar to natural-sounding speech. Para obter mais detalhes, consulte o processo de retenção.For additional details, see Gating process.

  4. Examine a saída de síntese padrão.Review the default synthesis output. Em seguida, aumente a saída ajustando pronúncia, quebra, pitch, taxa, intonation, estilo de voz e muito mais.Then improve the output by adjusting pronunciation, break, pitch, rate, intonation, voice style, and more. Para obter uma lista completa de opções, consulte linguagem de marcação de síntese de fala.For a complete list of options, see Speech Synthesis Markup Language. Aqui está um vídeo para mostrar como ajustar a saída de fala com a criação de conteúdo de áudio.Here is a video to show how to fine-tune speech output with Audio Content Creation.

  5. Salve e exporte seu áudio ajustado.Save and export your tuned audio. Ao salvar a faixa de ajuste no sistema, você pode continuar a trabalhar e iterar na saída.When you save the tuning track in the system, you can continue to work and iterate on the output. Quando estiver satisfeito com a saída, você poderá criar uma tarefa de criação de áudio com o recurso exportar.When you're satisfied with the output, you can create an audio creation task with the export feature. Você pode observar o status da tarefa de exportação e baixar a saída para uso com seus aplicativos e produtos.You can observe the status of the export task, and download the output for use with your apps and products.

Configurar sua conta do Azure e o recurso de falaSet up your Azure account and Speech resource

  1. Para trabalhar com a criação de conteúdo de áudio, você deve ter uma conta do Azure.To work with Audio Content Creation, you must have an Azure account. Você pode criar uma conta do Azure usando sua conta da Microsoft.You can create an Azure account by using your Microsoft Account. Siga estas instruções para Configurar uma conta do Azure.Follow these instructions to set up an Azure account.
  2. Crie um recurso de fala para sua conta do Azure.Create a Speech resource to your Azure account. Verifique se o tipo de preço está definido como S0.Make sure that your pricing tier is set to S0. Se você estiver usando uma das vozes neurais, certifique-se de criar seu recurso em uma região com suporte.If you are using one of the Neural voices, make sure that you create your resource in a supported region.
  3. Depois de obter a conta do Azure e o recurso de fala, você pode usar os serviços de fala e acessar a criação de conteúdo de áudio.After you get the Azure account and the speech resource, you can use speech services and access Audio Content Creation.
  4. Selecione o recurso de fala no qual você precisa trabalhar.Select the Speech resource you need to work on. Você também pode criar um novo recurso de fala aqui.You can also create a new Speech resource here.
  5. Você pode modificar o recurso de fala a qualquer momento com a opção configurações , localizada na barra de navegação superior.You can modify your Speech resource at any time with the Settings option, located in the top nav.

Criar um arquivo de ajuste de áudioCreate an audio tuning file

Há duas maneiras de colocar seu conteúdo na ferramenta de criação de conteúdo de áudio.There are two ways to get your content into the Audio Content Creation tool.

Opção 1:Option 1:

  1. Clique em novo arquivo para criar um novo arquivo de ajuste de áudio.Click New file to create a new audio tuning file.
  2. Digite ou cole o conteúdo na janela de edição.Type or paste your content into the editing window. Os caracteres para cada arquivo são de até 20.000.The characters for each file is up to 20,000. Se o seu script tiver mais de 20.000 caracteres, você poderá usar a opção 2 para dividir automaticamente o conteúdo em vários arquivos.If your script is longer than 20,000 characters, you can use Option 2 to automatically split your content into multiple files.
  3. Não se esqueça de salvar.Don't forget to save.

Opção 2:Option 2:

  1. Clique em carregar para importar um ou mais arquivos de texto.Click Upload to import one or more text files. Há suporte para texto sem formatação e SSML.Both plain text and SSML are supported.

  2. Se o arquivo de script tiver mais de 20.000 caracteres, divida o arquivo por parágrafos, por caractere ou por expressões regulares.If your script file is more than 20,000 characters, please split the file by paragraphs, by character or by regular expressions.

  3. Ao carregar seus arquivos de texto, certifique-se de que o arquivo atende a esses requisitos.When you upload your text files, make sure that the file meets these requirements.

    PropriedadeProperty Valor/observaçõesValue / Notes
    Formato de arquivoFile format Texto sem formatação (.txt)Plain text (.txt)
    Texto de SSML (. txt)SSML text (.txt)
    Não há suporte para arquivos zipZip files aren't supported
    Formato de codificaçãoEncoding format UTF-8UTF-8
    Nome do ArquivoFile name Cada arquivo deve ter um nome exclusivo.Each file must have a unique name. Não há suporte para duplicatas.Duplicates aren't supported.
    Comprimento do textoText length Os arquivos de texto não devem exceder 20.000 caracteres.Text files must not exceed 20,000 characters.
    Restrições de SSMLSSML restrictions Cada arquivo SSML pode conter apenas uma única parte de SSML.Each SSML file can only contain a single piece of SSML.

Exemplo de texto sem formataçãoPlain text example

Welcome to use Audio Content Creation to customize audio output for your products.

Exemplo de texto de SSMLSSML text example

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="Microsoft Server Speech Text to Speech Voice (en-US, AriaNeural)">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Exportar áudio ajustadoExport tuned audio

Depois de revisar sua saída de áudio e ficar satisfeito com seu ajuste e ajuste, você poderá exportar o áudio.After you've reviewed your audio output and are satisfied with your tuning and adjustment, you can export the audio.

  1. Clique em Exportar para criar uma tarefa de criação de áudio.Click Export to create an audio creation task. É recomendável exportar para a biblioteca de áudio , pois ela dá suporte à saída de áudio longa e a experiência de saída de áudio completa.Export to Audio Library is recommended as it supports the long audio output and the full audio output experience. Você também pode baixar o áudio para o disco local diretamente, mas somente os primeiros 10 minutos estão disponíveis.You can also download the audio to your local disk directly, but only the first 10 minutes are available.
  2. Escolha o formato de saída para o áudio ajustado.Choose the output format for your tuned audio. Uma lista de formatos com suporte e taxas de exemplo está disponível abaixo.A list of supported formats and sample rates is available below.
  3. Você pode exibir o status da tarefa na guia exportar tarefa . Se a tarefa falhar, consulte a página informações detalhadas para obter um relatório completo.You can view the status of the task on the Export task tab. If the task fails, see the detailed information page for a full report.
  4. Quando a tarefa for concluída, o áudio estará disponível para download na guia biblioteca de áudio .When the task is complete, your audio is available for download on the Audio Library tab.
  5. Clique em Download.Click Download. Agora você está pronto para usar seu áudio ajustado personalizado em seus aplicativos ou produtos.Now you're ready to use your custom tuned audio in your apps or products.

Formatos com suporte de áudioSupported audio formats

FormatarFormat taxa de amostragem de 16 kHz16 kHz sample rate taxa de amostragem de 24 kHz24 kHz sample rate
WAVwav riff-16kHz-16 bits-mono-PCMriff-16khz-16bit-mono-pcm riff-24kHz-16 bits-mono-PCMriff-24khz-16bit-mono-pcm
mp3mp3 Audio-16kHz-128kbitrate-mono-mp3audio-16khz-128kbitrate-mono-mp3 Audio-24kHz-160kbitrate-mono-mp3audio-24khz-160kbitrate-mono-mp3

Consulte tambémSee also

Próximas etapasNext steps