Preparar dados para criar uma voz personalizadaPrepare data to create a custom voice

Quando você estiver pronto para criar uma voz personalizada de conversão de texto em fala para seu aplicativo, a primeira etapa é coletar gravações de áudio e scripts associados para começar a treinar o modelo de voz.When you're ready to create a custom text-to-speech voice for your application, the first step is to gather audio recordings and associated scripts to start training the voice model. O serviço de fala usa esses dados para criar uma voz exclusiva ajustada para corresponder à voz nas gravações.The Speech service uses this data to create a unique voice tuned to match the voice in the recordings. Depois de treinar a voz, você pode começar a resumir a fala em seus aplicativos.After you've trained the voice, you can start synthesizing speech in your applications.

Você pode começar com uma pequena quantidade de dados para criar uma prova de conceito.You can start with a small amount of data to create a proof of concept. No entanto, quanto mais dados você fornecer, mais natural será o som de sua voz personalizada.However, the more data that you provide, the more natural your custom voice will sound. Antes de treinar seu próprio modelo de voz de conversão de texto em fala, você precisará de gravações de áudio e das transcrições de texto associadas.Before you can train your own text-to-speech voice model, you'll need audio recordings and the associated text transcriptions. Nesta página, examinaremos os tipos de dados, como eles são usados e como gerenciar cada um deles.On this page, we'll review data types, how they are used, and how to manage each.

Tipos de dadosData types

Um conjunto de registros de treinamento de voz inclui gravações de áudio e um arquivo de texto com as transcrições associadas.A voice training dataset includes audio recordings, and a text file with the associated transcriptions. Cada arquivo de áudio deve conter um único expressão (uma única frase ou uma única vez para um sistema de caixa de diálogo) e ter menos de 15 segundos de comprimento.Each audio file should contain a single utterance (a single sentence or a single turn for a dialog system), and be less than 15 seconds long.

Em alguns casos, talvez você não tenha o conjunto de tempo pronto e desejará testar o treinamento de voz personalizado com os arquivos de áudio disponíveis, curtos ou longos, com ou sem transcrições.In some cases, you may not have the right dataset ready and will want to test the custom voice training with available audio files, short or long, with or without transcripts. Fornecemos ferramentas (beta) para ajudá-lo a segmentar seu áudio em declarações e preparar transcrições usando a API de transcrição do lote.We provide tools (beta) to help you segment your audio into utterances and prepare transcripts using the Batch Transcription API.

Esta tabela lista os tipos de dados e como cada um é usado para criar um modelo de voz de conversão de texto em fala personalizado.This table lists data types and how each is used to create a custom text-to-speech voice model.

Data typeData type DescriçãoDescription Quando utilizarWhen to use Serviço adicional necessárioAdditional service required Quantidade para treinar um modeloQuantity for training a model Localidade (s)Locale(s)
Declarações individuais + transcrição correspondenteIndividual utterances + matching transcript Uma coleção (. zip) de arquivos de áudio (. wav) como declarações individuais.A collection (.zip) of audio files (.wav) as individual utterances. Cada arquivo de áudio deve ter 15 segundos ou menos de comprimento, emparelhado com uma transcrição formatada (. txt).Each audio file should be 15 seconds or less in length, paired with a formatted transcript (.txt). Gravações profissionais com transcrições de correspondênciaProfessional recordings with matching transcripts Pronto para treinamento.Ready for training. Nenhum requisito rígido para en-US e zh-CN.No hard requirement for en-US and zh-CN. Mais de 2.000 declarações diferentes para outras localidades.More than 2,000+ distinct utterances for other locales. Todas as localidades de voz personalizadasAll Custom Voice locales
Áudio longo + transcrição (beta)Long audio + transcript (beta) Uma coleção (. zip) de arquivos de áudio longos e não segmentados (mais de 20 segundos), emparelhados com uma transcrição (. txt) que contém todas as palavras faladas.A collection (.zip) of long, unsegmented audio files (longer than 20 seconds), paired with a transcript (.txt) that contains all spoken words. Você tem arquivos de áudio e transcrições correspondentes, mas eles não são segmentados em declarações.You have audio files and matching transcripts, but they are not segmented into utterances. Segmentação (usando a transcrição do lote).Segmentation (using batch transcription).
Transformação formato de áudio, quando necessário.Audio format transformation where required.
Nenhum requisito rígidoNo hard requirement Todas as localidades de voz personalizadasAll Custom Voice locales
Somente áudio (beta)Audio only (beta) Uma coleção (. zip) de arquivos de áudio sem transcrição.A collection (.zip) of audio files without a transcript. Você tem apenas arquivos de áudio disponíveis, sem transcrições.You only have audio files available, without transcripts. Segmentação + geração de transcrição (usando a transcrição do lote).Segmentation + transcript generation (using batch transcription).
Transformação formato de áudio, quando necessário.Audio format transformation where required.
Nenhum requisito rígidoNo hard requirement Todas as localidades de voz personalizadasAll Custom Voice locales

Os arquivos devem ser agrupados por tipo em um conjunto de um e carregados como um arquivo zip.Files should be grouped by type into a dataset and uploaded as a zip file. Cada conjunto de dados só pode conter um único tipo de dado.Each dataset can only contain a single data type.

Nota

O número máximo de conjuntos de usuários que podem ser importados por assinatura é de 10 arquivos. zip para usuários de assinatura gratuita (F0) e 500 para usuários de assinatura padrão (S0).The maximum number of datasets allowed to be imported per subscription is 10 .zip files for free subscription (F0) users and 500 for standard subscription (S0) users.

Declarações individuais + transcrição correspondenteIndividual utterances + matching transcript

Você pode preparar gravações de declarações individuais e a transcrição de correspondência de duas maneiras.You can prepare recordings of individual utterances and the matching transcript in two ways. Escreva um script e leia-o por um talento de voz ou use áudio publicamente disponível e o transcreve para texto.Either write a script and have it read by a voice talent or use publicly available audio and transcribe it to text. Se você fizer o último, edite disfluencies dos arquivos de áudio, como "um" e outros sons de preenchimento, falhas, palavras balbuciado ou inpronúncias.If you do the latter, edit disfluencies from the audio files, such as "um" and other filler sounds, stutters, mumbled words, or mispronunciations.

Para produzir uma boa fonte de voz, crie as gravações em uma sala silenciosa com um microfone de alta qualidade.To produce a good voice font, create the recordings in a quiet room with a high-quality microphone. O volume consistente, a taxa de fala, o tom de fala e o mannerisms expressivo da fala são essenciais.Consistent volume, speaking rate, speaking pitch, and expressive mannerisms of speech are essential.

Dica

Para criar uma voz para uso em produção, recomendamos que você use um estúdio de gravação profissional e um talento de voz.To create a voice for production use, we recommend you use a professional recording studio and voice talent. Para obter mais informações, consulte como gravar amostras de voz para uma voz personalizada.For more information, see How to record voice samples for a custom voice.

Arquivos de áudioAudio files

Cada arquivo de áudio deve conter um único expressão (uma única frase ou uma única rodada de um sistema de caixa de diálogo), com menos de 15 segundos de comprimento.Each audio file should contain a single utterance (a single sentence or a single turn of a dialog system), less than 15 seconds long. Todos os arquivos devem estar no mesmo idioma falado.All files must be in the same spoken language. Não há suporte para vozes de conversão de texto em fala personalizadas em vários idiomas, com exceção do idioma inglês chinês-inglês.Multi-language custom text-to-speech voices are not supported, with the exception of the Chinese-English bi-lingual. Cada arquivo de áudio deve ter um nome de arquivo numérico exclusivo com a extensão de nome de arquivo. wav.Each audio file must have a unique numeric filename with the filename extension .wav.

Siga estas diretrizes ao preparar o áudio.Follow these guidelines when preparing audio.

PropriedadeProperty ValorValue
Formato de arquivoFile format RIFF (. wav), agrupado em um arquivo. zipRIFF (.wav), grouped into a .zip file
Frequência de amostragemSampling rate Pelo menos 16.000 HzAt least 16,000 Hz
Formato de exemploSample format PCM, 16 bitsPCM, 16-bit
Nome de ficheiroFile name Numeric, com extensão. wav.Numeric, with .wav extension. Nenhum nome de arquivo duplicado é permitido.No duplicate file names allowed.
Comprimento do áudioAudio length Menos de 15 segundosShorter than 15 seconds
Formato de arquivo mortoArchive format .zip.zip
Tamanho máximo do arquivo mortoMaximum archive size 2048 MB2048 MB

Nota

arquivos. wav com uma taxa de amostragem inferior a 16.000 Hz serão rejeitados..wav files with a sampling rate lower than 16,000 Hz will be rejected. Se um arquivo. zip contiver arquivos. wav com taxas de amostra diferentes, somente aqueles iguais ou maiores que 16.000 Hz serão importados.If a .zip file contains .wav files with different sample rates, only those equal to or higher than 16,000 Hz will be imported. Atualmente, o portal importa arquivos. zip de até 200 MB.The portal currently imports .zip archives up to 200 MB. No entanto, vários arquivos mortos podem ser carregados.However, multiple archives can be uploaded.

TranscriçõesTranscripts

O arquivo de transcrição é um arquivo de texto sem formatação.The transcription file is a plain text file. Use estas diretrizes para preparar suas transcrições.Use these guidelines to prepare your transcriptions.

PropriedadeProperty ValorValue
Formato de arquivoFile format Texto sem formatação (. txt)Plain text (.txt)
Formato de codificaçãoEncoding format ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE ou UTF-16-is.ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, or UTF-16-BE. Para as codificações zh-CN, ANSI/ASCII e UTF-8 não têm suporte.For zh-CN, ANSI/ASCII and UTF-8 encodings are not supported.
N.º de expressões por linha# of utterances per line Um -cada linha do arquivo de transcrição deve conter o nome de um dos arquivos de áudio, seguido pela transcrição correspondente.One - Each line of the transcription file should contain the name of one of the audio files, followed by the corresponding transcription. O nome de ficheiro e a transcrição devem estar separados por uma tabulação (\t).The file name and transcription should be separated by a tab (\t).
Tamanho máximo do ficheiroMaximum file size 2048 MB2048 MB

Abaixo está um exemplo de como as transcrições são organizadas expressão por expressão em um arquivo. txt:Below is an example of how the transcripts are organized utterance by utterance in one .txt file:

0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.

É importante que as transcrições sejam 100% de transcrições precisas do áudio correspondente.It’s important that the transcripts are 100% accurate transcriptions of the corresponding audio. Erros nas transcrições apresentarão perda de qualidade durante o treinamento.Errors in the transcripts will introduce quality loss during the training.

Dica

Ao criar vozes de conversão de texto em fala de produção, selecione declarações (ou escreva scripts) que levam em conta a cobertura fonética e a eficiência.When building production text-to-speech voices, select utterances (or write scripts) that take into account both phonetic coverage and efficiency. Está tendo problemas para obter os resultados desejados?Having trouble getting the results you want? Entre em contato com a equipe de voz personalizada para saber mais sobre como fazer a consulta.Contact the Custom Voice team to find out more about having us consult.

Áudio longo + transcrição (beta)Long audio + transcript (beta)

Em alguns casos, talvez você não tenha um áudio segmentado disponível.In some cases, you may not have segmented audio available. Fornecemos um serviço (beta) por meio do portal de voz personalizado para ajudá-lo a segmentar arquivos de áudio longos e criar transcrições.We provide a service (beta) through the custom voice portal to help you segment long audio files and create transcriptions. Tenha em mente que esse serviço será cobrado em direção ao uso de sua assinatura de fala a texto.Keep in mind, this service will be charged toward your speech-to-text subscription usage.

Nota

O serviço de segmentação de áudio longo aproveitará o recurso de transcrição do lote de conversão de fala em texto, que dá suporte apenas a usuários de assinatura padrão (S0).The long-audio segmentation service will leverage the batch transcription feature of speech-to-text, which only supports standard subscription (S0) users. Durante o processamento da segmentação, os arquivos de áudio e as transcrições também serão enviados para o serviço de Fala Personalizada para refinar o modelo de reconhecimento para que a precisão possa ser melhorada para seus dados.During the processing of the segmentation, your audio files and the transcripts will also be sent to the Custom Speech service to refine the recognition model so the accuracy can be improved for your data. Nenhum dado será retido durante esse processo.No data will be retained during this process. Depois que a segmentação for concluída, somente os declarações segmentados e suas transcrições de mapeamento serão armazenados para download e treinamento.After the segmentation is done, only the utterances segmented and their mapping transcripts will be stored for your downloading and training.

Arquivos de áudioAudio files

Siga estas diretrizes ao preparar o áudio para segmentação.Follow these guidelines when preparing audio for segmentation.

PropriedadeProperty ValorValue
Formato de arquivoFile format RIFF (. wav) com uma taxa de amostragem de pelo menos 16 kHz-16 bits em PCM ou. mp3 com uma taxa de bits de pelo menos 256 KBps, agrupados em um arquivo. zipRIFF (.wav) with a sampling rate of at least 16 khz-16-bit in PCM or .mp3 with a bit rate of at least 256 KBps, grouped into a .zip file
Nome de ficheiroFile name Caracteres ASCII e Unicode com suporte.ASCII and Unicode characters supported. Nenhum nome duplicado é permitido.No duplicate names allowed.
Comprimento do áudioAudio length Mais de 20 segundosLonger than 20 seconds
Formato de arquivo mortoArchive format .zip.zip
Tamanho máximo do arquivo mortoMaximum archive size 2048 MB2048 MB

Todos os arquivos de áudio devem ser agrupados em um arquivo zip.All audio files should be grouped into a zip file. É OK colocar arquivos. wav e arquivos. mp3 em um zip de áudio.It’s OK to put .wav files and .mp3 files into one audio zip. Por exemplo, você pode carregar um arquivo ZIP contendo um arquivo de áudio chamado ' kingstory. wav ', 45-Second-Long e outro áudio chamado ' queenstory. mp3 ', 200-Second-Long.For example, you can upload a zip file containing an audio file named ‘kingstory.wav’, 45-second-long, and another audio named ‘queenstory.mp3’, 200-second-long. Todos os arquivos. mp3 serão transformados no formato. wav após o processamento.All .mp3 files will be transformed into the .wav format after processing.

TranscriçõesTranscripts

Transcrições devem estar preparados para as especificações listadas nesta tabela.Transcripts must be prepared to the specifications listed in this table. Cada arquivo de áudio deve ser correspondido com uma transcrição.Each audio file must be matched with a transcript.

PropriedadeProperty ValorValue
Formato de arquivoFile format Texto sem formatação (. txt), agrupado em um. zipPlain text (.txt), grouped into a .zip
Nome de ficheiroFile name Usar o mesmo nome que o arquivo de áudio correspondenteUse the same name as the matching audio file
Formato de codificaçãoEncoding format UTF-8-somente BOMUTF-8-BOM only
N.º de expressões por linha# of utterances per line Sem limiteNo limit
Tamanho máximo do ficheiroMaximum file size 2048 MB2048 MB

Todos os arquivos de transcrições nesse tipo de dados devem ser agrupados em um arquivo zip.All transcripts files in this data type should be grouped into a zip file. Por exemplo, você carregou um arquivo ZIP contendo um arquivo de áudio chamado ' kingstory. wav ', 45 segundos de comprimento e outro chamado ' queenstory. mp3 ', 200 segundos de comprimento.For example, you have uploaded a zip file containing an audio file named ‘kingstory.wav’, 45 seconds long, and another one named ‘queenstory.mp3’, 200 seconds long. Será necessário carregar outro arquivo ZIP contendo duas transcrições, uma denominada ' kingstory. txt ', a outra ' queenstory. txt '.You will need to upload another zip file containing two transcripts, one named ‘kingstory.txt’, the other one ‘queenstory.txt’. Em cada arquivo de texto sem formatação, você fornecerá a transcrição correta completa para o áudio correspondente.Within each plain text file, you will provide the full correct transcription for the matching audio.

Depois que o conjunto de acordo for carregado com êxito, iremos ajudá-lo a segmentar o arquivo de áudio no declarações com base na transcrição fornecida.After your dataset is successfully uploaded, we will help you segment the audio file into utterances based on the transcript provided. Você pode verificar o declarações segmentado e as transcrições correspondentes baixando o conjunto de um.You can check the segmented utterances and the matching transcripts by downloading the dataset. As IDs exclusivas serão atribuídas ao declarações segmentado automaticamente.Unique IDs will be assigned to the segmented utterances automatically. É importante garantir que as transcrições fornecidas sejam 100% precisas.It’s important that you make sure the transcripts you provide are 100% accurate. Os erros nas transcrições podem reduzir a precisão durante a segmentação de áudio e apresentar ainda mais perda de qualidade na fase de treinamento que vem depois.Errors in the transcripts can reduce the accuracy during the audio segmentation and further introduce quality loss in the training phase that comes later.

Somente áudio (beta)Audio only (beta)

Se você não tiver transcrições para suas gravações de áudio, use a opção somente áudio para carregar seus dados.If you don't have transcriptions for your audio recordings, use the Audio only option to upload your data. Nosso sistema pode ajudá-lo a segmentar e transcrever seus arquivos de áudio.Our system can help you segment and transcribe your audio files. Tenha em mente que esse serviço contará para o uso de sua assinatura de fala em texto.Keep in mind, this service will count toward your speech-to-text subscription usage.

Siga estas diretrizes ao preparar o áudio.Follow these guidelines when preparing audio.

Nota

O serviço de segmentação de áudio longo aproveitará o recurso de transcrição do lote de conversão de fala em texto, que dá suporte apenas a usuários de assinatura padrão (S0).The long-audio segmentation service will leverage the batch transcription feature of speech-to-text, which only supports standard subscription (S0) users.

PropriedadeProperty ValorValue
Formato de arquivoFile format RIFF (. wav) com uma taxa de amostragem de pelo menos 16 kHz-16 bits em PCM ou. mp3 com uma taxa de bits de pelo menos 256 KBps, agrupados em um arquivo. zipRIFF (.wav) with a sampling rate of at least 16 khz-16-bit in PCM or .mp3 with a bit rate of at least 256 KBps, grouped into a .zip file
Nome de ficheiroFile name Caracteres ASCII e Unicode com suporte.ASCII and Unicode characters supported. Nenhum nome duplicado é permitido.No duplicate name allowed.
Comprimento do áudioAudio length Mais de 20 segundosLonger than 20 seconds
Formato de arquivo mortoArchive format .zip.zip
Tamanho máximo do arquivo mortoMaximum archive size 2048 MB2048 MB

Todos os arquivos de áudio devem ser agrupados em um arquivo zip.All audio files should be grouped into a zip file. Depois que o conjunto de seus conjuntos de um for carregado com êxito, ajudaremos você a segmentar o arquivo de áudio no declarações com base em nosso serviço de transcrição do lote de fala.Once your dataset is successfully uploaded, we will help you segment the audio file into utterances based on our speech batch transcription service. As IDs exclusivas serão atribuídas ao declarações segmentado automaticamente.Unique IDs will be assigned to the segmented utterances automatically. As transcrições correspondentes serão geradas por meio do reconhecimento de fala.Matching transcripts will be generated through speech recognition. Todos os arquivos. mp3 serão transformados no formato. wav após o processamento.All .mp3 files will be transformed into the .wav format after processing. Você pode verificar o declarações segmentado e as transcrições correspondentes baixando o conjunto de um.You can check the segmented utterances and the matching transcripts by downloading the dataset.

Passos seguintesNext steps