Criar uma voz personalizadaCreate a Custom Voice

Em preparar dados para voz personalizada, descrevemos os diferentes tipos de dados que você pode usar para treinar uma voz personalizada e os requisitos de formato diferentes.In Prepare data for Custom Voice, we described the different data types you can use to train a custom voice and the different format requirements. Depois de preparar seus dados, você pode começar a carregá-los no portal de voz personalizadoou por meio da API de treinamento de voz personalizada.Once you have prepared your data, you can start to upload them to the Custom Voice portal, or through the Custom Voice training API. Aqui, descrevemos as etapas de treinamento de uma voz personalizada por meio do Portal.Here we describe the steps of training a custom voice through the portal.

Nota

Esta página pressupõe que você leu introdução à voz personalizada e preparar dados para voz personalizadae criou um projeto de voz personalizado.This page assumes you have read Get started with Custom Voice and Prepare data for Custom Voice, and have created a Custom Voice project.

Verifique os idiomas com suporte para personalizar voz: idioma para personalização.Check the languages supported for custom voice: language for customization.

Carregar seus conjuntos de osUpload your datasets

Quando estiver pronto para carregar seus dados, vá para o portal de voz personalizado.When you're ready to upload your data, go to the Custom Voice portal. Crie ou selecione um projeto de voz personalizado.Create or select a Custom Voice project. O projeto deve compartilhar o idioma/a localidade correto e as propriedades do gênero como os dados que você pretende usar para o treinamento de voz.The project must share the right language/locale and the gender properties as the data you intent to use for your voice training. Por exemplo, selecione en-GB se as gravações de áudio que você tem são feitas em inglês com um acento do Reino Unido.For example, select en-GB if the audio recordings you have is done in English with a UK accent.

Vá para a guia dados e clique em carregar dados.Go to the Data tab and click Upload data. No assistente, selecione o tipo de dados correto que corresponde ao que você preparou.In the wizard, select the correct data type that matches what you have prepared.

Cada conjunto de dados que você carrega deve atender aos requisitos para o tipo de dado que você escolher.Each dataset you upload must meet the requirements for the data type that you choose. É importante formatar corretamente os dados antes que eles sejam carregados.It is important to correctly format your data before it's uploaded. Isso garante que os dados serão processados com precisão pelo serviço de voz personalizado.This ensures the data will be accurately processed by the Custom Voice service. Acesse preparar dados para voz personalizada e verifique se os dados foram formatados de forma correta.Go to Prepare data for Custom Voice and make sure your data has been rightly formatted.

Nota

Os usuários da assinatura gratuita (F0) podem carregar dois conjuntos de os simultaneamente.Free subscription (F0) users can upload two datasets simultaneously. Assinatura padrão (S0) os usuários podem carregar cinco conjuntos de os simultaneamente.Standard subscription (S0) users can upload five datasets simultaneously. Se você atingir o limite, aguarde até que pelo menos um dos seus conjuntos de valores termine a importação.If you reach the limit, wait until at least one of your datasets finishes importing. Em seguida, tente novamente.Then try again.

Nota

O número máximo de conjuntos de usuários que podem ser importados por assinatura é de 10 arquivos. zip para usuários de assinatura gratuita (F0) e 500 para usuários de assinatura padrão (S0).The maximum number of datasets allowed to be imported per subscription is 10 .zip files for free subscription (F0) users and 500 for standard subscription (S0) users.

Os conjuntos de valores são validados automaticamente quando você pressiona o botão carregar.Datasets are automatically validated once you hit the upload button. A validação de dados inclui uma série de verificações nos arquivos de áudio para verificar o formato, o tamanho e a taxa de amostragem do arquivo.Data validation includes series of checks on the audio files to verify their file format, size, and sampling rate. Corrija os erros se houver e envie novamente.Fix the errors if any and submit again. Quando a solicitação de importação de dados for iniciada com êxito, você deverá ver uma entrada na tabela de dados que corresponde ao DataSet que você acabou de carregar.When the data-importing request is successfully initiated, you should see an entry in the data table that corresponds to the dataset you’ve just uploaded.

A tabela a seguir mostra os Estados de processamento para conjuntos de tabelas importados:The following table shows the processing states for imported datasets:

EstadoState SignificadoMeaning
Em processamentoProcessing Seu conjunto de seus foi recebido e está sendo processado.Your dataset has been received and is being processed.
Bem-sucedidoSucceeded Seu conjunto de um foi validado e agora pode ser usado para criar um modelo de voz.Your dataset has been validated and may now be used to build a voice model.
Com FalhasFailed O conjunto de dados falhou durante o processamento devido a vários motivos, por exemplo, erros de arquivo, problemas de dados ou problemas de rede.Your dataset has been failed during processing due to many reasons, for example file errors, data problems or network issues.

Após a conclusão da validação, você poderá ver o número total de declarações correspondentes para cada um de seus conjuntos de os na coluna declarações .After validation is complete, you can see the total number of matched utterances for each of your datasets in the Utterances column. Se o tipo de dados selecionado exigir segmentação de áudio de longo prazo, essa coluna refletirá apenas o declarações que segmentamos para você com base em suas transcrições ou por meio do serviço de transcrição de fala.If the data type you have selected requires long-audio segmentation, this column only reflects the utterances we have segmented for you either based on your transcripts or through the speech transcription service. Você pode baixar ainda mais o conjunto de informações validado para exibir os resultados detalhados do declarações importado com êxito e suas transcrições de mapeamento.You can further download the dataset validated to view the detail results of the utterances successfully imported and their mapping transcripts. Dica: a segmentação de áudio longo pode levar mais de uma hora para concluir o processamento de dados.Hint: long-audio segmentation can take more than an hour to complete data processing.

Para conjuntos de resultados en-US e zh-CN, você pode baixar um relatório para verificar as pontuações de pronúncia e o nível de ruído para cada uma de suas gravações.For en-US and zh-CN datasets, you can further download a report to check the pronunciation scores and the noise level for each of your recordings. A pontuação da pronúncia varia de 0 a 100.The pronunciation score ranges from 0 to 100. Uma pontuação abaixo de 70 indica normalmente um erro de fala ou incompatibilidade de script.A score below 70 normally indicates a speech error or script mismatch. Um acentuado pesado pode reduzir sua pontuação de pronúncia e afetar a voz digital gerada.A heavy accent can reduce your pronunciation score and impact the generated digital voice.

Uma taxa mais alta de sinal para ruído (SNR) indica menos ruído em seu áudio.A higher signal-to-noise ratio (SNR) indicates lower noise in your audio. Normalmente, você pode alcançar um SNR de 50 + gravando em Professional estúdios.You can typically reach a 50+ SNR by recording at professional studios. O áudio com um SNR abaixo de 20 pode resultar em um ruído óbvio na voz gerada.Audio with an SNR below 20 can result in obvious noise in your generated voice.

Considere gravar novamente qualquer declarações com pontuações de pronúncia baixa ou taxas de sinal para ruído ruins.Consider re-recording any utterances with low pronunciation scores or poor signal-to-noise ratios. Se não for possível regravar, você poderá excluir esses declarações do conjunto de seus conjuntos de registros.If you can't re-record, you might exclude those utterances from your dataset.

Crie seu modelo de voz personalizadoBuild your custom voice model

Depois que o conjunto de seus conjuntos de um for validado, você poderá usá-lo para criar seu modelo de voz personalizado.After your dataset has been validated, you can use it to build your custom voice model.

  1. Navegue até a conversão de texto em fala > treinamento de > de voz personalizado.Navigate to Text-to-Speech > Custom Voice > Training.

  2. Clique em treinar modelo.Click Train model.

  3. Em seguida, insira um nome e uma Descrição para ajudá-lo a identificar esse modelo.Next, enter a Name and Description to help you identify this model.

    Escolha um nome com cuidado.Choose a name carefully. O nome que você digitar aqui será o nome usado para especificar a voz em sua solicitação de síntese de fala como parte da entrada SSML.The name you enter here will be the name you use to specify the voice in your request for speech synthesis as part of the SSML input. Somente letras, números e alguns caracteres de pontuação, como-, _e (', ') são permitidos.Only letters, numbers, and a few punctuation characters such as -, _, and (', ') are allowed. Use nomes diferentes para modelos de voz diferentes.Use different names for different voice models.

    Um uso comum do campo Descrição é registrar os nomes dos conjuntos de registros que foram usados para criar o modelo.A common use of the Description field is to record the names of the datasets that were used to create the model.

  4. Na página selecionar dados de treinamento , escolha um ou vários conjuntos de dados que você gostaria de usar para treinamento.From the Select training data page, choose one or multiple datasets that you would like to use for training. Verifique o número de declarações antes de enviá-los.Check the number of utterances before you submit them. Você pode começar com qualquer número de declarações para modelos de voz en-US e zh-CN.You can start with any number of utterances for en-US and zh-CN voice models. Para outras localidades, você deve selecionar mais de 2.000 declarações para poder treinar uma voz.For other locales, you must select more than 2,000 utterances to be able to train a voice.

    Nota

    Nomes de áudio duplicados serão removidos do treinamento.Duplicate audio names will be removed from the training. Verifique se os conjuntos de valores selecionados não contêm os mesmos nomes de áudio em vários arquivos. zip.Make sure the datasets you select do not contain the same audio names across multiple .zip files.

    Dica

    O uso dos conjuntos de valores do mesmo palestrante é necessário para os resultados de qualidade.Using the datasets from the same speaker is required for quality results. Quando os conjuntos de valores que você enviou para treinamento contêm um número total de menos de 6.000 declarações distintos, você treinará seu modelo de voz por meio da técnica de síntese paramétricas estatística.When the datasets you have submitted for training contain a total number of less than 6,000 distinct utterances, you will train your voice model through the Statistical Parametric Synthesis technique. No caso em que os dados de treinamento excedem um número total de 6.000 declarações distintos, você iniciará um processo de treinamento com a técnica de síntese de concatenação.In the case where your training data exceeds a total number of 6,000 distinct utterances, you will kick off a training process with the Concatenation Synthesis technique. Normalmente, a tecnologia de concatenação pode resultar em resultados de voz mais naturais e de maior fidelidade.Normally the concatenation technology can result in more natural, and higher-fidelity voice results. Entre em contato com a equipe de voz personalizada se desejar treinar um modelo com a tecnologia de TTS do neural mais recente que pode produzir uma voz digital equivalente às vozes neuraisdisponíveis publicamente.Contact the Custom Voice team if you want to train a model with the latest Neural TTS technology that can produce a digital voice equivalent to the publically available neural voices.

  5. Clique em treinar para começar a criar seu modelo de voz.Click Train to begin creating your voice model.

A tabela de treinamento exibe uma nova entrada que corresponde a esse modelo recém-criado.The Training table displays a new entry that corresponds to this newly created model. A tabela também exibe o status: processamento, com êxito, com falha.The table also displays the status: Processing, Succeeded, Failed.

O status mostrado reflete o processo de conversão do conjunto de seus conjuntos de um modelo de voz, como mostrado aqui.The status that's shown reflects the process of converting your dataset to a voice model, as shown here.

EstadoState SignificadoMeaning
Em processamentoProcessing Seu modelo de voz está sendo criado.Your voice model is being created.
Bem-sucedidoSucceeded Seu modelo de voz foi criado e pode ser implantado.Your voice model has been created and can be deployed.
Com FalhasFailed O seu modelo de voz falhou no treinamento devido a vários motivos, por exemplo, problemas de dados ou problemas de rede não vistos.Your voice model has been failed in training due to many reasons, for example unseen data problems or network issues.

O tempo de treinamento varia dependendo do volume de dados de áudio processados.Training time varies depending on the volume of audio data processed. Os tempos típicos variam de cerca de 30 minutos para centenas de declarações a 40 horas para 20.000 declarações.Typical times range from about 30 minutes for hundreds of utterances to 40 hours for 20,000 utterances. Quando o treinamento do modelo for bem-sucedido, você poderá começar a testá-lo.Once your model training is succeeded, you can start to test it.

Nota

Os usuários da assinatura gratuita (F0) podem treinar uma fonte de voz simultaneamente.Free subscription (F0) users can train one voice font simultaneously. Assinatura padrão (S0) os usuários podem treinar três vozes simultaneamente.Standard subscription (S0) users can train three voices simultaneously. Se você atingir o limite, aguarde até que pelo menos uma das fontes de voz conclua o treinamento e tente novamente.If you reach the limit, wait until at least one of your voice fonts finishes training, and then try again.

Nota

O número máximo de modelos de voz com permissão para ser treinado por assinatura é de 10 modelos para usuários de assinatura gratuita (F0) e 100 para usuários de assinatura padrão (S0).The maximum number of voice models allowed to be trained per subscription is 10 models for free subscription (F0) users and 100 for standard subscription (S0) users.

Se você estiver usando o recurso de treinamento de voz neural, poderá optar por treinar um modelo otimizado para cenários de streaming em tempo real ou um modelo neural de HD otimizado para a síntese de áudio de longo eassíncrono.If you are using the neural voice training capability, you can select to train a model optimized for real-time streaming scenarios, or a HD neural model optimized for asynchronous long-audio synthesis.

Testar seu modelo de vozTest your voice model

Depois que a fonte de voz for criada com êxito, você poderá testá-la antes de implantá-la para uso.After your voice font is successfully built, you can test it before deploying it for use.

  1. Navegue até a conversão de texto em fala > teste de > de voz personalizado.Navigate to Text-to-Speech > Custom Voice > Testing.

  2. Clique em Adicionar teste.Click Add test.

  3. Selecione um ou vários modelos que você gostaria de testar.Select one or multiple models that you would like to test.

  4. Forneça o texto que você deseja que as voz (s) falem.Provide the text you want the voice(s) to speak. Se você tiver selecionado para testar vários modelos ao mesmo tempo, o mesmo texto será usado para os testes de modelos diferentes.If you have selected to test multiple models at one time, the same text will be used for the testing for different models.

    Nota

    O idioma do texto deve ser o mesmo que o idioma da sua fonte de voz.The language of your text must be the same as the language of your voice font. Somente modelos treinados com êxito podem ser testados.Only successfully trained models can be tested. Somente texto sem formatação tem suporte nesta etapa.Only plain text is supported in this step.

  5. Clique em Criar.Click Create.

Depois de enviar sua solicitação de teste, você retornará para a página de teste.Once you have submitted your test request, you will return to the test page. A tabela agora inclui uma entrada que corresponde à sua nova solicitação e à coluna status.The table now includes an entry that corresponds to your new request and the status column. Pode levar alguns minutos para sintetizar a fala.It can take a few minutes to synthesize speech. Quando a coluna status for bem-sucedida, você poderá reproduzir o áudio ou baixar a entrada de texto (um arquivo. txt) e a saída de áudio (um arquivo. wav) e ainda mais Audition o último para obter qualidade.When the status column says Succeeded, you can play the audio, or download the text input (a .txt file) and audio output (a .wav file), and further audition the latter for quality.

Você também pode encontrar os resultados do teste na página de detalhes de cada modelo selecionado para teste.You can also find the test results in the detail page of each models you have selected for testing. Vá para a guia treinamento e clique no nome do modelo para inserir a página de detalhes do modelo.Go to the Training tab, and click the model name to enter the model detail page.

Criar e usar um ponto de extremidade de voz personalizadoCreate and use a custom voice endpoint

Depois de criar e testar com êxito seu modelo de voz, implante-o em um ponto de extremidade de conversão de texto em fala personalizado.After you've successfully created and tested your voice model, you deploy it in a custom Text-to-Speech endpoint. Em seguida, você usa esse ponto de extremidade no lugar do ponto de extremidade usual ao fazer solicitações de conversão de texto em fala por meio da API REST.You then use this endpoint in place of the usual endpoint when making Text-to-Speech requests through the REST API. Seu ponto de extremidade personalizado pode ser chamado apenas pela assinatura que você usou para implantar a fonte.Your custom endpoint can be called only by the subscription that you have used to deploy the font.

Para criar um novo ponto de extremidade de voz personalizado, acesse conversão de texto em fala > voz personalizada > implantação.To create a new custom voice endpoint, go to Text-to-Speech > Custom Voice > Deployment. Selecione Adicionar ponto de extremidade e insira um nome e uma Descrição para o ponto de extremidade personalizado.Select Add endpoint and enter a Name and Description for your custom endpoint. Em seguida, selecione o modelo de voz personalizado que você deseja associar a esse ponto de extremidade.Then select the custom voice model you would like to associate with this endpoint.

Depois de clicar no botão Adicionar , na tabela ponto de extremidade, você verá uma entrada para o novo ponto de extremidade.After you have clicked the Add button, in the endpoint table, you will see an entry for your new endpoint. Pode levar alguns minutos para criar uma instância de um novo ponto de extremidade.It may take a few minutes to instantiate a new endpoint. Quando o status da implantação for bem-sucedido, o ponto de extremidade estará pronto para uso.When the status of the deployment is Succeeded, the endpoint is ready for use.

Nota

Os usuários da assinatura gratuita (F0) podem ter apenas um modelo implantado.Free subscription (F0) users can have only one model deployed. Assinatura padrão (S0) os usuários podem criar até 50 pontos de extremidade, cada um com sua própria voz personalizada.Standard subscription (S0) users can create up to 50 endpoints, each with its own custom voice.

Nota

Para usar sua voz personalizada, você deve especificar o nome do modelo de voz, usar o URI personalizado diretamente em uma solicitação HTTP e usar a mesma assinatura para passar pela autenticação do serviço TTS.To use your custom voice, you must specify the voice model name, use the custom URI directly in an HTTP request, and use the same subscription to pass through the authentication of TTS service.

Depois que o ponto de extremidade for implantado, o nome do ponto de extremidade aparecerá como um link.After your endpoint is deployed, the endpoint name appears as a link. Clique no link para exibir informações específicas para seu ponto de extremidade, como a chave do ponto de extremidade, a URL do ponto de extremidade e o código de exemplo.Click the link to display information specific to your endpoint, such as the endpoint key, endpoint URL, and sample code.

O teste online do ponto de extremidade também está disponível por meio do portal de voz personalizado.Online testing of the endpoint is also available via the custom voice portal. Para testar seu ponto de extremidade, escolha verificar ponto de extremidade na página de detalhes do ponto de extremidade .To test your endpoint, choose Check endpoint from the Endpoint detail page. A página de teste do ponto de extremidade é exibida.The endpoint testing page appears. Insira o texto a ser falado (no formato de texto sem formatação ou SSML na caixa de texto.Enter the text to be spoken (in either plain text or SSML format in the text box. Para ouvir o texto falado em sua fonte de voz personalizada, selecione reproduzir.To hear the text spoken in your custom voice font, select Play. Este recurso de teste será cobrado em relação ao uso personalizado de síntese de fala.This testing feature will be charged against your custom speech synthesis usage.

O ponto de extremidade personalizado é funcionalmente idêntico ao ponto de extremidade padrão usado para solicitações de conversão de texto em fala.The custom endpoint is functionally identical to the standard endpoint that's used for text-to-speech requests. Consulte API REST para obter mais informações.See REST API for more information.

Passos seguintesNext steps