Dados de treinamento para voz neural personalizada

Artigo
01/21/2024

Quando você estiver pronto para criar uma voz personalizada de Conversão de texto em fala para seu aplicativo, a primeira etapa é reunir as gravações de áudio e os scripts associados para começar a treinar o modelo de voz. O serviço de Fala usa esses dados para criar uma voz exclusiva ajustada para corresponder à voz nas gravações. Depois de treinar a voz, é possível começar a sintetizar a fala em seus aplicativos.

Dica

Para criar uma voz para uso de produção, é recomendável utilizar um estúdio de gravação profissional e um talento de voz. Para obter mais informações, confira registrar exemplos de voz para criar um sintetização de voz personalizada.

Tipos de dados de treinamento

Um conjunto de dados de treinamento de voz inclui gravações de áudio e um arquivo de texto com as transcrições associadas. Cada arquivo de áudio deve conter um enunciado (uma frase ou uma rodada para um sistema de diálogo) e ter menos de 15 segundos.

Em alguns casos, você pode não ter o conjunto de dados certo pronto. É possível testar o treinamento de voz neural personalizado com arquivos de áudio disponíveis, curtos ou longos, com ou sem transcrições.

Esta tabela lista os tipos de dados e como cada um é usado para criar um modelo de voz de Conversão de texto em fala personalizado.

Tipo de dados	Descrição	Quando usar	Processamento extra necessário
Enunciados individuais + transcrição correspondente	Uma coleção (.zip) de arquivos de áudio (.wav) como enunciados individuais. Cada arquivo de áudio deve ter 15 segundos ou menos de duração, junto com uma transcrição formatada (.txt).	Gravações profissionais com transcrições correspondentes	Pronto para treinamento.
Áudio longo + transcrição	Uma coleção (.zip) de arquivos de áudio longos e não segmentados (.wav ou .mp3, com mais de 20 segundos), (no máximo 1000 arquivos de áudio), emparelhada com uma coleção (.zip) de transcrições que contém todas as palavras faladas.	Você tem arquivos de áudio e as transcrições correspondentes, mas eles não estão segmentados em enunciados.	Segmentação (usando a transcrição em lote). Transformação do formato de áudio sempre que necessário.
Somente áudio (versão prévia)	Uma coleção (.zip) de arquivos de áudio (.wav ou .mp3, no máximo 1000 arquivos de áudio) sem transcrição.	Você tem apenas arquivos de áudio disponíveis, sem transcrições.	Segmentação + geração de transcrição (usando a transcrição em lote). Transformação do formato de áudio sempre que necessário.

Os arquivos devem ser agrupados por tipo em um conjunto de dados e carregados como um arquivo zip. Cada conjunto de dados só pode conter um tipo de dados.

Observação

O número máximo de conjuntos de dados que podem ser importados por assinatura é de 500 arquivos zip para usuários de assinatura standard (S0).

Enunciados individuais + transcrição correspondente

Você pode preparar gravações de enunciados individuais e a transcrição correspondente de duas maneiras. Escreva um script e faça o talento de voz ler ou use áudio publicamente disponível e o transcreva para texto. No último caso, edite os erros de fluência dos arquivos de áudio, como "um" e outros sons de preenchimento, gagueira, palavras murmuradas ou pronunciamentos incorretos.

Para produzir um bom modelo de voz, faça as gravações em uma sala silenciosa com um microfone de alta qualidade. Volume consistente, velocidade de fala, densidade de fala e maneirismos expressivos de fala são essenciais.

Para obter exemplos de formato de dados, consulte o conjunto de treinamento de exemplo no GitHub. O conjunto de treinamento de amostra inclui o script de amostra e os áudios associados.

Dados de áudio para enunciados individuais + transcrição correspondente

Cada arquivo de áudio deve conter um enunciado (uma frase ou uma rodada em um sistema de diálogo) e menos de 15 segundos. Todos os arquivos devem estar no mesmo idioma. Não há suporte para vozes de Conversão de texto em fala personalizadas multilíngue, exceto por chinês-inglês bilíngue. Cada arquivo de áudio precisa ter um nome de arquivo exclusivo com a extensão de nome de arquivo .wav.

Siga estas diretrizes ao preparar o áudio.

Propriedade	Valor
Formato de arquivo	RIFF (.wav), agrupado em um arquivo .zip
Nome do arquivo	Caracteres de nome de arquivo compatíveis com o sistema operacional Windows, com a extensão .wav. Os caracteres `\ / : * ? " < > \\|` não são permitidos. Não pode iniciar nem terminar com um espaço e não pode começar com um ponto. Não é permitido nome de arquivo duplicado.
Taxa de amostragem	Para criar uma voz neural personalizada são necessários 24.000 Hz.
Formato de exemplo	PCM, pelo menos 16 bits
Comprimento do áudio	Menos de 15 segundos
Formato de arquivo	.zip
Tamanho máximo de arquivo	2\.048 MB

Observação

A taxa de amostragem padrão para uma voz neural personalizada é de 24.000 Hz. Arquivos de áudio com uma taxa de amostragem inferior a 16.000 Hz serão rejeitados. Se um arquivo .zip contiver arquivos .wav com taxas de amostragem diferentes, apenas aquelas iguais ou superiores a 16.000 Hz serão importadas. Seus arquivos de áudio com uma taxa de amostragem superior a 16.000 Hz e inferior a 24.000 Hz serão amostrados para 24.000 Hz para treinar uma sintetização de voz. É recomendável usar uma taxa de amostragem de 24.000 Hz para seus dados de treinamento.

Dados de transcrição para enunciados individuais + transcrição correspondente

O arquivo de transcrição é um arquivo de texto sem formatação. Use estas diretrizes para preparar suas transcrições.

Propriedade	Valor
Formato de arquivo	Texto sem formatação (.txt)
Formato de codificação	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE ou UTF-16-BE. Para zh-CN, não há suporte para codificação ANSI e ASCII.
Nº de enunciados por linha	Um – Cada linha do arquivo de transcrição deve conter o nome de um dos arquivos de áudio, seguido pela transcrição correspondente. Você deve usar uma guia (\t) para separar o nome do arquivo e a transcrição.
Tamanho máximo do arquivo	2\.048 MB

Confira este exemplo de como as transcrições são organizadas enunciado por enunciado em um arquivo .txt:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

É importante que as transcrições sejam 100% precisas do áudio correspondente. Erros nas transcrições resultarão em perda de qualidade durante o treinamento.

Áudio longo + transcrição (versão prévia)

Observação

Para Áudio longo + transcrição (versão prévia), há suporte apenas para estes idiomas: chinês (mandarim, simplificado), inglês (Índia), inglês (Reino Unido), inglês (Estados Unidos), francês (França), alemão (Alemanha), italiano (Itália), japonês (Japão), português (Brasil) e espanhol (México).

Em alguns casos, você pode não ter um áudio segmentado disponível. O Speech Studio pode ajudá-lo a segmentar arquivos de áudio longos e criar transcrições. O serviço de segmentação de áudio longo usa o recurso da API de Transcrição em Lote da conversão de fala em texto.

Durante o processamento da segmentação, os arquivos de áudio e as transcrições também são enviados para o serviço de fala personalizada para refinar o modelo de reconhecimento, de maneira que a precisão seja aprimorada para seus dados. Nenhum dado é retido durante esse processo. Depois que a segmentação for concluída, somente os enunciados segmentados e suas transcrições de mapeamento serão armazenados para download e treinamento.

Observação

Esse serviço será cobrado com o uso de sua assinatura de conversão de fala em texto. O serviço de segmentação de áudio longo só tem suporte com recursos de Fala padrão (S0).

Dados de áudio para áudio longo + transcrição

Siga estas diretrizes ao preparar o áudio para segmentação.

Propriedade	Valor
Formato de arquivo	RIFF (.wav) ou .mp3, agrupado em um arquivo .zip
Nome do arquivo	Caracteres de nome de arquivo compatíveis com o sistema operacional Windows, com a extensão .wav. Os caracteres `\ / : * ? " < > \\|` não são permitidos. Não pode iniciar nem terminar com um espaço e não pode começar com um ponto. Não é permitido nome de arquivo duplicado.
Taxa de amostragem	Para criar uma voz neural personalizada são necessários 24.000 Hz.
Formato de exemplo	RIFF (.wav): PCM, de pelo menos 16 bits. mp3: de pelo menos 256 KBps de taxa de bits.
Comprimento do áudio	Mais de 20 segundos
Formato de arquivo	.zip
Tamanho máximo de arquivo	2048 MB, no máximo 1000 arquivos de áudio incluídos

Observação

A taxa de amostragem padrão para uma voz neural personalizada é de 24.000 Hz. Arquivos de áudio com uma taxa de amostragem inferior a 16.000 Hz serão rejeitados. Seus arquivos de áudio com uma taxa de amostragem superior a 16.000 Hz e inferior a 24.000 Hz serão amostrados para 24.000 Hz para treinar uma sintetização de voz. É recomendável usar uma taxa de amostragem de 24.000 Hz para seus dados de treinamento.

Todos os arquivos de áudio devem ser agrupados em um arquivo zip. Não há problema em colocar arquivos .wav e arquivos .mp3 no mesmo arquivo zip. Por exemplo, você pode carregar um arquivo de áudio de 45 segundos chamado ''kingstory.wav'' e um arquivo de áudio longo de 200 segundos chamado ''queenstory.mp3'' no mesmo arquivo zip. Todos os arquivos .mp3 serão transformados no formato .wav após o processamento.

Dados de transcrição para áudio longo + transcrição

As transcrições devem ser preparadas de acordo com as especificações listadas nesta tabela. Cada arquivo de áudio deve corresponder a uma transcrição.

Propriedade	Valor
Formato de arquivo	Texto sem formatação (.txt), agrupado em um .zip
Nome do arquivo	Usar o mesmo nome que o arquivo de áudio correspondente
Formato de codificação	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE ou UTF-16-BE. Para zh-CN, não há suporte para codificação ANSI e ASCII.
Nº de enunciados por linha	Sem limite
Tamanho máximo do arquivo	2\.048 MB

Todos os arquivos de transcrições desse tipo de dados devem ser agrupados em um arquivo zip. Por exemplo, você deve carregar um arquivo de áudio de 45 segundos chamado "kingstory.wav" e um arquivo de áudio longo de 200 segundos chamado "queenstory.mp3" no mesmo arquivo zip. Você precisa carregar outro arquivo zip contendo as duas transcrições correspondentes, uma chamada "kingstory.txt" e outra chamada "queenstory.txt". Em cada arquivo de texto sem formatação, você fornece a transcrição correta completa para o áudio correspondente.

Depois que o conjunto de dados for carregado com êxito, ajudaremos a segmentar o arquivo de áudio em enunciados com base na transcrição fornecida. Você pode verificar os enunciados segmentados e as transcrições correspondentes baixando o conjunto de dados. IDs exclusivas são atribuídas aos enunciados segmentados automaticamente. É importante garantir que as transcrições fornecidas são 100% precisas. Os erros nas transcrições podem reduzir a precisão durante a segmentação de áudio e apresentar ainda mais perda de qualidade na fase de treinamento que vem depois.

Somente áudio (versão prévia)

Observação

Para Somente áudio (versão prévia), há suporte apenas para estes idiomas: chinês (mandarim, simplificado), inglês (Índia), inglês (Reino Unido), inglês (Estados Unidos), francês (França), alemão (Alemanha), italiano (Itália), japonês (Japão), português (Brasil) e espanhol (México).

Se você não tiver transcrições das suas gravações de áudio, use a opção Somente áudio para carregar seus dados. Nosso sistema pode ajudá-lo a segmentar e transcrever seus arquivos de áudio. Lembre-se que esse serviço é cobrado com o uso de sua assinatura de conversão de fala em texto.

Siga estas diretrizes ao preparar o áudio.

Observação

O serviço de segmentação de áudio longo aproveitará o recurso de transcrição em lote de conversão de fala em texto, que é compatível somente com usuários da assinatura Standard (S0).

Propriedade	Valor
Formato de arquivo	RIFF (.wav) ou .mp3, agrupado em um arquivo .zip
Nome do arquivo	Caracteres de nome de arquivo compatíveis com o sistema operacional Windows, com a extensão .wav. Os caracteres `\ / : * ? " < > \\|` não são permitidos. Não pode iniciar nem terminar com um espaço e não pode começar com um ponto. Não é permitido nome de arquivo duplicado.
Taxa de amostragem	Para criar uma voz neural personalizada são necessários 24.000 Hz.
Formato de exemplo	WAV(.wav): PCM, pelo menos 16 bits mp3: de pelo menos 256 KBps de taxa de bits.
Comprimento do áudio	Sem limite
Formato de arquivo	.zip
Tamanho máximo de arquivo	2048 MB, no máximo 1000 arquivos de áudio incluídos

Observação

A taxa de amostragem padrão para uma voz neural personalizada é de 24.000 Hz. Seus arquivos de áudio com uma taxa de amostragem superior a 16.000 Hz e inferior a 24.000 Hz serão amostrados para 24.000 Hz para treinar uma sintetização de voz. É recomendável usar uma taxa de amostragem de 24.000 Hz para seus dados de treinamento.

Todos os arquivos de áudio devem ser agrupados em um arquivo zip. Depois que o conjunto de dados é carregado com êxito, o serviço de Fala ajuda a segmentar o arquivo de áudio em enunciados com base em nosso serviço de transcrição de fala em lote. IDs exclusivas são atribuídas aos enunciados segmentados automaticamente. As transcrições correspondentes são geradas por meio do reconhecimento de fala. Todos os arquivos .mp3 serão transformados no formato .wav após o processamento. Você pode verificar os enunciados segmentados e as transcrições correspondentes baixando o conjunto de dados.

Dados de treinamento para voz neural personalizada

Tipos de dados de treinamento

Enunciados individuais + transcrição correspondente

Dados de áudio para enunciados individuais + transcrição correspondente

Dados de transcrição para enunciados individuais + transcrição correspondente

Áudio longo + transcrição (versão prévia)

Dados de áudio para áudio longo + transcrição

Dados de transcrição para áudio longo + transcrição

Somente áudio (versão prévia)

Próximas etapas

Recursos adicionais