Dados de treinamento para voz neural personalizada

Artigo
01/22/2024

Quando você estiver pronto para criar uma voz de texto para fala personalizada para seu aplicativo, a primeira etapa é reunir gravações de áudio e scripts associados para começar a treinar o modelo de voz. O serviço de Fala usa esses dados para criar uma voz exclusiva sintonizada para corresponder à voz nas gravações. Depois de treinar a voz, você pode começar a sintetizar a fala em seus aplicativos.

Gorjeta

Para criar uma voz para uso de produção, recomendamos que você use um estúdio de gravação profissional e talento de voz. Para obter mais informações, consulte Gravar amostras de voz para criar uma voz neural personalizada.

Tipos de dados de treinamento

Um conjunto de dados de treinamento de voz inclui gravações de áudio e um arquivo de texto com as transcrições associadas. Cada arquivo de áudio deve conter um único enunciado (uma única frase ou uma única volta para um sistema de diálogo) e ter menos de 15 segundos de duração.

Em alguns casos, você pode não ter o conjunto de dados correto pronto. Você pode testar o treinamento de voz neural personalizado com arquivos de áudio disponíveis, curtos ou longos, com ou sem transcrições.

Esta tabela lista os tipos de dados e como cada um é usado para criar um modelo de voz de texto para fala personalizado.

Tipo de dados	Description	Quando utilizar o	Processamento extra necessário
Enunciados individuais + transcrição correspondente	Uma coleção (.zip) de arquivos de áudio (.wav) como enunciados individuais. Cada ficheiro de áudio deve ter 15 segundos ou menos de comprimento, emparelhado com uma transcrição formatada (.txt).	Gravações profissionais com transcrições correspondentes	Pronto para a formação.
Áudio longo + transcrição	Uma coleção (.zip) de arquivos de áudio longos e não segmentados (.wav ou .mp3, com mais de 20 segundos, no máximo 1000 arquivos de áudio), emparelhados com uma coleção (.zip) de transcrições que contém todas as palavras faladas.	Você tem arquivos de áudio e transcrições correspondentes, mas eles não são segmentados em enunciados.	Segmentação (usando transcrição em lote). Transformação de formato de áudio sempre que necessário.
Apenas áudio (Pré-visualização)	Uma coleção (.zip) de arquivos de áudio (.wav ou .mp3, no máximo 1000 arquivos de áudio) sem uma transcrição.	Você só tem arquivos de áudio disponíveis, sem transcrições.	Segmentação + geração de transcrição (usando transcrição em lote). Transformação de formato de áudio sempre que necessário.

Os arquivos devem ser agrupados por tipo em um conjunto de dados e carregados como um arquivo zip. Cada conjunto de dados só pode conter um único tipo de dados.

Nota

O número máximo de conjuntos de dados que podem ser importados por assinatura é de 500 arquivos zip para usuários de assinatura padrão (S0).

Enunciados individuais + transcrição correspondente

Você pode preparar gravações de enunciados individuais e a transcrição correspondente de duas maneiras. Escreva um guião e peça-o lido por um talento de voz ou use áudio disponível publicamente e transcreva-o para texto. Se você fizer o último, edite disfluências dos arquivos de áudio, como "um" e outros sons de preenchimento, gagueiras, palavras murmuradas ou pronúncias incorretas.

Para produzir um bom modelo de voz, crie as gravações em uma sala silenciosa com um microfone de alta qualidade. O volume consistente, a velocidade de fala, o tom de fala e os maneirismos expressivos da fala são essenciais.

Para obter exemplos de formato de dados, consulte o conjunto de treinamento de exemplo no GitHub. O conjunto de treinamento de exemplo inclui o script de exemplo e o áudio associado.

Dados de áudio para enunciados individuais + transcrição correspondente

Cada arquivo de áudio deve conter um único enunciado (uma única frase ou uma única volta de um sistema de diálogo), com menos de 15 segundos de duração. Todos os arquivos devem estar no mesmo idioma falado. Não há suporte para vozes de texto para fala personalizadas em vários idiomas, exceto para o bilíngue chinês-inglês. Cada arquivo de áudio deve ter um nome de arquivo exclusivo com a extensão de nome de arquivo .wav.

Siga estas diretrizes ao preparar o áudio.

Property	valor
File format	RIFF (.wav), agrupado em um arquivo .zip
Nome de ficheiro	Caracteres de nome de arquivo suportados pelo sistema operacional Windows, com extensão .wav. Os caracteres `\ / : * ? " < > \\|` não são permitidos. Não pode começar ou terminar com um espaço e não pode começar com um ponto. Não são permitidos nomes de ficheiros duplicados.
Taxa de amostragem	Quando você cria uma voz neural personalizada, 24.000 Hz é necessário.
Sample format (Formato de exemplo)	PCM, pelo menos 16 bits
Duração do áudio	Menos de 15 segundos
Formato de arquivo	.zip
Tamanho máximo do arquivo	2048 MB

Nota

A taxa de amostragem padrão para uma voz neural personalizada é de 24.000 Hz. Os ficheiros de áudio com uma taxa de amostragem inferior a 16.000 Hz serão rejeitados. Se um arquivo .zip contiver .wav arquivos com taxas de amostragem diferentes, somente aqueles iguais ou superiores a 16.000 Hz serão importados. Seus arquivos de áudio com uma taxa de amostragem superior a 16.000 Hz e inferior a 24.000 Hz serão amostrados para 24.000 Hz para treinar uma voz neural. É recomendável usar uma taxa de amostragem de 24.000 Hz para seus dados de treinamento.

Dados de transcrição para enunciados individuais + transcrição correspondente

O arquivo de transcrição é um arquivo de texto simples. Use estas diretrizes para preparar suas transcrições.

Property	valor
File format	Texto simples (.txt)
Formato de codificação	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, ou UTF-16-BE. Para zh-CN, a codificação ANSI e ASCII não é suportada.
N.º de expressões por linha	Um - Cada linha do arquivo de transcrição deve conter o nome de um dos arquivos de áudio, seguido da transcrição correspondente. Você deve usar uma guia (\t) para separar o nome do arquivo e a transcrição.
Tamanho máximo do ficheiro	2048 MB

Aqui está um exemplo de como as transcrições são organizadas enunciado por enunciado em um arquivo .txt:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

É importante que as transcrições sejam 100% precisas do áudio correspondente. Erros nas transcrições introduzem perda de qualidade durante o treinamento.

Áudio longo + transcrição (Pré-visualização)

Nota

Para áudio longo + transcrição (Pré-visualização), apenas estes idiomas são suportados: chinês (mandarim, simplificado), inglês (Índia), inglês (Reino Unido), inglês (Estados Unidos), francês (França), alemão (Alemanha), italiano (Itália), japonês (Japão), português (Brasil) e espanhol (México).

Em alguns casos, você pode não ter áudio segmentado disponível. O Speech Studio pode ajudá-lo a segmentar arquivos de áudio longos e criar transcrições. O serviço de segmentação de áudio longo usa o recurso Batch Transcription API de fala para texto.

Durante o processamento da segmentação, seus arquivos de áudio e as transcrições também são enviados para o serviço de fala personalizado para refinar o modelo de reconhecimento para que a precisão possa ser melhorada para seus dados. Nenhum dado é retido durante este processo. Depois que a segmentação for feita, apenas os enunciados segmentados e suas transcrições de mapeamento serão armazenados para seu download e treinamento.

Nota

Este serviço será cobrado em relação ao uso da sua assinatura de fala para texto. O serviço de segmentação de áudio longo só é suportado com recursos de Fala padrão (S0).

Dados de áudio para áudio longo + transcrição

Siga estas diretrizes ao preparar o áudio para segmentação.

Property	valor
File format	RIFF (.wav) ou .mp3, agrupados em um arquivo .zip
Nome de ficheiro	Caracteres de nome de arquivo suportados pelo sistema operacional Windows, com extensão .wav. Os caracteres `\ / : * ? " < > \\|` não são permitidos. Não pode começar ou terminar com um espaço e não pode começar com um ponto. Não são permitidos nomes de ficheiros duplicados.
Taxa de amostragem	Quando você cria uma voz neural personalizada, 24.000 Hz é necessário.
Sample format (Formato de exemplo)	RIFF(.wav): PCM, pelo menos 16 bits. mp3: Taxa de bits de pelo menos 256 KBps.
Duração do áudio	Mais de 20 segundos
Formato de arquivo	.zip
Tamanho máximo do arquivo	2048 MB, no máximo 1000 ficheiros de áudio incluídos

Nota

A taxa de amostragem padrão para uma voz neural personalizada é de 24.000 Hz. Os ficheiros de áudio com uma taxa de amostragem inferior a 16.000 Hz serão rejeitados. Seus arquivos de áudio com uma taxa de amostragem superior a 16.000 Hz e inferior a 24.000 Hz serão amostrados para 24.000 Hz para treinar uma voz neural. É recomendável usar uma taxa de amostragem de 24.000 Hz para seus dados de treinamento.

Todos os arquivos de áudio devem ser agrupados em um arquivo zip. Não há problema em colocar arquivos .wav e .mp3 arquivos no mesmo arquivo zip. Por exemplo, você pode carregar um arquivo de áudio de 45 segundos chamado 'kingstory.wav' e um arquivo de áudio de 200 segundos chamado 'queenstory.mp3' no mesmo arquivo zip. Todos os arquivos .mp3 serão transformados no formato .wav após o processamento.

Dados de transcrição para áudio longo + transcrição

As transcrições devem ser preparadas de acordo com as especificações listadas nesta tabela. Cada arquivo de áudio deve ser correspondido com uma transcrição.

Property	valor
File format	Texto simples (.txt), agrupado em uma .zip
Nome de ficheiro	Use o mesmo nome que o arquivo de áudio correspondente
Formato de codificação	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, ou UTF-16-BE. Para zh-CN, a codificação ANSI e ASCII não é suportada.
N.º de expressões por linha	Sem limite
Tamanho máximo do ficheiro	2048 MB

Todos os arquivos de transcrição neste tipo de dados devem ser agrupados em um arquivo zip. Por exemplo, você pode carregar um arquivo de áudio de 45 segundos chamado 'kingstory.wav' e um arquivo de áudio de 200 segundos chamado 'queenstory.mp3' no mesmo arquivo zip. Você precisa carregar outro arquivo zip contendo as duas transcrições correspondentes - uma chamada 'kingstory.txt' e outra chamada 'queenstory.txt'. Dentro de cada arquivo de texto simples, você fornece a transcrição correta completa para o áudio correspondente.

Depois que seu conjunto de dados for carregado com sucesso, ajudaremos você a segmentar o arquivo de áudio em enunciados com base na transcrição fornecida. Você pode verificar os enunciados segmentados e as transcrições correspondentes baixando o conjunto de dados. IDs exclusivos são atribuídos automaticamente aos enunciados segmentados. É importante que se certifique de que as transcrições fornecidas são 100% precisas. Erros nas transcrições podem reduzir a precisão durante a segmentação de áudio e introduzir ainda mais perda de qualidade na fase de treinamento que vem depois.

Apenas áudio (Pré-visualização)

Nota

Apenas para áudio (Pré-visualização), apenas estes idiomas são suportados: chinês (mandarim, simplificado), inglês (Índia), inglês (Reino Unido), inglês (Estados Unidos), francês (França), alemão (Alemanha), italiano (Itália), japonês (Japão), português (Brasil) e espanhol (México).

Se não tiver transcrições para as suas gravações de áudio, utilize a opção Apenas áudio para carregar os seus dados. Nosso sistema pode ajudá-lo a segmentar e transcrever seus arquivos de áudio. Lembre-se de que esse serviço é cobrado em relação ao uso da sua assinatura de fala para texto.

Siga estas diretrizes ao preparar o áudio.

Nota

O serviço de segmentação de áudio longo aproveitará o recurso de transcrição em lote de fala para texto, que suporta apenas usuários de assinatura padrão (S0).

Property	valor
File format	RIFF (.wav) ou .mp3, agrupados em um arquivo .zip
Nome de ficheiro	Caracteres de nome de arquivo suportados pelo sistema operacional Windows, com extensão .wav. Os caracteres `\ / : * ? " < > \\|` não são permitidos. Não pode começar ou terminar com um espaço e não pode começar com um ponto. Não são permitidos nomes de ficheiros duplicados.
Taxa de amostragem	Quando você cria uma voz neural personalizada, 24.000 Hz é necessário.
Sample format (Formato de exemplo)	RIFF(.wav): PCM, pelo menos 16 bits mp3: Taxa de bits de pelo menos 256 KBps.
Duração do áudio	Sem limite
Formato de arquivo	.zip
Tamanho máximo do arquivo	2048 MB, no máximo 1000 ficheiros de áudio incluídos

Nota

A taxa de amostragem padrão para uma voz neural personalizada é de 24.000 Hz. Seus arquivos de áudio com uma taxa de amostragem superior a 16.000 Hz e inferior a 24.000 Hz serão amostrados para 24.000 Hz para treinar uma voz neural. É recomendável usar uma taxa de amostragem de 24.000 Hz para seus dados de treinamento.

Todos os arquivos de áudio devem ser agrupados em um arquivo zip. Depois que seu conjunto de dados é carregado com sucesso, o serviço de fala ajuda você a segmentar o arquivo de áudio em expressões com base em nosso serviço de transcrição de lote de fala. IDs exclusivos são atribuídos automaticamente aos enunciados segmentados. As transcrições correspondentes são geradas através do reconhecimento de fala. Todos os arquivos .mp3 serão transformados no formato .wav após o processamento. Você pode verificar os enunciados segmentados e as transcrições correspondentes baixando o conjunto de dados.

Dados de treinamento para voz neural personalizada

Tipos de dados de treinamento

Enunciados individuais + transcrição correspondente

Dados de áudio para enunciados individuais + transcrição correspondente

Dados de transcrição para enunciados individuais + transcrição correspondente

Áudio longo + transcrição (Pré-visualização)

Dados de áudio para áudio longo + transcrição

Dados de transcrição para áudio longo + transcrição

Apenas áudio (Pré-visualização)

Próximos passos

Recursos adicionais