Migrar de uma voz personalizada para uma sintetização de voz personalizada

Artigo
03/09/2024

Importante

A camada de treinamento não neural padrão de voz personalizada foi desativada em 29 de fevereiro de 2024. Você pode ter usado uma voz personalizada não neural com seu recurso de fala antes de 29 de fevereiro de 2024. Agora você só pode usar a voz neural personalizada com os recursos de Fala. Se você tiver uma voz personalizada não neural, deverá migrar para a voz neural personalizada.

A Sintetização de Voz Personalizada permite criar modelos de voz de qualidade superior enquanto exige menos dados. É possível desenvolver vozes mais realísticas, naturais e de conversa. Os clientes e usuários finais se beneficiam da mais recente tecnologia de conversão de texto em fala, de uma maneira responsável.

Voz personalizada	Sintetização de Voz Personalizada
O método padrão ou "tradicional" de voz personalizada divide a linguagem falada em trechos fonéticos que podem ser remixados e combinados usando programação clássica ou métodos estatísticos.	A voz neural personalizada sintetiza a fala usando redes neurais profundas que "aprenderam" a maneira como a fonética é combinada na fala humana natural, em vez de usar a programação clássica ou métodos estatísticos.
A voz personalizada¹ requer um grande volume de dados de voz para produzir um modelo de voz mais parecido com o humano. Com menos linhas registradas, um modelo de voz personalizado padrão tende a soar, obviamente, mais robótico.	O recurso de voz neural personalizada permite que criar uma voz exclusiva da marca em vários idiomas e estilos usando um pequeno conjunto de gravações.

¹ Ao criar um modelo de voz personalizada, o número máximo de arquivos de dados que podem ser importados por assinatura é dez arquivos .zip para usuários da assinatura gratuita (F0) e 500 para usuários da assinatura Standard (S0).

Ação requerida

Antes de migrar para a sintetização de voz personalizada, seu aplicativo deve ser aceito. Observe que o acesso ao serviço de sintetização de voz personalizada está sujeito ao exclusivo critério da Microsoft com base em nossos critérios de qualificação. Você deve confirmar o uso sintetização de voz personalizada em alinhamento com nossos Princípios de IA responsável e com o código de conduta.

Dica

Mesmo sem uma conta do Azure, você pode ouvir exemplos de voz no Speech Studio e determinar a voz certa para suas necessidades de negócios.

Saiba mais sobre nossa política de limite de acesso e, em seguida, aplique-a aqui.
Depois que o aplicativo é aprovado, você tem acesso ao recurso de treinamento "neural". Conecte-se ao Speech Studio usando a mesma assinatura do Azure fornecida em seu aplicativo.
Para treinar e implantar um modelo de voz personalizada, crie um perfil de talento de voz. O perfil requer um arquivo de áudio gravado pelo talento de voz consentindo o uso dos dados de fala para treinar um modelo de voz personalizada.
Atualize o código em seus aplicativos se você tiver criado um ponto de extremidade com um novo modelo.

Detalhes da voz personalizada (preterida)

Leia as seções a seguir para obter detalhes sobre a voz personalizada.

Suporte ao idioma

A voz personalizada dá suporte aos seguintes idiomas (localidades).

Idioma	Locale
Chinês (mandarim, simplificado)	`zh-CN`
Chinês (mandarim, simplificado), inglês bilíngue	`zh-CN` bilíngue
Inglês (Índia)	`en-IN`
Inglês (Reino Unido)	`en-GB`
Inglês (Estados Unidos)	`en-US`
Francês (França)	`fr-FR`
Alemão (Alemanha)	`de-DE`
Italiano (Itália)	`it-IT`
Português (Brasil)	`pt-BR`
Espanhol (México)	`es-MX`

Suporte regional

Caso tenha criado uma fonte de voz personalizada, use o ponto de extremidade criado. Também é possível usar os pontos de extremidade descritos nessa seção, substituindo o {deploymentId} pela ID de implantação do seu modelo de voz.

Região	Ponto de extremidade
Leste da Austrália	`https://australiaeast.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Brazil South	`https://brazilsouth.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Canadá Central	`https://canadacentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Centro dos EUA	`https://centralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Leste da Ásia	`https://eastasia.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Leste dos EUA	`https://eastus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Leste dos EUA 2	`https://eastus2.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
França Central	`https://francecentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Centro da Índia	`https://centralindia.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Leste do Japão	`https://japaneast.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Oeste do Japão	`https://japanwest.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Coreia Central	`https://koreacentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Centro-Norte dos EUA	`https://northcentralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Norte da Europa	`https://northeurope.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Centro-Sul dos Estados Unidos	`https://southcentralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Sudeste Asiático	`https://southeastasia.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Sul do Reino Unido	`https://uksouth.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Europa Ocidental	`https://westeurope.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Centro-Oeste dos EUA	`https://westcentralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Oeste dos EUA	`https://westus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Oeste dos EUA 2	`https://westus2.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`

Próximas etapas

Experimentar a sintetização de voz personalizada