Síntese de fala com a ferramenta de criação de conteúdo de áudio

Artigo
01/18/2024

Você pode usar a ferramenta de criação de conteúdo de áudio no Speech Studio para síntese de texto para fala sem escrever nenhum código. Você pode usar o áudio de saída como está, ou como um ponto de partida para personalização adicional.

Crie conteúdo de áudio altamente natural para vários cenários, como audiolivros, transmissões de notícias, narrações em vídeo e bots de bate-papo. Com a Criação de conteúdo de áudio, você pode ajustar com eficiência as vozes de texto em fala e criar experiências de áudio personalizadas.

A ferramenta é baseada em Speech Synthesis Markup Language (SSML). Ele permite ajustar os atributos de saída de texto para fala em tempo real ou síntese em lote, como caracteres de voz, estilos de voz, velocidade de fala, pronúncia e prosódia.

Abordagem sem código: Você pode usar a ferramenta de criação de conteúdo de áudio para síntese de texto para fala sem escrever nenhum código. O áudio de saída pode ser o resultado final desejado. Por exemplo, você pode usar o áudio de saída para um podcast ou uma narração de vídeo.
Amigável para desenvolvedores: Você pode ouvir o áudio de saída e ajustar o SSML para melhorar a síntese de fala. Em seguida, você pode usar o SDK de fala ou a CLI de fala para integrar o SSML em seus aplicativos. Por exemplo, você pode usar o SSML para criar um bot de chat.

Você tem fácil acesso a um amplo portfólio de idiomas e vozes. Essas vozes incluem vozes neurais pré-construídas de última geração e sua voz neural personalizada, se você construiu uma.

Para saber mais, veja o vídeo tutorial de criação de conteúdo de áudio no YouTube.

Começar

A ferramenta de criação de conteúdo de áudio no Speech Studio é de acesso gratuito, mas você paga pelo uso do serviço de fala. Para trabalhar com a ferramenta, você precisa entrar com uma conta do Azure e criar um recurso de Fala. Para cada conta do Azure, você tem cotas mensais de fala livres, que incluem 0,5 milhão de caracteres para vozes neurais pré-criadas (referidas como Neural na página de preços). Normalmente, o valor mensal alocado é suficiente para uma pequena equipe de conteúdo de cerca de 3-5 pessoas.

As próximas seções abordam como criar uma conta do Azure e obter um recurso de Fala.

Etapa 1: Criar uma conta do Azure

Para trabalhar com a Criação de Conteúdo de Áudio, você precisa de uma conta da Microsoft e uma conta do Azure.

O portal do Azure é o local centralizado para você gerenciar sua conta do Azure. Você pode criar o recurso de fala, gerenciar o acesso ao produto e monitorar tudo, desde aplicativos Web simples até implantações complexas na nuvem.

Etapa 2: Criar um recurso de fala

Depois de se inscrever na conta do Azure, você precisa criar um recurso de Fala em sua conta do Azure para acessar os serviços de Fala. Crie um recurso de Fala no portal do Azure. Para obter mais informações, consulte Criar um recurso multisserviço.

Leva alguns minutos para implantar seu novo recurso de fala. Após a conclusão da implantação, você pode começar a usar a ferramenta de criação de conteúdo de áudio.

Nota

Se você planeja usar vozes neurais, certifique-se de criar seu recurso em uma região que ofereça suporte a vozes neurais.

Depois de obter a conta do Azure e o recurso de Fala, entre no Speech Studio e selecione Criação de Conteúdo de Áudio.
Selecione a subscrição do Azure e o recurso de Voz com o qual pretende trabalhar e, em seguida, selecione Utilizar recurso.

Da próxima vez que iniciar sessão na Criação de Conteúdo de Áudio, estará diretamente ligado aos ficheiros de trabalho de áudio no recurso de Voz atual. Você pode verificar os detalhes e o status da sua assinatura do Azure no portal do Azure.

Se você não tiver um recurso de Fala disponível e for o proprietário ou administrador de uma assinatura do Azure, poderá criar um recurso de Fala no Speech Studio selecionando Criar um novo recurso.

Se tiver uma função de utilizador para uma determinada subscrição do Azure, poderá não ter permissões para criar um novo recurso de Voz. Para obter o acesso, contacte o seu admin.

Para alternar seu recurso de fala a qualquer momento, selecione Configurações na parte superior da página.

Para mudar de diretório, selecione Configurações ou acesse seu perfil.

Use a ferramenta

O diagrama a seguir exibe o processo de ajuste fino das saídas Texto para fala.

Diagram of the sequence of steps for fine-tuning text to speech outputs.

Cada passo no diagrama anterior é descrito aqui:

Escolha o recurso de Fala com o qual deseja trabalhar.
Crie um arquivo de ajuste de áudio usando texto sem formatação ou scripts SSML. Insira ou carregue seu conteúdo na Criação de conteúdo de áudio.
Escolha a voz e o idioma para o conteúdo do script. A Criação de Conteúdo de Áudio inclui todas as vozes pré-construídas de texto para fala. Você pode usar vozes neurais pré-construídas ou uma voz neural personalizada.

Nota

O acesso fechado está disponível para voz neural personalizada, o que permite criar vozes de alta definição semelhantes à fala com som natural. Para obter mais informações, consulte Processo de encerramento.
Selecione o conteúdo que deseja visualizar e, em seguida, selecione Reproduzir (ícone de triângulo) para visualizar a saída de síntese padrão.

Se você fizer alterações no texto, selecione o ícone Parar e, em seguida, selecione Reproduzir novamente para regenerar o áudio com scripts alterados.

Melhore a saída ajustando pronúncia, quebra, tom, taxa, entonação, estilo de voz e muito mais. Para obter uma lista completa de opções, consulte Speech Synthesis Markup Language.

Para obter mais informações sobre como ajustar a saída de fala, consulte o vídeo Como converter texto em fala usando vozes de IA do Microsoft Azure.
Guarde e exporte o seu áudio sintonizado.

Quando você salva a faixa de ajuste no sistema, você pode continuar a trabalhar e iterar na saída. Quando estiver satisfeito com a saída, você poderá criar uma tarefa de criação de áudio com o recurso de exportação. Você pode observar o status da tarefa de exportação e baixar a saída para uso com seus aplicativos e produtos.

Criar um arquivo de ajuste de áudio

Você pode inserir seu conteúdo na ferramenta de criação de conteúdo de áudio de duas maneiras:

Opção 1
1. Selecione Novo>arquivo de texto para criar um novo arquivo de ajuste de áudio.
2. Insira ou cole seu conteúdo na janela de edição. O número permitido de caracteres para cada arquivo é de 20.000 ou menos. Se o script contiver mais de 20.000 caracteres, você poderá usar a Opção 2 para dividir automaticamente o conteúdo em vários arquivos.
3. Selecione Guardar.

Opção 2

Selecione Carregar>arquivo de texto para importar um ou mais arquivos de texto. Há suporte para texto sem formatação e SSML.

Se o arquivo de script tiver mais de 20.000 caracteres, divida o conteúdo por parágrafos, caracteres ou expressões regulares.

Quando carregar os seus ficheiros de texto, certifique-se de que cumprem estes requisitos:

Property	Description
File format	Texto simples (.txt)* Texto SSML (.txt)** Os ficheiros zip não são suportados.
Formato de codificação	UTF-8
Nome de ficheiro	Cada arquivo deve ter um nome exclusivo. Não há suporte para arquivos duplicados.
Text length	O limite de caracteres é de 20.000. Se os seus ficheiros excederem o limite, divida-os de acordo com as instruções na ferramenta.
Restrições SSML	Cada arquivo SSML pode conter apenas uma única parte do SSML.

* Exemplo de texto simples:

Welcome to use Audio Content Creation to customize audio output for your products.

** Exemplo de texto SSML:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Exportar áudio sintonizado

Depois de rever a saída de áudio e ficar satisfeito com a sintonia e o ajuste, pode exportar o áudio.

Selecione Exportar para criar uma tarefa de criação de áudio.

Recomendamos Exportar para biblioteca de áudio para armazenar, localizar e pesquisar facilmente a saída de áudio na nuvem. Você pode integrar melhor com seus aplicativos por meio do armazenamento de blobs do Azure. Você também pode baixar o áudio diretamente para o disco local.

Escolha o formato de saída para o áudio sintonizado. Os formatos de áudio suportados e as taxas de amostragem estão listados na tabela a seguir:

Format	Taxa de amostragem de 8 kHz	Taxa de amostragem de 16 kHz	Taxa de amostragem de 24 kHz	Taxa de amostragem de 48 kHz
WAV	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
mp3	N/A	áudio-16khz-128kbitrate-mono-mp3	áudio-24khz-160kbitrate-mono-mp3	áudio-48khz-192kbitrate-mono-mp3

Para exibir o status da tarefa, selecione a guia Lista de tarefas .

Se a tarefa falhar, consulte a página de informações detalhadas para obter um relatório completo.
Quando a tarefa estiver concluída, o áudio estará disponível para download no painel Biblioteca de áudio.
Selecione o arquivo que deseja baixar e Baixar.

Agora você está pronto para usar seu áudio ajustado personalizado em seus aplicativos ou produtos.

Configurar BYOS e acesso público de leitura anônimo para blobs

Se você perder a permissão de acesso ao seu BYOS (Bring Your Own Storage), não poderá visualizar, criar, editar ou excluir arquivos. Para retomar seu acesso, você precisa remover o armazenamento atual e reconfigurar o BYOS no portal do Azure. Para saber mais sobre como configurar o BYOS, consulte Montar o Armazenamento do Azure como um compartilhamento local no Serviço de Aplicativo.

Depois de configurar a permissão BYOS, você precisa configurar o acesso de leitura público anônimo para contêineres e blobs relacionados. Caso contrário, os dados de blob não estarão disponíveis para acesso público e seu arquivo de léxico no blob ficará inacessível. Por padrão, a configuração de acesso público de um contêiner está desabilitada. Para conceder aos usuários anônimos acesso de leitura a um contêiner e seus blobs, primeiro defina Permitir acesso público de Blob como Habilitado para permitir acesso público para a conta de armazenamento e, em seguida, defina o nível de acesso público do contêiner (chamado acc-public-files) (acesso de leitura anônimo somente para blobs). Para saber mais sobre como configurar o acesso de leitura público anônimo, consulte Configurar acesso de leitura público anônimo para contêineres e blobs.

Adicionar ou remover usuários da Criação de Conteúdo de Áudio

Se mais de um usuário quiser usar a Criação de Conteúdo de Áudio, você poderá conceder a eles acesso à assinatura do Azure e ao recurso de Fala. Se você adicionar usuários a uma assinatura do Azure, eles poderão acessar todos os recursos da assinatura do Azure. Mas se você adicionar usuários somente a um recurso de Fala, eles só terão acesso ao recurso de Fala e não a outros recursos sob esta assinatura do Azure. Os usuários com acesso ao recurso de fala podem usar a ferramenta de criação de conteúdo de áudio.

Os usuários aos quais você concede acesso precisam configurar uma conta da Microsoft. Se não tiverem uma conta Microsoft, podem criar uma em apenas alguns minutos. Eles podem usar seu email existente e vinculá-lo a uma conta da Microsoft, ou podem criar e usar um endereço de email do Outlook como uma conta da Microsoft.

Adicionar usuários a um recurso de fala

Para adicionar usuários a um recurso de Fala para que eles possam usar a Criação de Conteúdo de Áudio, faça o seguinte:

No portal do Azure, selecione Todos os serviços.
Em seguida, selecione os serviços de IA do Azure e navegue até seu recurso de Fala específico.

Nota

Você também pode configurar o RBAC do Azure para grupos de recursos inteiros, assinaturas ou grupos de gerenciamento. Faça isso selecionando o nível de escopo desejado e, em seguida, navegando até o item desejado (por exemplo, selecionando Grupos de recursos e, em seguida, clicando para o grupo de recursos desejado).
Selecione Controle de acesso (IAM) no painel de navegação esquerdo.
Selecione Adicionar ->Adicionar atribuição de função.
Na guia Função na próxima tela, selecione uma função que deseja adicionar (neste caso, Proprietário).
Na guia Membros, digite o endereço de e-mail de um usuário e selecione o nome do usuário no diretório. O endereço de email deve estar vinculado a uma conta da Microsoft confiável pelo Microsoft Entra ID. Os usuários podem se inscrever facilmente para uma conta da Microsoft usando seu endereço de email pessoal.
No separador Rever + atribuir, selecione Rever + atribuir para atribuir a função.

Veja o que acontece a seguir:

Um convite por e-mail é enviado automaticamente aos usuários. Eles podem aceitá-lo selecionando Aceitar convite>Aceitar para ingressar no Azure em seus emails. Em seguida, eles são redirecionados para o portal do Azure. Eles não precisam tomar mais medidas no portal do Azure. Após alguns momentos, os usuários recebem a função no escopo do recurso Fala, que lhes dá acesso a esse recurso de Fala. Se os usuários não receberem o e-mail de convite, você poderá pesquisar a conta deles em Atribuições de função e entrar no perfil deles. Procure Convite de identidade>aceito e selecione (gerenciar) para reenviar o convite por email. Você também pode copiar e enviar o link do convite para eles.

Os usuários agora visitam ou atualizam a página do produto Criação de Conteúdo de Áudio e entram com sua conta da Microsoft. Eles selecionam o bloco de criação de conteúdo de áudio entre todos os produtos de fala. Eles escolhem o recurso Fala na janela pop-up ou nas configurações no canto superior direito.

Se não conseguirem encontrar o recurso de Fala disponível, podem verificar se estão no diretório correto. Para fazer isso, eles selecionam o perfil da conta no canto superior direito e, em seguida, selecionam Alternar ao lado do diretório atual. Se houver mais de um diretório disponível, isso significa que eles têm acesso a vários diretórios. Eles podem alternar para diretórios diferentes e ir para Configurações para ver se o recurso de fala certo está disponível.

Os usuários que estão no mesmo recurso de fala veem o trabalho uns dos outros na ferramenta de criação de conteúdo de áudio. Se você quiser que cada usuário individual tenha um local de trabalho exclusivo e privado na Criação de conteúdo de áudio, crie um novo recurso de fala para cada usuário e dê a cada usuário o acesso exclusivo ao recurso de fala.

Remover usuários de um recurso de fala

Procure serviços de IA do Azure no portal do Azure, selecione o recurso de Fala do qual você deseja remover usuários.
Selecione Controle de acesso (IAM) e, em seguida, selecione a guia Atribuições de função para exibir todas as atribuições de função para esse recurso de fala.
Selecione os utilizadores que pretende remover, selecione Remover e, em seguida, selecione OK.

Permitir que os usuários concedam acesso a outras pessoas

Se quiser permitir que um usuário conceda acesso a outros usuários, você precisará atribuir-lhes a função de proprietário para o recurso de Fala e definir o usuário como o leitor de diretório do Azure.

Adicione o usuário como o proprietário do recurso de fala. Para obter mais informações, consulte Adicionar usuários a um recurso de fala.
No portal do Azure, selecione o menu recolhido no canto superior esquerdo, selecione Microsoft Entra ID e, em seguida, selecione Utilizadores.
Procure a conta Microsoft do utilizador, aceda à respetiva página de detalhes e, em seguida, selecione Funções atribuídas.
Selecione Adicionar atribuições Leitores de>diretório. Se o botão Adicionar atribuições não estiver disponível, isso significa que você não tem acesso. Somente o administrador global deste diretório pode adicionar atribuições aos usuários.

Síntese de fala com a ferramenta de criação de conteúdo de áudio