Configurar o formato de áudio e as vozes

Concluído

Ao sintetizar a voz, é possível usar um objeto SpeechConfig para personalizar o áudio retornado pelo serviço de Fala de IA do Azure.

Formato de áudio

O serviço de Fala de IA do Azure é compatível com vários formatos de saída para o fluxo de áudio gerado pela sintetização de voz. Dependendo de suas necessidades específicas, você pode escolher um formato com base na configuração necessária de:

  • Tipo de arquivo de áudio
  • Taxa de amostragem
  • Profundidade de bits

Os formatos compatíveis são indicados no SDK usando a enumeração SpeechSynthesisOutputFormat. Por exemplo, SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm.

Para especificar o formato de saída necessário, use o método SetSpeechSynthesisOutputFormat do objeto SpeechConfig:

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Para ver uma lista completa dos formatos compatíveis e seus valores de enumeração, confira a documentação do SDK de Fala de IA do Azure.

Vozes

O serviço de Fala de IA do Azure tem várias vozes para personalizar seus aplicativos habilitados para fala. Há dois tipos de voz que você pode usar:

  • Vozes padrão: vozes sintéticas criadas com base em amostras de áudio.
  • Vozes neurais: vozes de som mais natural criadas usando redes neurais profundas.

As vozes são identificadas por nomes que indicam uma localidade e o nome de uma pessoa, por exemplo en-GB-George.

Para especificar uma voz para a sintetização de voz no SpeechConfig, defina a propriedade SpeechSynthesisVoiceName como a voz que você deseja usar:

speechConfig.SpeechSynthesisVoiceName = "en-GB-George";

Para saber mais sobre as vozes, confira a documentação do SDK de Fala de IA do Azure.