Configuración del formato de audio y las voces

3 minutos

Al sintetizar la voz, puede usar un objeto SpeechConfig para personalizar el audio devuelto por el servicio de Voz de Azure AI.

Formato de audio

El servicio de Voz de Azure AI admite varios formatos de salida para la secuencia de audio generada por la síntesis de voz. En función de sus necesidades específicas, puede elegir un formato basado en los siguientes aspectos requeridos:

Tipo de archivo de audio
Frecuencia de muestreo
Profundidad de bits

Los formatos admitidos se indican en el SDK mediante la enumeración SpeechSynthesisOutputFormat. Por ejemplo, SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm.

Para especificar el formato de salida necesario, use el método SetSpeechSynthesisOutputFormat del objeto SpeechConfig:

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Para obtener una lista completa de los formatos admitidos y sus valores de enumeración, consulte la documentación del SDK de la Voz de Azure AI.

Voces

El servicio de Voz de Azure AI proporciona varias voces que puede usar para personalizar las aplicaciones habilitadas para voz. Hay dos tipos de voz que puede usar:

Voces estándar: voces sintéticas creadas a partir de ejemplos de audio.
Voces neuronales: voces con un sonido más natural creadas mediante redes neuronales profundas.

Las voces se identifican mediante nombres que indican una configuración regional y el nombre de una persona, por ejemplo, en-GB-George.

Para especificar una voz para la síntesis de voz en SpeechConfig, establezca su propiedad SpeechSynthesisVoiceName en la voz que quiera usar:

speechConfig.SpeechSynthesisVoiceName = "en-GB-George";

Para obtener información sobre las voces, consulte la documentación de SDK de Voz de Azure AI.

Continuar

Configuración del formato de audio y las voces

Formato de audio

Voces

Comentarios