Настройка формата звука и голосов

3 мин

При синтезе речи можно использовать объект SpeechConfig для настройки звука, возвращаемого службой распознавания речи Azure.

Формат аудио

Служба распознавания речи Azure поддерживает несколько форматов выходных данных для аудиопотока, создаваемого синтезом речи. В зависимости от конкретных потребностей можно выбрать формат на основе необходимых параметров:

тип звукового файла;
частоту выборки;
глубину в битах.

Поддерживаемые форматы указаны в пакете SDK с помощью перечисления SpeechSynthesisOutputFormat. Например, SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm.

Чтобы указать необходимый формат вывода, используйте метод SetSpeechSynthesisOutputFormat объекта SpeechConfig:

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Полный список поддерживаемых форматов и их значений перечисления см. в документации по пакету SDK службы "Речь ИИ Azure".

Голоса

Служба распознавания речи Azure предоставляет несколько голосов, которые можно использовать для персонализации приложений с поддержкой речи. Существует два вида голосов:

Синтетические голоса — искусственные голоса, созданные на основе образцов звука.
Нейронные голоса — более естественно звучащие голоса, созданные с помощью глубоких нейронных сетей.

Голоса определяются по именам, в которых указывается языковой стандарт и имя человека, например en-GB-George.

Чтобы указать голос для синтеза речи в SpeechConfig, задайте в качестве значения свойства SpeechSynthesisVoiceName нужный голос:

speechConfig.SpeechSynthesisVoiceName = "en-GB-George";

Дополнительные сведения о голосах см. в документации по пакету SDK службы "Распознавание речи Azure".

Продолжить

Формат аудио

Голоса

Обратная связь