Hangformátum és hangok konfigurálása
A beszédszintézis során SpeechConfig-objektumokkal testre szabhatja az Azure AI Speech szolgáltatás által visszaadott hangot.
Hangformátum
Az Azure AI Speech szolgáltatás több kimeneti formátumot is támogat a beszédszintézis által generált hangstreamhez. Az igényeitől függően a szükséges formátumot választhatja ki:
- Hangfájl típusa
- Mintasebesség
- Bitmélység
A támogatott formátumokat az SDK a SpeechSynthesisOutputFormat enumerálással jelzi. Például: SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm
.
A szükséges kimeneti formátum megadásához használja a SpeechConfig objektum SetSpeechSynthesisOutputFormat metódusát:
speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);
A támogatott formátumok és azok enumerálási értékeinek teljes listáját az Azure AI Speech SDK dokumentációjában találja.
Hangok
Az Azure AI Speech szolgáltatás több hangot is biztosít, amelyekkel személyre szabhatja a beszédalapú alkalmazásokat. Kétféle hang használható:
- Standard hangok – hangmintákból létrehozott szintetikus hangok.
- Neurális hangok – a mély neurális hálózatok használatával létrehozott természetesebb hangzású hangok.
A hangokat olyan nevek azonosítják, amelyek egy területi beállításra és egy személy nevére utalnak – például en-GB-George
.
A Beszédkonfigurációban a beszédszintézis hangjának megadásához állítsa a SpeechSynthesisVoiceName tulajdonságát a használni kívánt hangra:
speechConfig.SpeechSynthesisVoiceName = "en-GB-George";
A hangokkal kapcsolatos információkért tekintse meg az Azure AI Speech SDK dokumentációját.