Beszédszintézis korrektúranyelv használata
Bár az Azure AI Speech SDK lehetővé teszi, hogy egyszerű szöveget küldjön a beszédszintézishez (például a SpeakTextAsync() metódussal), a szolgáltatás egy XML-alapú szintaxist is támogat a létrehozni kívánt beszéd jellemzőinek leírásához. Ez a beszédszintézis-korrektúranyelv (SSML) szintaxisa nagyobb mértékben szabályozza a beszélt kimenet hangját, így a következő lehetőségek közül választhat:
- Adjon meg beszédstílust, például "izgatott" vagy "vidám" szöveget neurális hang használatakor.
- Szúrjon be szüneteket vagy csendet.
- Adja meg a fonetikus kiejtéseket, például az "SQL" szöveg "folytatásként" való kiejtéséhez.
- Állítsa be a hang produkcióját (hatással van a hangmagasságra, a hangmagasságra és a beszéd sebességére).
- Használjon gyakori "say-as" szabályokat, például annak megadásához, hogy egy adott sztringet dátumként, időpontként, telefonszámként vagy más formában kell kifejezni.
- Szúrjon be rögzített beszédet vagy hangot, például egy szabványos rögzített üzenetet, vagy szimulálja a háttérzajt.
Vegyük például a következő SSML-t:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AriaNeural">
<mstts:express-as style="cheerful">
I say tomato
</mstts:express-as>
</voice>
<voice name="en-US-GuyNeural">
I say <phoneme alphabet="sapi" ph="t ao m ae t ow"> tomato </phoneme>.
<break strength="weak"/>Lets call the whole thing off!
</voice>
</speak>
Ez az SSML két különböző neurális hang közötti beszélt párbeszédablakot ad meg, például:
- Ariana (vidáman): "Azt mondom paradicsom:
- Guy: "Azt mondom paradicsom (kifejezett tom-ah-toe) ... Hívjuk le az egészet!"
Ha SSML-leírást szeretne küldeni a Speech szolgáltatásnak, használhatja a SpeakSsmlAsync() metódust, például a következőt:
speechSynthesizer.SpeakSsmlAsync(ssml_string);
Az SSML-ről további információt az Azure AI Speech SDK dokumentációjában talál.