Share via


Hang és hang testreszabása az SSML-vel

A Beszédszintézis korrektúranyelv (SSML) használatával megadhatja a beszédhanghoz, a nyelvhez, a névhez, a stílushoz és a szerepkörhöz tartozó szöveget a beszédkimenethez. Több hangot is használhat egyetlen SSML-dokumentumban, és módosíthatja a hangsúlyt, a beszédsebességet, a hangmagasságot és a hangerőt. Emellett az SSML előre rögzített hangokat is beszúrhat, például hangeffektust vagy zenei jegyzetet.

A cikk bemutatja, hogyan használhatja az SSML-elemeket a hang és a hang megadásához. Az SSML-szintaxissal kapcsolatos további információkért tekintse meg az SSML-dokumentum struktúráját és eseményeit.

Hangelemek használata

Minden SSML beszédelemben legalább egy voice elemet meg kell adni. Ez az elem határozza meg a szövegfelolvasáshoz használt hangot.

Egyetlen SSML-dokumentumba több voice elemet is belefoglalhat. Minden voice elem megadhat egy másik hangot. Ugyanazt a hangot többször is használhatja különböző beállításokkal, például a mondatok közötti csend időtartamának módosításakor.

Az alábbi táblázat az elem attribútumainak voice használatát ismerteti:

Attribútum Leírás Kötelező vagy választható
name A szöveg-beszéd kimenetéhez használt hang. A támogatott előre összeállított hangok teljes listáját a Nyelvi támogatás című témakörben találja. Kötelező
effect A szintetizált beszédkimenet minőségének optimalizálásához használt hangeffektus-feldolgozó az eszközökön meghatározott forgatókönyvekhez.

Egyes éles környezetekben a hallási élmény romlhat bizonyos eszközökön a lejátszás torzítása miatt. Például az autó hangszórójának szintetizált beszéde unalmasnak és elfojtottnak tűnhet olyan környezeti tényezők miatt, mint a hangszóró válasza, a helyiség reverberációja és a háttérzaj. Előfordulhat, hogy az utasnak fel kell kapcsolnia a hangerőt, hogy jobban hallhassa. Az ilyen helyzetekben a manuális műveletek elkerülése érdekében a hangeffektus-feldolgozó a lejátszás torzulásának kompenzálásával egyértelműbbé teheti a hangot.

A következő értékek támogatottak:
  • eq_car – Optimalizálja a hallóélményt, amikor nagy pontosságú beszédet biztosít az autókban, buszokban és egyéb zárt autókban.
  • eq_telecomhp8k – Optimalizálja a hallási élményt a szűk sávú beszédhez távközlési vagy telefonos forgatókönyvekben. 8 kHz-es mintavételezési sebességet kell használnia. Ha a mintasebesség nem 8 kHz, a kimeneti beszéd hangminősége nincs optimalizálva.

Ha az érték hiányzik vagy érvénytelen, a rendszer figyelmen kívül hagyja ezt az attribútumot, és nem alkalmaz effektust.
Választható

Példák hangra

Az elem attribútumainak támogatott értékeiről további információt a voice Hangelemek használata című témakörben talál.

Példa egyhangos hangra

Ez a példa a en-US-AvaMultilingualNeural hangot használja.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        This is the text that is spoken.
    </voice>
</speak>

Példa több hangra

Az elemen speak belül több hangot is megadhat a szöveg-beszéd kimenetéhez. Ezek a hangok különböző nyelveken is lehetnek. Minden hang esetében a szöveget egy voice elembe kell burkolni.

Ez a példa felváltja a hangokat és en-US-AndrewMultilingualNeural a en-US-AvaMultilingualNeural hangokat. A neurális többnyelvű hangok a bemeneti szöveg alapján különböző nyelveket beszélnek.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Good morning!
    </voice>
    <voice name="en-US-AndrewMultilingualNeural">
        Good morning to you too Ava!
    </voice>
</speak>

Egyéni neurális hang példa

Az egyéni neurális hang használatához adja meg a modell nevét hangnévként az SSML-ben.

Ez a példa egy saját hang nevű egyéni hangot használ.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="my-custom-voice">
        This is the text that is spoken.
    </voice>
</speak>

Példa hangeffektusra

Az attribútum segítségével effect optimalizálhatja a hallási élményt olyan helyzetekben, mint az autók és a távközlés. Az alábbi SSML-példa az effect autós forgatókönyvekben használt konfigurációs attribútumot használja.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural" effect="eq_car">
        This is the text that is spoken.
    </voice>
</speak>

Beszédstílusok és szerepkörök használata

Alapértelmezés szerint a neurális hangok semleges beszédstílussal rendelkeznek. A beszédstílust, a stílusfokot és a szerepkört a mondat szintjén módosíthatja.

Feljegyzés

A Speech szolgáltatás támogatja a neurális hangok egy részhalmazának stílusait, stílusdiplomáját és szerepköreit a hangstílusok és szerepkörök dokumentációjában leírtak szerint. Az egyes hangok támogatott stílusainak és szerepköreinek meghatározásához használhatja a List Voices API-t és a hangtartalom-létrehozó webalkalmazást is.

Az alábbi táblázat az elem attribútumainak mstts:express-as használatát ismerteti:

Attribútum Leírás Kötelező vagy választható
style A hangspecifikus beszédstílus. Olyan érzelmeket fejezhet ki, mint a vidámság, az empátia és a nyugalom. Emellett optimalizálhatja a hangot különböző forgatókönyvekhez, például az ügyfélszolgálathoz, a híradáshoz és a hangsegédhez. Ha a stílus értéke hiányzik vagy érvénytelen, a rendszer figyelmen kívül hagyja a teljes mstts:express-as elemet, és a szolgáltatás az alapértelmezett semleges beszédet használja. Az egyéni neurális hangstílusokért tekintse meg az egyéni neurális hangstílus példáját. Kötelező
styledegree A beszédstílus intenzitása. Erősebb vagy lágyabb stílust adhat meg, hogy a beszéd kifejezőbb vagy visszafogottabb legyen. Az elfogadott értékek tartománya: 0.01 a 2 befogadó. Az alapértelmezett érték az 1előre definiált stílus intenzitása. A minimális egység a 0.01célstílus enyhe tendenciát eredményez. Az érték 2 az alapértelmezett stílus intenzitásának megduplázását eredményezi. Ha a stílusfok hiányzik, vagy a hang nem támogatott, a rendszer figyelmen kívül hagyja ezt az attribútumot. Választható
role A beszélő szerepjáték. A hang más kort és nemet képes utánozni, de a hang neve nem változik. Egy férfi hang például emelheti a hangmagasságot, és megváltoztathatja a hanghangot, hogy utánozza a női hangot, de a hang neve nem változik. Ha a szerepkör hiányzik, vagy a hang nem támogatott, a rendszer figyelmen kívül hagyja ezt az attribútumot. Választható

Az alábbi táblázat az egyes támogatott attribútumokat style ismerteti:

Stílus Leírás
style="advertisement_upbeat" Izgatott és nagy energiaigényű hangot ad egy termék vagy szolgáltatás népszerűsítéséhez.
style="affectionate" Meleg és szeretetteljes hangot ad, magasabb hangmagassággal és hangenergiával. A beszélő olyan állapotban van, hogy felkeltse a figyelő figyelmét. A beszélő személyisége gyakran a természetben van.
style="angry" Dühös és bosszús hangot ad ki.
style="assistant" Meleg és nyugodt hangnemet biztosít a digitális asszisztensek számára.
style="calm" Menő, összegyűjtött és komponált hozzáállást fejez ki beszéd közben. A hang, a hangmagasság és a próza egységesebb más beszédtípusokhoz képest.
style="chat" Alkalmi és nyugodt hangnemet fejez ki.
style="cheerful" Pozitív és boldog hangot ad.
style="customerservice" Barátságos és segítőkész hangnemet biztosít az ügyfélszolgálat számára.
style="depressed" Melankolikus és despondent tónust fejez ki alacsonyabb hangmagassággal és energiával.
style="disgruntled" Félreérthetetlen és panaszkodó hangnemet fejez ki. Az érzelem beszéde elégedetlenséget és megvetést jelenít meg.
style="documentary-narration" A narrációk nyugodt, érdeklődő és informatív stílusban szólalnak meg, amely alkalmas dokumentumfilmek, szakértői kommentárok és hasonló tartalmak szinkronizálására.
style="embarrassed" Bizonytalan és tétovázó hangnemet fejez ki, amikor a beszélő kényelmetlenül érzi magát.
style="empathetic" A gondoskodás és a megértés érzését fejezi ki.
style="envious" A csodálat hangnemét fejezi ki, ha valaki másnak szüksége van valamire.
style="excited" Felemelő és bizakodó hangnemet fejez ki. Úgy hangzik, mintha valami nagyszerű történik, és a beszélő örül neki.
style="fearful" Ijedt és ideges tónust fejez ki, magasabb hangmagassággal, magasabb hangenergiával és gyorsabb sebességgel. A beszélő feszültség és nyugtalanság állapotban van.
style="friendly" Kellemes, hívogató és meleg hangot ad. Őszintenek és gondoskodónak hangzik.
style="gentle" Enyhe, udvarias és kellemes hangnemet fejez ki, alacsonyabb hangmagassággal és hangenergiával.
style="hopeful" Meleg és éhező hangnemet fejez ki. Úgy hangzik, mintha valami jó történne az előadóval.
style="lyrical" Az érzelmeket dallamos és hangulati módon fejezi ki.
style="narration-professional" Professzionális, objektív hangnemet ad a tartalomolvasáshoz.
style="narration-relaxed" Megnyugtató és dallamos hangnemet ad a tartalomolvasáshoz.
style="newscast" Hivatalos és professzionális hangot ad a hírek elbeszéléséhez.
style="newscast-casual" Sokoldalú és alkalmi hangvételt biztosít az általános hírkézbesítéshez.
style="newscast-formal" Formális, magabiztos és mérvadó hangot ad a hírszolgáltatáshoz.
style="poetry-reading" Érzelmi és ritmikus hangnemet fejez ki egy vers olvasása közben.
style="sad" Szomorú hangnemet fejez ki.
style="serious" Szigorú és parancsoló hangnemet fejez ki. A hangszóró gyakran merevebbnek és sokkal kevésbé nyugodtnak hangzik szilárd ütemben.
style="shouting" Olyan hangjelzést fejez ki, amely úgy hangzik, mintha a hang távoli vagy más helyen lenne, és erőfeszítéseket tesz a tisztán hallhatóság érdekében.
style="sports_commentary" Nyugodt és érdeklődő hangot ad egy sportesemény közvetítéséhez.
style="sports_commentary_excited" Intenzív és energikus hangnemet biztosít a sportesemények izgalmas pillanatainak közvetítéséhez.
style="whispering" Lágy hangjelzést ad, amely csendes és gyengéd hangot próbál létrehozni.
style="terrified" Ijedt hangnemet fejez ki, gyorsabb tempóval és remegő hanggal. Úgy hangzik, mintha a beszélő bizonytalan és őrült állapotban lenne.
style="unfriendly" Hideg és közömbös hangnemet fejez ki.

Az alábbi táblázat az egyes támogatott role attribútumok leírását tartalmazza:

Szerepkör Leírás
role="Girl" A hang utánoz egy lányt.
role="Boy" A hang utánoz egy fiút.
role="YoungAdultFemale" A hang utánoz egy fiatal felnőtt nőt.
role="YoungAdultMale" A hang utánoz egy fiatal felnőtt férfit.
role="OlderAdultFemale" A hang utánoz egy idősebb felnőtt nőt.
role="OlderAdultMale" A hang utánoz egy idősebb felnőtt férfit.
role="SeniorFemale" A hang utánoz egy idősebb nőt.
role="SeniorMale" A hang utánoz egy idősebb férfit.

mstts express-as examples

Az elem attribútumainak támogatott értékeivel kapcsolatos információkért lásd: Beszédstílusok mstts:express-as és szerepkörök használata.

Példa stílusra és fokra

Az elemet olyan mstts:express-as érzelmek kifejezésére használja, mint a vidámság, az empátia és a nyugalom. Emellett optimalizálhatja a hangot különböző forgatókönyvekhez, például az ügyfélszolgálathoz, a híradáshoz és a hangsegédhez.

Az alábbi SSML-példa a <mstts:express-as> stílusfokú sad2elemet használja.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧,路上一定要注意安全,早去早回。
        </mstts:express-as>
    </voice>
</speak>

Példa szerepkörre

A beszédstílusok és a stílusok fokának módosítása mellett a role paramétert úgy is beállíthatja, hogy a hang más kort és nemet utánozzon. Egy férfi hang például megemelheti a hangmagasságot, és megváltoztathatja a hanghangot, hogy utánozza a női hangot, de a hang neve nem változik.

Ez az SSML-kódrészlet bemutatja, hogyan használja az attribútumot role a szerepkör-játék módosításához zh-CN-XiaomoNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来,问道:
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的,怎么过来的?”
        </mstts:express-as>
        父亲放下手提包,说:
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的,路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

Példa egyéni neurális hangstílusra

Az egyéni neurális hangokat betanításával bizonyos előre beállított stílusokkal, például cheerfula . sadwhispering Egyéni neurális hangokat is betanított, hogy a betanítási adatok által meghatározott egyéni stílusban beszéljenek. Ha egyéni neurális hangstílust szeretne használni az SSML-ben, adja meg a Speech Studióban korábban megadott stílusnevet.

Ez a példa egy saját hang nevű egyéni hangot használ. Az egyéni hang az cheerful előre beállított stílussal és stílusfokkal2, majd az egyéni stílusom és stílusfokom0.01nevű egyéni stílussal beszél.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="my-custom-voice">
        <mstts:express-as style="cheerful" styledegree="2">
            That'd be just amazing!
        </mstts:express-as>
        <mstts:express-as style="my-custom-style" styledegree="0.01">
            What's next?
        </mstts:express-as>
    </voice>
</speak>

Előadói profil azonosítója

Az elem használatával mstts:ttsembedding megadhatja a speakerProfileId személyes hang tulajdonságát. A személyes hang egy egyéni neurális hang, amelyet saját vagy az ügyfél hangján tanítunk be. További információ: személyes hang létrehozása.

Az alábbi SSML-példa egy <mstts:ttsembedding> hangnévvel és beszélőprofil-azonosítóval rendelkező elemet használ.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak> 

Beszédnyelvek módosítása

Alapértelmezés szerint a többnyelvű hangok automatikusan észlelik a bemeneti szöveg nyelvét, és az SSML használata nélkül beszélnek a bemeneti szöveg alapértelmezett területi beállításának nyelvén. Igény szerint az elem használatával módosíthatja ezeknek a <lang xml:lang> hangoknak a beszédnyelvét úgy, hogy az előnyben részesített jelölőszínt , például en-GB a brit angol nyelvet állítsa be. A beszédnyelvet a mondat és a szó szintjén is módosíthatja. A többnyelvű hang támogatott nyelveivel kapcsolatos információkért tekintse meg a szintaxis- és attribútumdefiníciókat tartalmazó táblázat lang elemét tartalmazó <lang> többnyelvű hangokat.

Az alábbi táblázat az elem attribútumainak <lang xml:lang> használatát ismerteti:

Attribútum Leírás Kötelező vagy választható
xml:lang Az a nyelv, amelyet a neurális hangnak el kell mondania. A neurális hang beszédnyelvének beállításához szükséges. Ha használja lang xml:lang, meg kell adnia a területi beállításokat.

Feljegyzés

Az <lang xml:lang> elem nem kompatibilis az elemekkel és break az prosody elemekkel. Ebben az elemben nem módosíthatja a szünetet és a jómódot, például a hangmagasságot, a körvonalat, a mértéket vagy a hangerőt.

Többnyelvű hangok a lang elem használatával

A többnyelvű hangok szakasz segítségével meghatározhatja, hogy a Speech szolgáltatás mely beszédnyelveket támogatja az egyes neurális hangokhoz, ahogyan azt az alábbi példatáblában is bemutatjuk. Ha a hang nem beszéli a bemeneti szöveg nyelvét, a Speech szolgáltatás nem ad ki szintetizált hangot.

Hang Támogatott nyelvszám Támogatott nyelvek Automatikusan észlelt alapértelmezett területi beállítás minden nyelvhez
en-US-AndrewMultilingualNeural1 (Férfi)
en-US-AvaMultilingualNeural1 (Nő)
en-US-BrianMultilingualNeural1 (Férfi)
en-US-EmmaMultilingualNeural1 (Nő)
77 Afrikaans, albán, amharic, arab, örmény, azerbajdzsáni, Bahasa indonéz, Bangla, baszk, bengáli, bosnyák, bolgár, burmai, katalán, kínai kantoni, kínai mandarin, kínai tajvani, horvát, cseh, dán, holland, angol, észt, filippínó, finn, francia, galíciai, grúz, német, görög, héber, hindi, magyar, izlandi, ír, olasz, japán, javanéz, kannada, kazak, khmer, koreai, laoszi, lett, litván, macedón, maláj, maláj, maláj, máltai, mongol, nepáli, Norvég Bokmål, Pashto, perzsa, lengyel, portugál, román, orosz, szerb, sinhala, szlovák, szlovén, szomáliai, spanyol, szuahéli, svéd, tamil, telugu, thai, török, ukrán, urdu, üzbég, vietnami, walesi, Zulu af-ZA, am-ET, ar-EG, az-AZ, bg-BG, bn-BD, bn-IN, bs-BA, ca-EScs-CZcy-GBda-DKde-DEel-GRen-USes-ESet-EEeu-ESfa-IRfi-FIfil-PHfr-FRga-IEgl-EShe-ILhi-INhr-HRhu-HUhy-AMid-IDis-ISit-ITja-JPjv-IDka-GEkk-KZkm-KHkn-INko-KRlo-LAlt-LTlv-LVmk-MKml-INmn-MNms-MYmt-MTmy-MMnb-NOne-NPnl-NLpl-PLps-AFpt-BRro-ROru-RUsi-LKsk-SKsl-SIso-SOsq-ALsr-RSsu-IDsv-SEsw-KE, ta-IN, te-IN, th-TH, tr-TR, uk-UAur-PK, uz-UZ, vi-VN, zh-HK. zh-CNzu-ZAzh-TW

1 Ezek neurális többnyelvű hangok az Azure AI Speechben. Az SSML használata nélkül minden többnyelvű hang a bemeneti szöveg alapértelmezett területi beállításában tud beszélni a nyelven. Az elemet azonban továbbra is használhatja az <lang xml:lang> egyes nyelvek beszélő ékezetének módosításához, hogy az előnyben részesített jelölőszínt, például a brit ékezetet (en-GB) az angolhoz állítsa be. Az egyes hangok elsődleges területi beállítását a nevében szereplő előtag jelzi, például a hangen-US-AndrewMultilingualNeural, amelynek elsődleges területi beállítása.en-US Ellenőrizze a támogatott területi beállítások teljes listáját az SSML-ben.

Feljegyzés

A többnyelvű hangok nem támogatnak teljes mértékben bizonyos SSML-elemeket, például break, emphasis, silenceés sub.

Lang-példák

Az elem attribútumainak támogatott értékeiről további információt a lang beszédnyelv módosítása című témakörben talál.

Meg kell adnia en-US alapértelmezett nyelvként az speak elemen belül, hogy a nyelv máshol van-e beállítva. Ebben a példában az elsődleges nyelv az en-US-AvaMultilingualNeuralen-US.

Ez az SSML-kódrészlet bemutatja, hogyan használható <lang xml:lang> a en-US-AvaMultilingualNeural neurális hanggal való beszédrede-DE.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="de-DE">
            Wir freuen uns auf die Zusammenarbeit mit Ihnen!
        </lang>
    </voice>
</speak>

Az elemen speak belül több nyelvet is megadhat, beleértve en-US a szöveg-beszéd kimenetét is. A szövegnek minden egyes módosított nyelvhez meg kell egyeznie a nyelvvel, és egy voice elembe kell burkolnia. Ez az SSML-kódrészlet bemutatja, hogyan <lang xml:lang> módosíthatja a beszélő nyelveket es-MXa következőre: , en-USés fr-FR.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="es-MX">
            ¡Esperamos trabajar con usted!
        </lang>
        <lang xml:lang="en-US">
           We look forward to working with you!
        </lang>
        <lang xml:lang="fr-FR">
            Nous avons hâte de travailler avec vous!
        </lang>
    </voice>
</speak>

Hanglejtés módosítása

Az elem használatával megadhatja a prosody szöveg beszédkimenetének hangmagasság-, körvonal-, tartomány-, sebesség- és hangerőváltozását. Az prosody elem tartalmazhat szöveget és a következő elemeket: audio, break, , phonemep, prosody, , say-as, subés s.

Mivel a prosodikus attribútumértékek széles tartományonként eltérőek lehetnek, a beszédfelismerő a hozzárendelt értékeket javaslatként értelmezi, hogy mi legyen a kiválasztott hang tényleges prosztadikus értékeinek. A szövegről a beszédre vonatkozó korlátozások vagy a nem támogatott értékek helyettesítése. A nem támogatott értékek például 1 MHz-es vagy 120-es kötetek.

Az alábbi táblázat az elem attribútumainak prosody használatát ismerteti:

Attribútum Leírás Kötelező vagy választható
contour A körvonal a hangmagasság változásait jelöli. Ezek a változások céltömbként jelennek meg a beszédkimenet adott időpontban megadott pozícióiban. Az egyes célokat paraméterpárok határozzák meg. Például:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

Az egyes paraméterek első értéke a szöveg időtartamának százalékában adja meg a hangmagasság-változás helyét. A második érték egy relatív vagy egy számbavételi érték használatával adja meg a hangmagasság növeléséhez vagy csökkentéséhez szükséges mértéket (lásd pitch).
Választható
pitch A szöveg alapvonalát jelzi. A hangmagasság-módosítások a mondat szintjén alkalmazhatók. A hangmagasság módosításának az eredeti hang 0,5-1,5-szörösének kell lennie. A hangmagasságot a következőképpen fejezheti ki:
  • Abszolút érték: Számként kifejezve, majd "Hz" (Hertz). Például: <prosody pitch="600Hz">some text</prosody>.
  • Relatív érték:
    • Relatív számként: "+" vagy "-" előtti számként kifejezve, majd "Hz" vagy "st" értékként, amely a hangmagasság módosítására vonatkozó összeget adja meg. Például: <prosody pitch="+80Hz">some text</prosody> vagy <prosody pitch="-2st">some text</prosody>. Az "st" azt jelzi, hogy a változási egység féltónusú, ami a standard diatonikus skálán egy hang (fél lépés) fele.
    • Százalékban kifejezve: "+" (opcionálisan) vagy "-" előtti számként kifejezve, majd "%", ami a relatív változást jelzi. Például: <prosody pitch="50%">some text</prosody> vagy <prosody pitch="-50%">some text</prosody>.
  • Állandó érték:
    • x-low
    • alacsony
    • közepes
    • Magas
    • x-high
    • alapértelmezett
Választható
range Egy érték, amely a szöveg hangmagasságtartományát jelöli. A kifejezéshez range használt abszolút értékeket, relatív értékeket vagy számbavételi értékeket pitchhasználhatja. Választható
rate A szöveg beszédarányát jelzi. A beszédarány szó- vagy mondatszinten is alkalmazható. A sebességváltozásnak az eredeti hangidőn 2 belül 0.5 kell lennie. Az alábbiakat fejezheti ki rate :
  • Relatív érték:
    • Relatív számként: Olyan számként kifejezve, amely az alapértelmezett szorzójaként működik. Az eredmények értéke 1 például nem változik az eredeti arányban. Az eredmény értéke 0.5 az eredeti ráta felére csökken. Az eredmények értéke 2 az eredeti ráta kétszerese.
    • Százalékban kifejezve: "+" (opcionálisan) vagy "-" előtti számként kifejezve, majd "%", ami a relatív változást jelzi. Például: <prosody rate="50%">some text</prosody> vagy <prosody rate="-50%">some text</prosody>.
  • Állandó érték:
    • x-slow
    • lassú
    • közepes
    • gyors
    • x-fast
    • alapértelmezett
Választható
volume A beszélő hang hangerejét jelzi. A kötetmódosítások mondatszinten alkalmazhatók. A kötetet a következőképpen fejezheti ki:
  • Abszolút érték: Számként kifejezve a tartományon belül, a legcsendesebbtőla leghangosabbig, például 75.0.0100.0 Az alapértelmezett érték 100.0.
  • Relatív érték:
    • Relatív számként: "+" vagy "-" előtti számként kifejezve, amely megadja a kötet módosítására vonatkozó összeget. Ilyenek például a +10 következők: vagy -5.5.
    • Százalékban kifejezve: "+" (opcionálisan) vagy "-" előtti számként kifejezve, majd "%", ami a relatív változást jelzi. Például: <prosody volume="50%">some text</prosody> vagy <prosody volume="+3%">some text</prosody>.
  • Állandó érték:
    • Csendes
    • x-soft
    • szoft.
    • közepes
    • Hangos
    • x-loud
    • alapértelmezett
Választható

Prosody-példák

Az elem attribútumainak támogatott értékeiről további információt a prosody Prosody beállítása című témakörben talál.

Beszédsebesség-példa módosítása

Ez az SSML-kódrészlet bemutatja, hogyan használja az attribútumot rate a beszédsebesség 30%-kal nagyobbra való módosításához az alapértelmezett sebességnél.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody rate="+30.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Példa kötet módosítására

Ez az SSML-kódrészlet azt mutatja be, hogy az volume attribútum hogyan módosítja a kötetet 20%-kal nagyobbra, mint az alapértelmezett kötet.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody volume="+20.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Példa a hangmagasság módosítására

Ez az SSML-kódrészlet bemutatja, hogyan használja az pitch attribútumot, hogy a hang magas hangmagasságban beszéljen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
    </voice>
</speak>

Példa a hangmagasság-szintvonal módosítására

Ez az SSML-kódrészlet bemutatja, hogyan használja a rendszer az contour attribútumot a körvonal módosítására.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

Hangsúly beállítása

Az opcionális emphasis elem használatával szószintű stresszt adhat hozzá vagy távolíthat el a szöveghez. Ez az elem csak szöveget és a következő elemeket tartalmazhat: audio, , breakemphasis, lang, phoneme, prosody, , say-as, subés voice.

Feljegyzés

A szószintű hangsúlyhangolás csak ezekhez a neurális hangokhoz érhető el: en-US-GuyNeural, en-US-DavisNeuralés en-US-JaneNeural.

Az alacsony hangmagasságú és rövid időtartamú szavak esetében előfordulhat, hogy a hangmagasság nem elegendő ahhoz, hogy észrevezendő legyen.

Az alábbi táblázat az emphasis elem attribútumait ismerteti:

Attribútum Leírás Kötelező vagy választható
level Az alkalmazandó hangsúly erősségét jelzi:
  • reduced
  • none
  • moderate
  • strong
.
Ha az level attribútum nincs megadva, az alapértelmezett szint az moderate. Az egyes attribútumok részleteiért lásd a kiemelési elemet.
Választható

Példák kiemelése

Az elem attribútumainak támogatott értékeiről további információt a emphasis Kiemelés módosítása című témakörben talál.

Ez az SSML-kódrészlet bemutatja, hogyan használhatja az elemet az emphasis "értekezletek" szó közepes szintű kiemelésére.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AndrewMultilingualNeural">
    I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
    </voice>
</speak>

Rögzített hang hozzáadása

Az audio elem nem kötelező. Ezzel előre felvett hangokat szúrhat be egy SSML-dokumentumba. Az elem törzse audio tartalmazhat egyszerű szöveget vagy kimondott SSML-korrektúrát, ha a hangfájl nem érhető el vagy nem játszható le. Az audio elem tartalmazhat szöveget és a következő elemeket is: audio, , break, sp, phoneme, , prosody, say-asés sub.

Az SSML-dokumentumban szereplő bármely hangnak meg kell felelnie az alábbi követelményeknek:

  • A hangfájlnak érvényesnek kell lennie *.mp3, *.wav, *.opus, *.ogg, *.flac vagy *.wma fájlnak.
  • Az egyetlen válaszban lévő összes szöveg- és hangfájl összesített időtartama nem haladhatja meg a 600 másodpercet.
  • A hang nem tartalmazhat ügyfélspecifikus vagy más bizalmas információkat.

Feljegyzés

Az audio elemet a Long Audio API nem támogatja. A hosszú formátumú szöveg beszédhez használja inkább a batch synthesis API-t (előzetes verzió).

Az alábbi táblázat az elem attribútumainak audio használatát ismerteti:

Attribútum Leírás Kötelező vagy választható
src A hangfájl URI-helye. A hangot egy internetről elérhető HTTPS-végponton kell üzemeltetni. HTTPS szükséges. A fájlt üzemeltető tartománynak érvényes, megbízható TLS/SSL-tanúsítványt kell bemutatnia. A késés minimalizálása érdekében a hangfájlt ugyanabban az Azure-régióban kell elhelyeznie a Blob Storage-ban, mint a szövegfelolvasási végpont. Kötelező

Példák hangra

Az elem attribútumainak támogatott értékeiről további információt a audio Rögzített hang hozzáadása című témakörben talál.

Ez az SSML-kódrészlet bemutatja, hogyan szúrhat be két .wav fájlból származó hangot attribútummal src .

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

A hang időtartamának módosítása

mstts:audioduration Az elem használatával állítsa be a kimeneti hang időtartamát. Ezzel az elemet használva szinkronizálhatja a hangkimenet befejezésének időzítését. A hang időtartama csökkenthető vagy növelhető az eredeti hang sebességének időaránya között 0.52 . Az eredeti hang az egyéb sebességbeállítások nélküli hang. A beszédsebesség a beállított érték alapján lelassul vagy felfelé pörög.

A hangidőtartam-beállítás a belefoglaló voice elemen belüli összes bemeneti szövegre vonatkozik. A hangidőtartam-beállítás visszaállításához vagy módosításához egy új voice elemet kell használnia ugyanazzal a hanggal vagy másik hanggal.

Az alábbi táblázat az elem attribútumainak mstts:audioduration használatát ismerteti:

Attribútum Leírás Kötelező vagy választható
value A kimeneti hang kért időtartama másodpercben, például 2s, vagy ezredmásodpercben, például 2000ms.

Ennek az értéknek az eredeti hang időarányán 2 belül 0.5 kell lennie, más díjszabási beállítások nélkül. Ha például a hang kért időtartama az 30s, akkor az eredeti hangnak egyébként 15 és 60 másodperc között kell lennie. Ha ezen határokon kívül állít be értéket, az időtartam a megfelelő minimum vagy maximum többszörös szerint van beállítva.

A kért kimeneti hangidő miatt a Speech szolgáltatás ennek megfelelően módosítja a beszédsebességet. Használja a hanglista API-t, és ellenőrizze az WordsPerMinute attribútumot a használt neurális hang beszédsebességének megkereséséhez. A bemeneti szövegben lévő szavak számát feloszthatja az attribútum értékével WordsPerMinute , hogy megkapja az eredeti kimeneti hang hozzávetőleges időtartamát. A kimeneti hang természetesnek hangzik, amikor a becsült időtartamhoz legközelebbi hangidőt állítja be.
Kötelező

mstts audio duration examples

Az elem attribútumainak támogatott értékeiről további információt a mstts:audioduration hang időtartamának módosítása című témakörben talál.

Ebben a példában az eredeti hang körülbelül 15 másodperc. Az mstts:audioduration elem a hang időtartamának 20 másodpercre vagy 20s20 másodpercre történő beállítására szolgál.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

Háttérhang hozzáadása

Az elem használatával mstts:backgroundaudio háttérhangot adhat hozzá az SSML-dokumentumokhoz, vagy keverhet egy hangfájlt szöveggel a beszédhez. Ezzel mstts:backgroundaudioegy hangfájlt hurkolhat a háttérben, a szöveg elején elhalványulhat a beszédig, és a szöveg végétől a beszédig elhalványulhat.

Ha a háttérhang rövidebb, mint a beszédszöveg vagy az elhalványuló szöveg, akkor hurkolódik. Ha hosszabb, mint a szöveg beszéde, akkor leáll, ha a kihalás befejeződött.

SSML-dokumentumonként csak egy háttérfájl engedélyezett. Az elemen belüli voice címkék között audio további hangokat adhat hozzá az SSML-dokumentumhoz.

Feljegyzés

Az mstts:backgroundaudio elemet minden voice elem elé kell helyezni. Ha meg van adva, az elem első gyermekének speak kell lennie.

Az mstts:backgroundaudio elemet a Long Audio API nem támogatja. A hosszú formátumú szöveg beszédhez használja inkább a batch synthesis API-t (előzetes verzió).

Az alábbi táblázat az elem attribútumainak mstts:backgroundaudio használatát ismerteti:

Attribútum Leírás Kötelező vagy választható
src A háttérfájl URI-helye. Kötelező
volume A háttérfájl hangereje. Elfogadott értékek: 0 a befogadáshoz 100 . Az alapértelmezett érték 1. Választható
fadein A háttérhangok elhalványulásának időtartama ezredmásodpercben. Az alapértelmezett érték az 0, amely a nem halványuló értéknek felel meg. Elfogadott értékek: 0 a befogadáshoz 10000 . Választható
fadeout A háttérbeli hang elhalványulásának időtartama ezredmásodpercben. Az alapértelmezett érték a 0nem elhalványuló érték. Elfogadott értékek: 0 a befogadáshoz 10000 . Választható

mstss backgroundaudio példák

Az elem attribútumainak támogatott értékeiről további információt a mstts:backgroundaudi Háttérhang hozzáadása című témakörben talál.

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="en-US-AvaMultilingualNeural">
        The text provided in this document will be spoken over the background audio.
    </voice>
</speak>

Következő lépések