A szintézis fejlesztése a Speech szintézis Markup Language (SSML) nyelvvelImprove synthesis with Speech Synthesis Markup Language (SSML)

A Speech szintézis Markup Language (SSML) egy XML-alapú Markup Language, amely lehetővé teszi a fejlesztők számára, hogy a szöveg-beszéd szolgáltatás segítségével hogyan konvertálja a bemeneti szöveget a szintetizált beszédbe.Speech Synthesis Markup Language (SSML) is an XML-based markup language that lets developers specify how input text is converted into synthesized speech using the text-to-speech service. Az egyszerű szöveghez képest a SSML lehetővé teszi a fejlesztők számára a hangfelvétel, a kiejtés, a beszéd arány, a kötet és még több szöveg-beszéd típusú kimenet finomhangolását.Compared to plain text, SSML allows developers to fine-tune the pitch, pronunciation, speaking rate, volume, and more of the text-to-speech output. Normál írásjelek, például egy időszak utáni felfüggesztés vagy a megfelelő hanglejtés használata, ha a mondatot kérdőjeltel végződik, automatikusan kezeli a rendszer.Normal punctuation, such as pausing after a period, or using the correct intonation when a sentence ends with a question mark are automatically handled.

A SSML beszédfelismerési szolgáltatásának megvalósítása a World Wide Web Consortium Speech szintézis Markup Language 1,0-es verziójánalapul.The Speech service implementation of SSML is based on World Wide Web Consortium's Speech Synthesis Markup Language Version 1.0.

Fontos

A kínai, Japán és koreai karakterek két karakterből állnak a számlázáshoz.Chinese, Japanese, and Korean characters count as two characters for billing. További információ: díjszabás.For more information, see Pricing.

Neurális és egyéni hangokNeural and custom voices

Használjon emberi jellegű neurális hangot, vagy hozzon létre saját egyéni hangját a termék vagy a márka számára.Use a human-like neural voice, or create your own custom voice unique to your product or brand. A támogatott nyelvek, területi beállítások és hangok teljes listáját a nyelvi támogatáscímű témakörben tekintheti meg.For a complete list of supported languages, locales, and voices, see language support. Ha többet szeretne megtudni az neurális és az egyéni hangokról, tekintse meg a szöveg – beszéd áttekintést.To learn more about neural and custom voices, see Text-to-speech overview.

Megjegyzés

A hangok különböző stílusokban és a Text to speech oldalróltörténő olvasásával is hallhatók.You can hear voices in different styles and pitches reading example text using the Text to Speech page.

Speciális karakterekSpecial characters

A SSML használata során vegye figyelembe, hogy a speciális karaktereket, például az idézőjeleket, az aposztrófokat és a zárójeleket el kell kerülni.While using SSML, keep in mind that special characters, such as quotation marks, apostrophes, and brackets must be escaped. További információ : Extensible Markup Language (XML) 1,0: D függelék.For more information, see Extensible Markup Language (XML) 1.0: Appendix D.

Támogatott SSML elemekSupported SSML elements

Minden SSML-dokumentum SSML elemekkel (vagy címkékkel) jön létre.Each SSML document is created with SSML elements (or tags). Ezek az elemek a Pitch, a prosody, a Volume és más beállítások módosítására szolgálnak.These elements are used to adjust pitch, prosody, volume, and more. A következő szakaszokban részletesen ismertetjük az egyes elemek használatát, és ha egy elem megadása kötelező vagy nem kötelező.The following sections detail how each element is used, and when an element is required or optional.

Fontos

Ne feledje, hogy idézőjelek között idézőjeleket kell használni.Don't forget to use double quotes around attribute values. A jól formázott, érvényes XML-fájlokra vonatkozó szabványokhoz idézőjelek közé kell foglalni az attribútumot.Standards for well-formed, valid XML requires attribute values to be enclosed in double quotation marks. Például <prosody volume="90"> egy jól formázott, érvényes elem, de <prosody volume=90> nem.For example, <prosody volume="90"> is a well-formed, valid element, but <prosody volume=90> is not. Előfordulhat, hogy a SSML nem ismeri fel az idézőjelek között lévő attribútum-értékeket.SSML may not recognize attribute values that are not in quotes.

SSML-dokumentum létrehozásaCreate an SSML document

speak a gyökérelem, és minden SSML-dokumentum esetében kötelező .speak is the root element, and is required for all SSML documents. Az speak elem fontos információkat tartalmaz, például a verziót, a nyelvet és a Markup szókincs definícióját.The speak element contains important information, such as version, language, and the markup vocabulary definition.

SyntaxSyntax

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="string"></speak>

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
version Megadja a dokumentum korrektúrájának értelmezéséhez használt SSML-specifikáció verzióját.Indicates the version of the SSML specification used to interpret the document markup. Az aktuális verzió 1,0.The current version is 1.0. KötelezőRequired
xml:lang Megadja a legfelső szintű dokumentum nyelvét.Specifies the language of the root document. Az érték tartalmazhat kisbetűs, kétbetűs nyelvi kódot (például: en ), illetve a nyelvi kódot és a nagybetűs országot/régiót (például: en-US ).The value may contain a lowercase, two-letter language code (for example, en), or the language code and uppercase country/region (for example, en-US). KötelezőRequired
xmlns Megadja a dokumentumhoz tartozó URI-t, amely meghatározza a SSML dokumentum Markup szókincsét (az elemek típusát és az attribútum nevét).Specifies the URI to the document that defines the markup vocabulary (the element types and attribute names) of the SSML document. Az aktuális URI: http://www.w3.org/2001/10/synthesis .The current URI is http://www.w3.org/2001/10/synthesis. KötelezőRequired

Hang kiválasztása szöveg és beszéd közöttChoose a voice for text-to-speech

Az voice elem megadása kötelező.The voice element is required. A szövegről beszédre használt hang megadására szolgál.It is used to specify the voice that is used for text-to-speech.

SyntaxSyntax

<voice name="string">
  This text will get converted into synthesized speech.
</voice>

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
name A szöveg-beszéd kimenethez használt hang azonosítása.Identifies the voice used for text-to-speech output. A támogatott hangok teljes listáját a nyelvi támogatáscímű témakörben tekintheti meg.For a complete list of supported voices, see Language support. KötelezőRequired

PéldaExample

Megjegyzés

Ez a példa a en-US-JennyNeural hangot használja.This example uses the en-US-JennyNeural voice. A támogatott hangok teljes listáját a nyelvi támogatáscímű témakörben tekintheti meg.For a complete list of supported voices, see Language support.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-JennyNeural">
    This is the text that is spoken.
  </voice>
</speak>

Több hang használataUse multiple voices

A speak elemen belül több hang is megadható a szöveg – beszéd kimenethez.Within the speak element, you can specify multiple voices for text-to-speech output. Ezeket a hangokat különböző nyelveken lehet megtekinteni.These voices can be in different languages. Minden hang esetében a szöveget egy elembe kell becsomagolni voice .For each voice, the text must be wrapped in a voice element.

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
name A szöveg-beszéd kimenethez használt hang azonosítása.Identifies the voice used for text-to-speech output. A támogatott hangok teljes listáját a nyelvi támogatáscímű témakörben tekintheti meg.For a complete list of supported voices, see Language support. KötelezőRequired

Fontos

Több hang nem kompatibilis a szó határával.Multiple voices are incompatible with the word boundary feature. Több hang használata érdekében le kell tiltani a szó határát.The word boundary feature needs to be disabled in order to use multiple voices.

Szó határának letiltásaDisable word boundary

A Speech SDK nyelvétől függően a "SpeechServiceResponse_Synthesis_WordBoundaryEnabled" tulajdonságot false az objektum egy példányán kell beállítania SpeechConfig .Depending on the Speech SDK language, you'll set the "SpeechServiceResponse_Synthesis_WordBoundaryEnabled" property to false on an instance of the SpeechConfig object.

További információ: SetProperty .For more information, see SetProperty .

speechConfig.SetProperty(
  "SpeechServiceResponse_Synthesis_WordBoundaryEnabled", "false");

PéldaExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-JennyNeural">
    Good morning!
  </voice>
  <voice name="en-US-GuyNeural">
    Good morning to you too Jenny!
  </voice>
</speak>

Beszéd stílusainak módosításaAdjust speaking styles

Alapértelmezés szerint a szöveg és beszéd közötti szolgáltatás szintetizálja a szöveget, és semleges beszéd stílust használ a neurális hangokhoz.By default, the text-to-speech service synthesizes text using a neutral speaking style for neural voices. A beszéd stílusát beállíthatja úgy, hogy a különböző érzelmeket, például a vidámságot, az empátiát és a nyugalmat, vagy optimalizálja a hangját a különböző forgatókönyvekhez, például az ügyfélszolgálathoz, a bemondáshoz és a hangsegédhez, az mstts:express-as elemet használva.You can adjust the speaking style to express different emotions like cheerfulness, empathy, and calm, or optimize the voice for different scenarios like customer service, newscasting and voice assistant, using the mstts:express-as element. Ez egy opcionális elem, amely egyedi a beszédfelismerési szolgáltatáshoz.This is an optional element unique to the Speech service.

A következő neurális hangok esetében jelenleg a beszélő stílusú módosítások támogatottak:Currently, speaking style adjustments are supported for the following neural voices:

 • en-US-AriaNeural
 • en-US-JennyNeural
 • en-US-GuyNeural
 • pt-BR-FranciscaNeural
 • zh-CN-XiaoxiaoNeural
 • zh-CN-YunyangNeural
 • zh-CN-YunyeNeural
 • zh-CN-YunxiNeural Előnézetzh-CN-YunxiNeural (Preview)
 • zh-CN-XiaohanNeural Előnézetzh-CN-XiaohanNeural (Preview)
 • zh-CN-XiaomoNeural Előnézetzh-CN-XiaomoNeural (Preview)
 • zh-CN-XiaoxuanNeural Előnézetzh-CN-XiaoxuanNeural (Preview)
 • zh-CN-XiaoruiNeural Előnézetzh-CN-XiaoruiNeural (Preview)

A beszélő stílus intenzitása tovább módosítható, hogy jobban illeszkedjen a használati esethez.The intensity of speaking style can be further changed to better fit your use case. Megadhat egy erősebb vagy lágyabb stílust, styledegree hogy a beszéd jobban kifejező vagy visszafogott legyen.You can specify a stronger or softer style with styledegree to make the speech more expressive or subdued. A kínai (mandarin, egyszerűsített) neurális hangok esetében jelenleg a beszélő stílusának módosításait támogatja a rendszer.Currently, speaking style adjustments are supported for Chinese (Mandarin, Simplified) neural voices.

A beszélő stílusok és a stílus mértékének módosítása mellett a paramétert úgy is beállíthatja, role hogy a hang egy másik kort és nemre is utánozza.Apart from adjusting the speaking styles and style degree, you can also adjust the role parameter so that the voice will imitate a different age and gender. Például egy férfi hangja növelheti a pályát, és megváltoztathatja a hanglejtést, hogy utánozza a női hangot, de a hang neve nem változik.For example, a male voice can raise the pitch and change the intonation to imitate a female voice, but the voice name will not be changed. Jelenleg a szerepkör-módosítások a következő kínai (mandarin, egyszerűsített) neurális hangok esetében támogatottak:Currently, role adjustments are supported for these Chinese (Mandarin, Simplified) neural voices:

 • zh-CN-XiaomoNeural
 • zh-CN-XiaoxuanNeural

A fenti módosítások a mondat szintjén lesznek alkalmazva, a stílusok és a szerepkör pedig hangon is változhat.Above changes are applied at the sentence level, and styles and role-plays vary by voice. Ha a stílus vagy a szerepkör lejátszása nem támogatott, a szolgáltatás a beszédet az alapértelmezett semleges beszéd módon fogja visszaadni.If a style or role-play isn't supported, the service will return speech in the default neutral speaking way. Megtekintheti, hogy milyen stílusok és szerepkörök támogatottak az egyes hangokon a hanglista API -n keresztül vagy a kód nélküli hangtartalom-létrehozási platformon keresztül.You can see what styles and roles are supported for each voice through the voice list API or through the code-free Audio Content Creation platform.

SyntaxSyntax

<mstts:express-as style="string"></mstts:express-as>
<mstts:express-as style="string" styledegree="value"></mstts:express-as>
<mstts:express-as role="string" style="string"></mstts:express-as>

Megjegyzés

Jelenleg styledegree csak a kínai (mandarin, egyszerűsített) neurális hangokat támogatja.At the moment, styledegree only supports Chinese (Mandarin, Simplified) neural voices. role csak a zh-CN-XiaomoNeural és a zh-CN-XiaoxuanNeural használatát támogatja.role only supports zh-CN-XiaomoNeural and zh-CN-XiaoxuanNeural.

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
style Megadja a beszéd stílusát.Specifies the speaking style. A beszélő stílusok jelenleg hangspecifikusak.Currently, speaking styles are voice-specific. Akkor szükséges, ha a beszélő stílust módosítja egy neurális hanghoz.Required if adjusting the speaking style for a neural voice. A használatakor mstts:express-as meg kell adni a stílust.If using mstts:express-as, then style must be provided. Ha a megadott érték érvénytelen, akkor a rendszer figyelmen kívül hagyja ezt az elemet.If an invalid value is provided, this element will be ignored.
styledegree Megadja a beszélő stílusának intenzitását.Specifies the intensity of speaking style. Elfogadott értékek: 0,01 – 2.Accepted values: 0.01 to 2 inclusive. Az alapértelmezett érték 1, ami az előre definiált stílus intenzitását jelenti.The default value is 1 which means the predefined style intensity. A minimális egység 0,01, ami némileg hajlamos a cél stílusára.The minimum unit is 0.01 which results in a slightly tendency for the target style. A 2 érték a stílus alapértelmezett intenzitásának megkettőzését eredményezi.A value of 2 results in a doubling of the default style intensity. Opcionális (jelenleg styledegree csak a kínai (mandarin, egyszerűsített) neurális hangokat támogatja.)Optional (At the moment, styledegree only supports Chinese (Mandarin, Simplified) neural voices.)
role Megadja a beszélő szerepkört – lejátszás.Specifies the speaking role-play. A hang más korban és nemtől is működik, de a hangnév nem változik.The voice will act as a different age and gender, but the voice name will not be changed. Opcionális (jelenleg csak a következőt role támogatja: zh-CN-XiaomoNeural és zh-CN-XiaoxuanNeural.)Optional (At the moment, role only supports zh-CN-XiaomoNeural and zh-CN-XiaoxuanNeural.)

Ebből a táblázatból megállapíthatja, hogy az egyes neurális hangfelismerések milyen beszélő stílusokat támogatnak.Use this table to determine which speaking styles are supported for each neural voice.

HangVoice StílusStyle DescriptionDescription
en-US-AriaNeural style="newscast-formal" Formális, magabiztos és mérvadó hangvételt ad a hírek kézbesítéséhezExpresses a formal, confident and authoritative tone for news delivery
style="newscast-casual" Sokoldalú és hétköznapi hangvételt nyújt az általános hírekhezExpresses a versatile and casual tone for general news delivery
style="narration-professional" Professzionális, tárgyilagos hangvételi hang a tartalom olvasásáhozExpress a professional, objective tone for content reading
style="customerservice" Felhasználóbarát és hasznos hangvételt biztosít az ügyfélszolgálat számáraExpresses a friendly and helpful tone for customer support
style="chat" Egy alkalmi és nyugodt hangvételt adExpresses a casual and relaxed tone
style="cheerful" Pozitív és boldog hangjelzést adExpresses a positive and happy tone
style="empathetic" A gondozás és a megértés értelmeExpresses a sense of caring and understanding
en-US-JennyNeural style="customerservice" Felhasználóbarát és hasznos hangvételt biztosít az ügyfélszolgálat számáraExpresses a friendly and helpful tone for customer support
style="chat" Egy alkalmi és nyugodt hangvételt adExpresses a casual and relaxed tone
style="assistant" A digitális asszisztensek meleg és nyugodt tónusaExpresses a warm and relaxed tone for digital assistants
style="newscast" Sokoldalú és hétköznapi hangvételt nyújt az általános hírekhezExpresses a versatile and casual tone for general news delivery
en-US-GuyNeural style="newscast" Formális és professzionális hangvételt biztosít a hírek elbeszéléséhezExpresses a formal and professional tone for narrating news
pt-BR-FranciscaNeural style="calm" Egy ritka elérésű, összegyűjtött és álló hozzáállást fejez ki beszéd közben.Expresses a cool, collected, and composed attitude when speaking. A Tone, a Pitch, a prosody sokkal homogénebb más típusú beszédekhez képest.Tone, pitch, prosody is much more uniform compared to other types of speech.
zh-CN-XiaoxiaoNeural style="newscast" Formális és professzionális hangvételt biztosít a hírek elbeszéléséhezExpresses a formal and professional tone for narrating news
style="customerservice" Felhasználóbarát és hasznos hangvételt biztosít az ügyfélszolgálat számáraExpresses a friendly and helpful tone for customer support
style="assistant" A digitális asszisztensek meleg és nyugodt tónusaExpresses a warm and relaxed tone for digital assistants
style="chat" Alkalmi és nyugodt hangvételt biztosít a Chit-csevegéshezExpresses a casual and relaxed tone for chit-chat
style="calm" Egy ritka elérésű, összegyűjtött és álló hozzáállást fejez ki beszéd közben.Expresses a cool, collected, and composed attitude when speaking. A Tone, a Pitch, a prosody sokkal homogénebb más típusú beszédekhez képest.Tone, pitch, prosody is much more uniform compared to other types of speech.
style="cheerful" Optimista és lelkes hangvételt biztosít, amely nagyobb hangvételt és hangmagasságExpresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="sad" Szomorú hangvételt, nagyobb hangvételt, kevesebb intenzitást és vokális energiát biztosít.Expresses a sorrowful tone, with higher pitch, less intensity, and lower vocal energy. Az érzelem gyakori mutatói whimpers vagy sírást okoznak a beszéd során.Common indicators of this emotion would be whimpers or crying during speech.
style="angry" Egy mérges és bosszús hang, amely alacsonyabb hangvételt, nagyobb intenzitást és hangfrekvenciás energiát mutat.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. A beszélő olyan állapotban van, hogy dühös, nem kívánt és megsértett.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Egy megrémült és ideges hangvételt biztosít, amely nagyobb hangvételt, magasabb hangfrekvenciát és gyorsabb hangarányt biztosít.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. A beszélő a feszültség és a nyugtalanság állapotában van.The speaker is in a state of tenseness and uneasiness.
style="disgruntled" Megvető és panaszos hangot ad.Expresses a disdainful and complaining tone. Ennek az érzelemnek a beszéde a nem élvezetet és a megvetést mutatja be.Speech of this emotion displays displeasure and contempt.
style="serious" Egy szigorú és egy parancsra vonatkozó hangjelzést ad.Expresses a strict and commanding tone. A beszélő gyakran merevebb és sokkal kevésbé jól hangzik.Speaker often sounds stiffer and much less relaxed with firm cadence.
style="affectionate" Meleg és szeretetteljes hangvételt biztosít, amely nagyobb hangvételt és hangvételt biztosít.Expresses a warm and affectionate tone, with higher pitch and vocal energy. A beszélő olyan állapotban van, amely vonzza a figyelő figyelmét.The speaker is in a state of attracting the attention of the listener. A beszélő "személyisége" gyakran megnyerő jellegű.The “personality” of the speaker is often endearing in nature.
style="gentle" Enyhe, udvarias és kellemes hangvételt biztosít, amely az alsó és a vokális energiaExpresses a mild, polite, and pleasant tone, with lower pitch and vocal energy
style="lyrical" Az érzelmeket dallamos és szentimentális módon fejezi kiExpresses emotions in a melodic and sentimental way
zh-CN-YunyangNeural style="customerservice" Felhasználóbarát és hasznos hangvételt biztosít az ügyfélszolgálat számáraExpresses a friendly and helpful tone for customer support
zh-CN-YunyeNeural style="calm" Egy ritka elérésű, összegyűjtött és álló hozzáállást fejez ki beszéd közben.Expresses a cool, collected, and composed attitude when speaking. A Tone, a Pitch, a prosody sokkal homogénebb más típusú beszédekhez képest.Tone, pitch, prosody is much more uniform compared to other types of speech.
style="cheerful" Optimista és lelkes hangvételt biztosít, amely nagyobb hangvételt és hangmagasságExpresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="sad" Szomorú hangvételt, nagyobb hangvételt, kevesebb intenzitást és vokális energiát biztosít.Expresses a sorrowful tone, with higher pitch, less intensity, and lower vocal energy. Az érzelem gyakori mutatói whimpers vagy sírást okoznak a beszéd során.Common indicators of this emotion would be whimpers or crying during speech.
style="angry" Egy mérges és bosszús hang, amely alacsonyabb hangvételt, nagyobb intenzitást és hangfrekvenciás energiát mutat.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. A beszélő olyan állapotban van, hogy dühös, nem kívánt és megsértett.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Egy megrémült és ideges hangvételt biztosít, amely nagyobb hangvételt, magasabb hangfrekvenciát és gyorsabb hangarányt biztosít.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. A beszélő a feszültség és a nyugtalanság állapotában van.The speaker is in a state of tenseness and uneasiness.
style="disgruntled" Megvető és panaszos hangot ad.Expresses a disdainful and complaining tone. Ennek az érzelemnek a beszéde a nem élvezetet és a megvetést mutatja be.Speech of this emotion displays displeasure and contempt.
style="serious" Egy szigorú és egy parancsra vonatkozó hangjelzést ad.Expresses a strict and commanding tone. A beszélő gyakran merevebb és sokkal kevésbé jól hangzik.Speaker often sounds stiffer and much less relaxed with firm cadence.
zh-CN-YunxiNeural style="cheerful" Optimista és lelkes hangvételt biztosít, amely nagyobb hangvételt és hangmagasságExpresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="sad" Szomorú hangvételt, nagyobb hangvételt, kevesebb intenzitást és vokális energiát biztosít.Expresses a sorrowful tone, with higher pitch, less intensity, and lower vocal energy. Az érzelem gyakori mutatói whimpers vagy sírást okoznak a beszéd során.Common indicators of this emotion would be whimpers or crying during speech.
style="angry" Egy mérges és bosszús hang, amely alacsonyabb hangvételt, nagyobb intenzitást és hangfrekvenciás energiát mutat.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. A beszélő olyan állapotban van, hogy dühös, nem kívánt és megsértett.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Egy megrémült és ideges hangvételt biztosít, amely nagyobb hangvételt, magasabb hangfrekvenciát és gyorsabb hangarányt biztosít.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. A beszélő a feszültség és a nyugtalanság állapotában van.The speaker is in a state of tenseness and uneasiness.
style="disgruntled" Megvető és panaszos hangot ad.Expresses a disdainful and complaining tone. Ennek az érzelemnek a beszéde a nem élvezetet és a megvetést mutatja be.Speech of this emotion displays displeasure and contempt.
style="serious" Egy szigorú és egy parancsra vonatkozó hangjelzést ad.Expresses a strict and commanding tone. A beszélő gyakran merevebb és sokkal kevésbé jól hangzik.Speaker often sounds stiffer and much less relaxed with firm cadence.
style="depressed" Szomorú és csüggedt hangvételt biztosít az alsó és az energiaExpresses a melancholic and despondent tone with lower pitch and energy
style="embarrassed" Bizonytalan és tétova hangot ad, ha a beszélő kényelmetlenül érzi magátExpresses an uncertain and hesitant tone when the speaker is feeling uncomfortable
zh-CN-XiaohanNeural style="cheerful" Optimista és lelkes hangvételt biztosít, amely nagyobb hangvételt és hangmagasságExpresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="sad" Szomorú hangvételt, nagyobb hangvételt, kevesebb intenzitást és vokális energiát biztosít.Expresses a sorrowful tone, with higher pitch, less intensity, and lower vocal energy. Az érzelem gyakori mutatói whimpers vagy sírást okoznak a beszéd során.Common indicators of this emotion would be whimpers or crying during speech.
style="angry" Egy mérges és bosszús hang, amely alacsonyabb hangvételt, nagyobb intenzitást és hangfrekvenciás energiát mutat.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. A beszélő olyan állapotban van, hogy dühös, nem kívánt és megsértett.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Egy megrémült és ideges hangvételt biztosít, amely nagyobb hangvételt, magasabb hangfrekvenciát és gyorsabb hangarányt biztosít.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. A beszélő a feszültség és a nyugtalanság állapotában van.The speaker is in a state of tenseness and uneasiness.
style="disgruntled" Megvető és panaszos hangot ad.Expresses a disdainful and complaining tone. Ennek az érzelemnek a beszéde a nem élvezetet és a megvetést mutatja be.Speech of this emotion displays displeasure and contempt.
style="serious" Egy szigorú és egy parancsra vonatkozó hangjelzést ad.Expresses a strict and commanding tone. A beszélő gyakran merevebb és sokkal kevésbé jól hangzik.Speaker often sounds stiffer and much less relaxed with firm cadence.
style="embarrassed" Bizonytalan és tétova hangot ad, ha a beszélő kényelmetlenül érzi magátExpresses an uncertain and hesitant tone when the speaker is feeling uncomfortable
style="affectionate" Meleg és szeretetteljes hangvételt biztosít, amely nagyobb hangvételt és hangvételt biztosít.Expresses a warm and affectionate tone, with higher pitch and vocal energy. A beszélő olyan állapotban van, amely vonzza a figyelő figyelmét.The speaker is in a state of attracting the attention of the listener. A beszélő "személyisége" gyakran megnyerő jellegű.The “personality” of the speaker is often endearing in nature.
style="gentle" Enyhe, udvarias és kellemes hangvételt biztosít, amely az alsó és a vokális energiaExpresses a mild, polite, and pleasant tone, with lower pitch and vocal energy
zh-CN-XiaomoNeural style="cheerful" Optimista és lelkes hangvételt biztosít, amely nagyobb hangvételt és hangmagasságExpresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="angry" Egy mérges és bosszús hang, amely alacsonyabb hangvételt, nagyobb intenzitást és hangfrekvenciás energiát mutat.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. A beszélő olyan állapotban van, hogy dühös, nem kívánt és megsértett.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Egy megrémült és ideges hangvételt biztosít, amely nagyobb hangvételt, magasabb hangfrekvenciát és gyorsabb hangarányt biztosít.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. A beszélő a feszültség és a nyugtalanság állapotában van.The speaker is in a state of tenseness and uneasiness.
style="disgruntled" Megvető és panaszos hangot ad.Expresses a disdainful and complaining tone. Ennek az érzelemnek a beszéde a nem élvezetet és a megvetést mutatja be.Speech of this emotion displays displeasure and contempt.
style="serious" Egy szigorú és egy parancsra vonatkozó hangjelzést ad.Expresses a strict and commanding tone. A beszélő gyakran merevebb és sokkal kevésbé jól hangzik.Speaker often sounds stiffer and much less relaxed with firm cadence.
style="depressed" Szomorú és csüggedt hangvételt biztosít az alsó és az energiaExpresses a melancholic and despondent tone with lower pitch and energy
style="gentle" Enyhe, udvarias és kellemes hangvételt biztosít, amely az alsó és a vokális energiaExpresses a mild, polite, and pleasant tone, with lower pitch and vocal energy
zh-CN-XiaoxuanNeural style="cheerful" Optimista és lelkes hangvételt biztosít, amely nagyobb hangvételt és hangmagasságExpresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="angry" Egy mérges és bosszús hang, amely alacsonyabb hangvételt, nagyobb intenzitást és hangfrekvenciás energiát mutat.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. A beszélő olyan állapotban van, hogy dühös, nem kívánt és megsértett.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Egy megrémült és ideges hangvételt biztosít, amely nagyobb hangvételt, magasabb hangfrekvenciát és gyorsabb hangarányt biztosít.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. A beszélő a feszültség és a nyugtalanság állapotában van.The speaker is in a state of tenseness and uneasiness.
style="disgruntled" Megvető és panaszos hangot ad.Expresses a disdainful and complaining tone. Ennek az érzelemnek a beszéde a nem élvezetet és a megvetést mutatja be.Speech of this emotion displays displeasure and contempt.
style="serious" Egy szigorú és egy parancsra vonatkozó hangjelzést ad.Expresses a strict and commanding tone. A beszélő gyakran merevebb és sokkal kevésbé jól hangzik.Speaker often sounds stiffer and much less relaxed with firm cadence.
style="depressed" Szomorú és csüggedt hangvételt biztosít az alsó és az energiaExpresses a melancholic and despondent tone with lower pitch and energy
style="gentle" Enyhe, udvarias és kellemes hangvételt biztosít, amely az alsó és a vokális energiaExpresses a mild, polite, and pleasant tone, with lower pitch and vocal energy
zh-CN-XiaoruiNeural style="sad" Szomorú hangvételt, nagyobb hangvételt, kevesebb intenzitást és vokális energiát biztosít.Expresses a sorrowful tone, with higher pitch, less intensity, and lower vocal energy. Az érzelem gyakori mutatói whimpers vagy sírást okoznak a beszéd során.Common indicators of this emotion would be whimpers or crying during speech.
style="angry" Egy mérges és bosszús hang, amely alacsonyabb hangvételt, nagyobb intenzitást és hangfrekvenciás energiát mutat.Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. A beszélő olyan állapotban van, hogy dühös, nem kívánt és megsértett.The speaker is in a state of being irate, displeased, and offended.
style="fearful" Egy megrémült és ideges hangvételt biztosít, amely nagyobb hangvételt, magasabb hangfrekvenciát és gyorsabb hangarányt biztosít.Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. A beszélő a feszültség és a nyugtalanság állapotában van.The speaker is in a state of tenseness and uneasiness.

A táblázat segítségével ellenőrizhető a támogatott szerepkörök és azok definíciói.Use this table to check the supported roles and their definitions.

SzerepkörRole LeírásDescription
role="Girl" A hang utánozza a lányt.The voice imitates to a girl.
role="Boy" A hang egy fiút utánoz.The voice imitates to a boy.
role="YoungAdultFemale" A hang egy fiatal felnőtt nő számára utánozza.The voice imitates to a young adult female.
role="YoungAdultMale" A hang a fiatal felnőtt férfit utánozza.The voice imitates to a young adult male.
role="OlderAdultFemale" A hang egy régebbi felnőtt nőstényt utánoz.The voice imitates to an older adult female.
role="OlderAdultMale" A hang egy régebbi felnőtt férfit utánoz.The voice imitates to an older adult male.
role="SeniorFemale" A hang egy vezető nő számára utánozza.The voice imitates to a senior female.
role="SeniorMale" A hang egy vezető férfit utánoz.The voice imitates to a senior male.

PéldaExample

Ez a SSML-kódrészlet azt szemlélteti, hogy az <mstts:express-as> elem hogyan változtatja meg a beszéd stílusát a alkalmazásban cheerful .This SSML snippet illustrates how the <mstts:express-as> element is used to change the speaking style to cheerful.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
    xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-US-AriaNeural">
    <mstts:express-as style="cheerful">
      That'd be just amazing!
    </mstts:express-as>
  </voice>
</speak>

Ez a SSML-kódrészlet azt szemlélteti, styledegree hogy az attribútum hogyan módosítható a XiaoxiaoNeural beszélő stílusának intenzitása alapján.This SSML snippet illustrates how the styledegree attribute is used to change the intensity of speaking style for XiaoxiaoNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
    xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
  <voice name="zh-CN-XiaoxiaoNeural">
    <mstts:express-as style="sad" styledegree="2">
      快走吧,路上一定要注意安全,早去早回。
    </mstts:express-as>
  </voice>
</speak>

Ez a SSML-kódrészlet azt szemlélteti, hogy az role attribútum hogyan használható a XiaomoNeural szerepkör-Play módosítására.This SSML snippet illustrates how the role attribute is used to change the role-play for XiaomoNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
    xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
  <voice name="zh-CN-XiaomoNeural">
    女儿看见父亲走了进来,问道:
    <mstts:express-as role="YoungAdultFemale" style="calm">
      “您来的挺快的,怎么过来的?”
    </mstts:express-as>
    父亲放下手提包,说:
    <mstts:express-as role="OlderAdultMale" style="calm">
      “刚打车过来的,路上还挺顺畅。”
    </mstts:express-as>
  </voice>
</speak>

Szünet/szünet hozzáadása vagy eltávolításaAdd or remove a break/pause

Az break elem használatával szüneteltetheti a szavak közötti szüneteltetéseket (vagy megszakításokat), vagy megakadályozhatja, hogy a szöveg-beszéd szolgáltatás automatikusan hozzáadja a szüneteltetéseket.Use the break element to insert pauses (or breaks) between words, or prevent pauses automatically added by the text-to-speech service.

Megjegyzés

Ezzel az elemmel felülbírálhatja egy szó vagy kifejezés szöveg-beszédre (TTS) vonatkozó alapértelmezett viselkedését, ha az adott szó vagy kifejezés szintetizált beszéde természetellenesen hangzik.Use this element to override the default behavior of text-to-speech (TTS) for a word or phrase if the synthesized speech for that word or phrase sounds unnatural. Állítsa a értékre strength none , hogy megakadályozza a prosodic-töréspontot, amelyet a rendszer automatikusan beszúr a szöveg-beszéd szolgáltatásba.Set strength to none to prevent a prosodic break, which is automatically inserted by the text-to-speech service.

SyntaxSyntax

<break strength="string" />
<break time="string" />

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
strength Meghatározza a Szüneteltetés relatív időtartamát az alábbi értékek egyikének használatával:Specifies the relative duration of a pause using one of the following values:
 • Nincsnone
 • x – gyengex-weak
 • gyengeweak
 • közepes (alapértelmezett)medium (default)
 • erősstrong
 • x – erősx-strong
VálaszthatóOptional
time Megadja a szünet időtartamát másodpercben vagy ezredmásodpercben, ez az érték kisebb, mint 5000ms.Specifies the absolute duration of a pause in seconds or milliseconds,this value should be set less than 5000ms. Példák érvényes értékekre, 2s és 500msExamples of valid values are 2s and 500ms VálaszthatóOptional
ErősségétStrength DescriptionDescription
Nincs, vagy ha nincs megadva értékNone, or if no value provided 0 MS0 ms
x – gyengex-weak 250 MS250 ms
gyengeweak 500 ms500 ms
közepesmedium 750 ms750 ms
erősstrong 1000 MS1000 ms
x – erősx-strong 1250 MS1250 ms

PéldaExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-AriaNeural">
    Welcome to Microsoft Cognitive Services <break time="100ms" /> Text-to-Speech API.
  </voice>
</speak>

Csend hozzáadásaAdd silence

Az mstts:silence elem használatával szüneteltetheti a szüneteltetéseket szöveg előtt vagy után, vagy a 2 szomszédos mondat között.Use the mstts:silence element to insert pauses before or after text, or between the 2 adjacent sentences.

Megjegyzés

A és a közötti különbség a mstts:silence break break szöveg bármely helyére felvehető, de a csend csak a bemeneti szöveg elején vagy végén, vagy a két szomszédos mondat határán működik.The difference between mstts:silence and break is that break can be added to any place in the text, but silence only works at the beginning or end of input text, or at the boundary of 2 adjacent sentences.

SyntaxSyntax

<mstts:silence type="string" value="string"/>

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
type Itt adható meg a csend helye:Specifies the location of silence be added:
 • Leading – a szöveg elejénLeading – at the beginning of text
 • Tailing – a szöveg végénTailing – in the end of text
 • Sentenceboundary – a szomszédos mondatok közöttSentenceboundary – between adjacent sentences
KötelezőRequired
Value Megadja a szünet időtartamát másodpercben vagy ezredmásodpercben, ez az érték kisebb, mint 5000ms.Specifies the absolute duration of a pause in seconds or milliseconds,this value should be set less than 5000ms. Példák érvényes értékekre, 2s és 500msExamples of valid values are 2s and 500ms KötelezőRequired

Példa Ebben a példában az mtts:silence 200 MS csendet adja hozzá két mondat között.Example In this example, mtts:silence is used to add 200 ms of silence between two sentences.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AriaNeural">
<mstts:silence type="Sentenceboundary" value="200ms"/>
If we’re home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

Bekezdések és mondatok meghatározásaSpecify paragraphs and sentences

p és s az elemek a bekezdések és a mondatok jelölésére használatosak.p and s elements are used to denote paragraphs and sentences, respectively. Ezen elemek hiányában a szöveg-beszéd szolgáltatás automatikusan meghatározza a SSML-dokumentum szerkezetét.In the absence of these elements, the text-to-speech service automatically determines the structure of the SSML document.

Az p elem tartalmazhat szöveget és a következő elemeket:,,,,,, audio break phoneme prosody say-as sub mstts:express-as és s .The p element may contain text and the following elements: audio, break, phoneme, prosody, say-as, sub, mstts:express-as, and s.

Az s elem tartalmazhat szöveget és a következő elemeket:,,,,, audio break phoneme prosody say-as mstts:express-as és sub .The s element may contain text and the following elements: audio, break, phoneme, prosody, say-as, mstts:express-as, and sub.

SyntaxSyntax

<p></p>
<s></s>

PéldaExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-JennyNeural">
    <p>
      <s>Introducing the sentence element.</s>
      <s>Used to mark individual sentences.</s>
    </p>
    <p>
      Another simple paragraph.
      Sentence structure in this paragraph is not explicitly marked.
    </p>
  </voice>
</speak>

A fonémák használata a kiejtés javításáraUse phonemes to improve pronunciation

Az ph elem a fonetikus KIEJTÉS SSML-dokumentumokban való használata.The ph element is used to for phonetic pronunciation in SSML documents. Az ph elem csak szöveget és más elemeket tartalmazhat.The ph element can only contain text, no other elements. Az emberi olvasásra alkalmas beszédet mindig tartalékként adja meg.Always provide human-readable speech as a fallback.

A fonetikus ábécék olyan telefonokból állnak, amelyek betűkből, számokból vagy karakterből állnak, esetenként kombinációban.Phonetic alphabets are composed of phones, which are made up of letters, numbers, or characters, sometimes in combination. Minden telefon egyedi hangfelismerést ír elő.Each phone describes a unique sound of speech. Ez ellentétben áll a latin ábécével, ahol bármely betű több beszélt hangot is jelenthet.This is in contrast to the Latin alphabet, where any letter may represent multiple spoken sounds. Vegye figyelembe a "c" betű különböző kiejtéseit a "candy" és a "megszüntetés" kifejezésben, vagy a "th" betű kombinációjának különböző kiejtéseit a "Thing" és a "The" kifejezésben.Consider the different pronunciations of the letter "c" in the words "candy" and "cease", or the different pronunciations of the letter combination "th" in the words "thing" and "those".

Megjegyzés

A fonémák címke nem támogatott ebben az 5 hangban (et-EE-AnuNeural, GA-IE-OrlaNeural, lt-LT-OnaNeural, LV-LV-EveritaNeural és MT-MT-GarceNeural).Phonemes tag is not supported for these 5 voices (et-EE-AnuNeural, ga-IE-OrlaNeural, lt-LT-OnaNeural, lv-LV-EveritaNeural and mt-MT-GarceNeural) at the moment.

SyntaxSyntax

<phoneme alphabet="string" ph="string"></phoneme>

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
alphabet Megadja az attribútumban szereplő karakterlánc kiejtésének szintetizálása során használandó fonetikus ábécét ph .Specifies the phonetic alphabet to use when synthesizing the pronunciation of the string in the ph attribute. Az ábécét megadó karakterláncot kisbetűs betűkkel kell megadni.The string specifying the alphabet must be specified in lowercase letters. Az alábbiakban megadhatja a lehetséges ábécéket.The following are the possible alphabets that you may specify.
Az ábécé csak a phoneme elemre vonatkozik.The alphabet applies only to the phoneme in the element..
VálaszthatóOptional
ph Olyan telefonszámot tartalmazó karakterlánc, amely a szó kiejtését határozza meg a phoneme elemben.A string containing phones that specify the pronunciation of the word in the phoneme element. Ha a megadott karakterlánc nem felismerhető telefonokat tartalmaz, a szöveg-beszéd (TTS) szolgáltatás elutasítja a teljes SSML-dokumentumot, és a dokumentumban megadott egyik beszédfelismerési kimenetet sem hozza létre.If the specified string contains unrecognized phones, the text-to-speech (TTS) service rejects the entire SSML document and produces none of the speech output specified in the document. Fonémák használata esetén kötelező.Required if using phonemes.

PéldákExamples

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-JennyNeural">
    <phoneme alphabet="ipa" ph="t&#x259;mei&#x325;&#x27E;ou&#x325;"> tomato </phoneme>
  </voice>
</speak>
<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-JennyNeural">
    <phoneme alphabet="sapi" ph="iy eh n y uw eh s"> en-US </phoneme>
  </voice>
</speak>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-JennyNeural">
    <s>His name is Mike <phoneme alphabet="ups" ph="JH AU"> Zhou </phoneme></s>
  </voice>
</speak>

A kiejtés javítása egyéni lexikon használatávalUse custom lexicon to improve pronunciation

Előfordulhat, hogy a szöveg-beszéd szolgáltatás nem tudja pontosan kiejteni a szót.Sometimes the text-to-speech service cannot accurately pronounce a word. Például egy vállalat neve vagy egy orvosi kifejezés.For example, the name of a company, or a medical term. A fejlesztők meghatározhatják, hogy az egyes entitások hogyan legyenek beolvasva a SSML a phoneme és a sub címkék használatával.Developers can define how single entities are read in SSML using the phoneme and sub tags. Ha azonban azt is meg kell határoznia, hogy az egyes entitások hogyan legyenek beolvasva, létrehozhat egy egyéni lexikont a lexicon címke használatával.However, if you need to define how multiple entities are read, you can create a custom lexicon using the lexicon tag.

Megjegyzés

Az egyéni lexikon jelenleg támogatja az UTF-8 kódolást.Custom lexicon currently supports UTF-8 encoding.

Megjegyzés

Az egyéni lexikon nem támogatott ebben az 5 hangban (et-EE-AnuNeural, GA-IE-OrlaNeural, lt-LT-OnaNeural, LV-LV-EveritaNeural és MT-MT-GarceNeural).Custom lexicon is not supported for these 5 voices (et-EE-AnuNeural, ga-IE-OrlaNeural, lt-LT-OnaNeural, lv-LV-EveritaNeural and mt-MT-GarceNeural) at the moment.

SyntaxSyntax

<lexicon uri="string"/>

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
uri A külső PLS-dokumentum címe.The address of the external PLS document. Kötelező.Required.

HasználatUsage

Ha meg szeretné határozni, hogy az egyes entitások hogyan legyenek beolvasva, létrehozhat egy egyéni lexikont, amely. XML vagy. pls fájlként van tárolva.To define how multiple entities are read, you can create a custom lexicon, which is stored as an .xml or .pls file. A következő egy minta. xml fájl.The following is a sample .xml file.

<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0"
   xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
   xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
    http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
   alphabet="ipa" xml:lang="en-US">
 <lexeme>
  <grapheme>BTW</grapheme>
  <alias>By the way</alias>
 </lexeme>
 <lexeme>
  <grapheme> Benigni </grapheme>
  <phoneme> bɛˈniːnji</phoneme>
 </lexeme>
</lexicon>

Az lexicon elem legalább egy elemet tartalmaz lexeme .The lexicon element contains at least one lexeme element. Minden lexeme elem tartalmaz legalább egy grapheme elemet, és egy vagy több grapheme , alias és phoneme elemet.Each lexeme element contains at least one grapheme element and one or more grapheme, alias, and phoneme elements. Az grapheme elem a helyesírást leíró szöveget tartalmaz.The grapheme element contains text describing the orthography . Az alias elemek a betűszó vagy egy rövidített kifejezés kiejtésének jelzésére szolgálnak.The alias elements are used to indicate the pronunciation of an acronym or an abbreviated term. Az phoneme elem a kiejtését leíró szöveget tartalmaz lexeme .The phoneme element provides text describing how the lexeme is pronounced.

Fontos megjegyezni, hogy az egyéni lexikon használatával nem állítható be közvetlenül egy kifejezés kiejtése.It's important to note, that you cannot directly set the pronunciation of a phrase using the custom lexicon. Ha a kiejtést egy betűszóhoz vagy egy rövidített kifejezéshez kell beállítania, először adjon meg egy alias , majd társítsa a- phoneme t alias .If you need to set the pronunciation for an acronym or an abbreviated term, first provide an alias, then associate the phoneme with that alias. Például:For example:

 <lexeme>
  <grapheme>Scotland MV</grapheme>
  <alias>ScotlandMV</alias>
 </lexeme>
 <lexeme>
  <grapheme>ScotlandMV</grapheme>
  <phoneme>ˈskɒtlənd.ˈmiːdiəm.weɪv</phoneme>
 </lexeme>

Azt is megteheti, hogy közvetlenül alias a betűszóhoz vagy rövidített kifejezéshez adja meg a vártat.You could also directly provide your expected alias for the acronym or abbreviated term. Például:For example:

 <lexeme>
  <grapheme>Scotland MV</grapheme>
  <alias>Scotland Media Wave</alias>
 </lexeme>

Fontos

Az phoneme elem nem tartalmazhat szóközöket az IPA használatakor.The phoneme element cannot contain white spaces when using IPA.

További információ az egyéni lexikon-fájlról: a kiejtési lexikon specifikációjának (pls) 1,0-es verziója.For more information about custom lexicon file, see Pronunciation Lexicon Specification (PLS) Version 1.0.

Ezután tegye közzé az egyéni lexikon-fájlt.Next, publish your custom lexicon file. Habár nem rendelkezünk korlátozásokkal a fájl tárolásához, az Azure Blob Storagehasználatát javasoljuk.While we don't have restrictions on where this file can be stored, we do recommend using Azure Blob Storage.

Miután közzétette az egyéni lexikont, hivatkozhat rá a SSML.After you've published your custom lexicon, you can reference it from your SSML.

Megjegyzés

Az lexicon elemnek a elemen belül kell lennie voice .The lexicon element must be inside the voice element.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
     xmlns:mstts="http://www.w3.org/2001/mstts"
     xml:lang="en-US">
  <voice name="en-US-JennyNeural">
    <lexicon uri="http://www.example.com/customlexicon.xml"/>
    BTW, we will be there probably at 8:00 tomorrow morning.
    Could you help leave a message to Robert Benigni for me?
  </voice>
</speak>

Ha ezt az egyéni lexikont használja, a "BTW" a "by the way" néven lesz beolvasva.When using this custom lexicon, "BTW" will be read as "By the way". A "Benigni" a megadott IPA "bɛ tɛsɨfɒn ni ː nji" lesz beolvasva."Benigni" will be read with the provided IPA "bɛˈniːnji".

KorlátozásokLimitations

 • Fájlméret: az egyéni lexikon fájlméretének maximális korlátja 100 kb, ha ez meghaladja a méretet, a szintézisi kérelem sikertelen lesz.File size: custom lexicon file size maximum limit is 100KB, if beyond this size, synthesis request will fail.
 • Lexikon gyorsítótárának frissítése: az egyéni lexikont a rendszer az első betöltéskor kulcsként fogja gyorsítótárazni a TTS szolgáltatásban.Lexicon cache refresh: custom lexicon will be cached with URI as key on TTS Service when it's first loaded. Az azonos URI-val rendelkező lexikon 15 percen belül nem lesz újratöltve, ezért az egyéni lexikon-módosításnak 15 percnél hosszabb ideig kell megvárnia, hogy érvénybe lépjen.Lexicon with same URI won't be reloaded within 15 mins, so custom lexicon change needs to wait at most 15 mins to take effect.

Beszédfelismerési szolgáltatás fonetikus készleteiSpeech service phonetic sets

A fenti mintában a nemzetközi fonetikus ábécét használjuk, más néven IPA-telefont.In the sample above, we're using the International Phonetic Alphabet, also known as the IPA phone set. Javasoljuk, hogy a fejlesztők az IPA-t használják, mivel ez a nemzetközi szabvány.We suggest developers use the IPA, because it is the international standard. Egyes IPA-karakterek esetében az "előre összeállított" és a "kibontott" verzió szerepel a Unicode-ban való Ábrázoláskor.For some IPA characters, they have the 'precomposed' and 'decomposed' version when being represented with Unicode. Az egyéni lexikon csak a kibontott Unicode-ket támogatja.Custom lexicon only support the decomposed unicodes.

Figyelembe véve, hogy az IPA nem könnyen megjegyezhető, a beszédfelismerési szolgáltatás hét nyelvhez (,,,,, en-US fr-FR de-DE es-ES ja-JP zh-CN és zh-TW ) is definiál egy fonetikus készletet.Considering that the IPA is not easy to remember, the Speech service defines a phonetic set for seven languages (en-US, fr-FR, de-DE, es-ES, ja-JP, zh-CN, and zh-TW).

Az sapi attribútum értékeként használhatja az alphabet Egyéni Lexikonokat az alábbi módon:You can use the sapi as the value for the alphabet attribute with custom lexicons as demonstrated below:

<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0"
   xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
   xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
    http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
   alphabet="sapi" xml:lang="en-US">
 <lexeme>
  <grapheme>BTW</grapheme>
  <alias> By the way </alias>
 </lexeme>
 <lexeme>
  <grapheme> Benigni </grapheme>
  <phoneme> b eh 1 - n iy - n y iy </phoneme>
 </lexeme>
</lexicon>

További információ a beszédfelismerési szolgáltatás részletes fonetikus ábécével kapcsolatban: beszédfelismerési szolgáltatás fonetikus készletei.For more information on the detailed Speech service phonetic alphabet, see the Speech service phonetic sets.

Prosody módosításaAdjust prosody

Ezzel a beállítással prosody adható meg a szöveg és a beszéd kimenetének változása a szurok, a kontúr, a tartomány, a sebesség, az időtartam és a kötet változásaihoz.The prosody element is used to specify changes to pitch, contour, range, rate, duration, and volume for the text-to-speech output. Az prosody elem tartalmazhat szöveget és a következő elemeket:,,,,,, audio break p phoneme prosody say-as sub és s .The prosody element may contain text and the following elements: audio, break, p, phoneme, prosody, say-as, sub, and s.

Mivel a prosodic-attribútumok értékei a széles skálán változhatnak, a beszédfelismerő felismeri a hozzárendelt értékeket arra a javaslatra, hogy a kiválasztott hang tényleges prosodic értékei legyenek.Because prosodic attribute values can vary over a wide range, the speech recognizer interprets the assigned values as a suggestion of what the actual prosodic values of the selected voice should be. A szöveg-beszéd szolgáltatás korlátozza vagy helyettesíti a nem támogatott értékeket.The text-to-speech service limits or substitutes values that are not supported. Példa a nem támogatott értékekre: 1 MHz vagy 120-es kötet.Examples of unsupported values are a pitch of 1 MHz or a volume of 120.

SyntaxSyntax

<prosody pitch="value" contour="value" range="value" rate="value" duration="value" volume="value"></prosody>

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
pitch Megadja a szöveg alappályáját.Indicates the baseline pitch for the text. A szurok a következőképpen fejezhető ki:You may express the pitch as:
 • Abszolút érték, amelyet a szám a "Hz" (Hertz) kifejezéssel jelez.An absolute value, expressed as a number followed by "Hz" (Hertz). Például: <prosody pitch="600Hz">some text</prosody>.For example, <prosody pitch="600Hz">some text</prosody>.
 • Egy relatív érték, amelyet a rendszer a "+" vagy "-" előtaggal, majd a "Hz" vagy "St" előtaggal jelöl, amely a szurok módosításához szükséges összeget határozza meg.A relative value, expressed as a number preceded by "+" or "-" and followed by "Hz" or "st", that specifies an amount to change the pitch. Például: <prosody pitch="+80Hz">some text</prosody> vagy <prosody pitch="-2st">some text</prosody> .For example: <prosody pitch="+80Hz">some text</prosody> or <prosody pitch="-2st">some text</prosody>. A "Szent" érték azt jelzi, hogy a változási egység semitone-e, amely a normál diatonikus-skálán lévő hang (fél lépés) fele.The "st" indicates the change unit is semitone, which is half of a tone (a half step) on the standard diatonic scale.
 • Állandó érték:A constant value:
  • x – alacsonyx-low
  • alacsonylow
  • közepesmedium
  • magashigh
  • x – magasx-high
  • alapértelmezettdefault
VálaszthatóOptional
contour A kontúr mostantól támogatja a neurális és a standard hangokat is.Contour now supports both neural and standard voices. A kontúr a szurok változásait jelöli.Contour represents changes in pitch. Ezek a változások a beszédfelismerési kimenetben megadott időpontokban a célok tömbje jelennek meg.These changes are represented as an array of targets at specified time positions in the speech output. Az egyes célkitűzéseket paraméter párok halmaza határozza meg.Each target is defined by sets of parameter pairs. Például:For example:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

Az egyes paraméterekben az első érték határozza meg a szurok változásának helyét a szöveg időtartamának százalékában.The first value in each set of parameters specifies the location of the pitch change as a percentage of the duration of the text. A második érték határozza meg a szurok növelésének vagy csökkentésének mértékét, egy relatív érték vagy a szurok enumerálási értéke alapján (lásd: pitch ).The second value specifies the amount to raise or lower the pitch, using a relative value or an enumeration value for pitch (see pitch).
VálaszthatóOptional
range Egy érték, amely a szövegben lévő szurok tartományát jelöli.A value that represents the range of pitch for the text. rangeA leíráshoz megadhatja az azonos abszolút értékeket, relatív értékeket vagy enumerálási értékeket pitch .You may express range using the same absolute values, relative values, or enumeration values used to describe pitch. VálaszthatóOptional
rate Megadja a szöveg beszédi arányát.Indicates the speaking rate of the text. rateA következőképpen lehet kifejezni:You may express rate as:
 • Egy relatív érték, amely az alapértelmezett érték szorzóként funkcionál.A relative value, expressed as a number that acts as a multiplier of the default. Az 1 érték például nem változik a díjszabásban.For example, a value of 1 results in no change in the rate. Az 0,5 -es érték a sebesség felére csökkentéset eredményez.A value of 0.5 results in a halving of the rate. A 3 érték a ráta beutazását eredményezi.A value of 3 results in a tripling of the rate.
 • Állandó érték:A constant value:
  • x – lassúx-slow
  • lassúslow
  • közepesmedium
  • gyorsfast
  • x – gyorsx-fast
  • alapértelmezettdefault
VálaszthatóOptional
duration Az az időtartam, amelynek el kell telnie, amíg a Speech szintézis (TTS) szolgáltatás beolvassa a szöveget, másodpercben vagy ezredmásodpercben.The period of time that should elapse while the speech synthesis (TTS) service reads the text, in seconds or milliseconds. Például: 2s vagy 1800ms.For example, 2s or 1800ms. Az időtartam csak a standard hangokat támogatja.Duration supports standard voices only. VálaszthatóOptional
volume Megadja a beszélő hangjának hangerejét.Indicates the volume level of the speaking voice. A kötet a következőképpen fejezhető ki:You may express the volume as:
 • Abszolút érték 0,0 és 100,0 közötti tartományban, a legcsendestől a leghangosabbig.An absolute value, expressed as a number in the range of 0.0 to 100.0, from quietest to loudest. Például 75.For example, 75. Az alapértelmezett érték a 100,0.The default is 100.0.
 • Egy relatív érték, amelyet a rendszer a "+" vagy "-" előtaggal jelöl meg, amely a kötet módosításának mértékét határozza meg.A relative value, expressed as a number preceded by "+" or "-" that specifies an amount to change the volume. Például: + 10 vagy-5,5.For example, +10 or -5.5.
 • Állandó érték:A constant value:
  • csendessilent
  • x – Softx-soft
  • puhasoft
  • közepesmedium
  • hangosloud
  • x – hangosx-loud
  • alapértelmezettdefault
VálaszthatóOptional

Beszéd arányának módosításaChange speaking rate

A felszólalási arány a Word vagy a mondat szintjén is alkalmazható neurális hangokra és standard hangokra.Speaking rate can be applied to Neural voices and standard voices at the word or sentence-level.

PéldaExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-GuyNeural">
    <prosody rate="+30.00%">
      Welcome to Microsoft Cognitive Services Text-to-Speech API.
    </prosody>
  </voice>
</speak>

Kötet módosításaChange volume

A kötetek módosításai a Word vagy a mondat szintjén is alkalmazhatók a standard hangokra.Volume changes can be applied to standard voices at the word or sentence-level. Míg a kötetek módosításai csak a mondat szintjén alkalmazhatók a neurális hangokra.Whereas volume changes can only be applied to neural voices at the sentence level.

PéldaExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-JennyNeural">
    <prosody volume="+20.00%">
      Welcome to Microsoft Cognitive Services Text-to-Speech API.
    </prosody>
  </voice>
</speak>

Szurok módosításaChange pitch

A szurok módosítása a Word vagy a mondat szintjén is alkalmazható a standard hangokra.Pitch changes can be applied to standard voices at the word or sentence-level. Míg a szurok módosításait csak a mondat szintjén lehet a neurális hangokra alkalmazni.Whereas pitch changes can only be applied to neural voices at the sentence level.

PéldaExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-AriaNeural">
    Welcome to <prosody pitch="high">Microsoft Cognitive Services Text-to-Speech API.</prosody>
  </voice>
</speak>

Szurok körvonalának módosításaChange pitch contour

Fontos

A Pitch Contour változásai mostantól a neurális hangokkal is támogatottak.Pitch contour changes are now supported with neural voices.

PéldaExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-AriaNeural">
    <prosody contour="(60%,-60%) (100%,+80%)" >
      Were you the only person in the room?
    </prosody>
  </voice>
</speak>

Say-as elemsay-as element

say-as egy opcionális elem, amely megadja az elem szövegének típusát (például szám vagy dátum).say-as is an optional element that indicates the content type (such as number or date) of the element's text. Ez útmutatást nyújt a beszédfelismerési motornak a szöveg kiejtéséről.This provides guidance to the speech synthesis engine about how to pronounce the text.

SyntaxSyntax

<say-as interpret-as="string" format="digit string" detail="string"> <say-as>

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
interpret-as Megadja az elem szövegének tartalomtípusát.Indicates the content type of element's text. A típusok listáját az alábbi táblázat tartalmazza.For a list of types, see the table below. KötelezőRequired
format További információkat nyújt az elem szövegének pontos formázásáról olyan tartalomtípusok esetében, amelyek kétértelmű formátummal rendelkezhetnek.Provides additional information about the precise formatting of the element's text for content types that may have ambiguous formats. A SSML az azokat használó tartalomtípusok formátumait határozzák meg (lásd az alábbi táblázatot).SSML defines formats for content types that use them (see table below). VálaszthatóOptional
detail Megadja a megbeszélni kívánt részletességi szintet.Indicates the level of detail to be spoken. Ez az attribútum például kérheti, hogy a Speech szintézis motor "központozás" jelölést küldjön.For example, this attribute might request that the speech synthesis engine pronounce punctuation marks. Nincs definiálva szabványos érték a következőhöz: detail .There are no standard values defined for detail. VálaszthatóOptional

A interpret-as és attribútumok támogatott tartalomtípusai a következők: formatThe following are the supported content types for the interpret-as and format attributes. formatCsak akkor adja meg az attribútumot, ha a értéke interpret-as dátum és idő.Include the format attribute only if interpret-as is set to date and time.

értelmezés – asinterpret-as formátumbanformat ÉrtelmezésInterpretation
address A szöveget címként kell kimondani.The text is spoken as an address. A Speech szintézis motorja:The speech synthesis engine pronounces:

I'm at <say-as interpret-as="address">150th CT NE, Redmond, WA</say-as>

Mint "én vagyok a 150th Court North East Redmond Washington."As "I'm at 150th court north east redmond washington."
cardinal, numbercardinal, number A szöveg kardinális számként van kimondva.The text is spoken as a cardinal number. A Speech szintézis motorja:The speech synthesis engine pronounces:

There are <say-as interpret-as="cardinal">3</say-as> alternatives

Ahogy a "három alternatíva van."As "There are three alternatives."
characters, spell-outcharacters, spell-out A szöveg külön betűként van kiírva (helyesírás).The text is spoken as individual letters (spelled out). A Speech szintézis motorja:The speech synthesis engine pronounces:

<say-as interpret-as="characters">test</say-as>

"T E S T"-ként.As "T E S T."
date DMY, MDY, YMD, énh, ym, My, MD, DM, d, m, ydmy, mdy, ymd, ydm, ym, my, md, dm, d, m, y A szöveget dátumként kell kimondani.The text is spoken as a date. Az format attribútum a dátum formátumát (d = nap, m = hónap és y = év) adja meg.The format attribute specifies the date's format (d=day, m=month, and y=year). A Speech szintézis motorja:The speech synthesis engine pronounces:

Today is <say-as interpret-as="date" format="mdy">10-19-2016</say-as>

Ahogy a mai év október tizenkilencedik 2016.As "Today is October nineteenth two thousand sixteen."
digits, number_digitdigits, number_digit A szöveget külön számjegyek sorozata beszéljük.The text is spoken as a sequence of individual digits. A Speech szintézis motorja:The speech synthesis engine pronounces:

<say-as interpret-as="number_digit">123456789</say-as>

"1 2 3 4 5 6 7 8 9".As "1 2 3 4 5 6 7 8 9."
fraction A szöveg tört számként van kimondva.The text is spoken as a fractional number. A Speech szintézis motorja:The speech synthesis engine pronounces:

<say-as interpret-as="fraction">3/8</say-as> of an inch

"Három nyolcadik egy hüvelyk".As "three eighths of an inch."
ordinal A szöveg sorszámként van kimondva.The text is spoken as an ordinal number. A Speech szintézis motorja:The speech synthesis engine pronounces:

Select the <say-as interpret-as="ordinal">3rd</say-as> option

"Válassza a harmadik lehetőséget".As "Select the third option".
telephone A szöveg telefonszámként van kimondva.The text is spoken as a telephone number. Az format attribútum tartalmazhat országkódot jelölő számjegyeket.The format attribute may contain digits that represent a country code. Például: "1" az Egyesült Államok vagy "39" esetében Olaszország esetében.For example, "1" for the United States or "39" for Italy. A beszédfelismerési motor felhasználhatja ezeket az információkat, hogy a kiejtését egy telefonszámra irányítsa.The speech synthesis engine may use this information to guide its pronunciation of a phone number. A telefonszámon szerepelhet az országkód is, és ha igen, elsőbbséget élvez az országkód felett format .The phone number may also include the country code, and if so, takes precedence over the country code in the format. A Speech szintézis motorja:The speech synthesis engine pronounces:

The number is <say-as interpret-as="telephone" format="1">(888) 555-1212</say-as>

A "saját szám a 8 8 8 5 5 5 1 2 1 2-es körzetszám".As "My number is area code eight eight eight five five five one two one two."
time hms12, hms24hms12, hms24 A szöveget a rendszer időpontként beszéli.The text is spoken as a time. Az format attribútum azt adja meg, hogy az idő 12 órás (hms12) vagy 24 órás (hms24) óra használatával van-e megadva.The format attribute specifies whether the time is specified using a 12-hour clock (hms12) or a 24-hour clock (hms24). Használjon kettőspontot az órákat, perceket és másodperceket jelölő számok elválasztásához.Use a colon to separate numbers representing hours, minutes, and seconds. Az alábbi példák érvényesek: 12:35, 1:14:32, 08:15 és 02:50:45.The following are valid time examples: 12:35, 1:14:32, 08:15, and 02:50:45. A Speech szintézis motorja:The speech synthesis engine pronounces:

The train departs at <say-as interpret-as="time" format="hms12">4:00am</say-as>

Ahogy "a vonat négyen M."As "The train departs at four A M."

HasználatUsage

Az say-as elem csak szöveget tartalmazhat.The say-as element may contain only text.

PéldaExample

A Speech szintézis motor a következő példát szemlélteti: "az első kérés egy, a tizenkilencedik 20 10-es, a korai érkezési idő pedig a 12 35 ÓRAKOR."The speech synthesis engine speaks the following example as "Your first request was for one room on October nineteenth twenty ten with early arrival at twelve thirty five PM."

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-JennyNeural">
    <p>
    Your <say-as interpret-as="ordinal"> 1st </say-as> request was for <say-as interpret-as="cardinal"> 1 </say-as> room
    on <say-as interpret-as="date" format="mdy"> 10/19/2010 </say-as>, with early arrival at <say-as interpret-as="time" format="hms12"> 12:35pm </say-as>.
    </p>
  </voice>
</speak>

Rögzített hang hozzáadásaAdd recorded audio

audio egy opcionális elem, amely lehetővé teszi, hogy MP3-hangfelvételt helyezzen be egy SSML-dokumentumba.audio is an optional element that allows you to insert MP3 audio into an SSML document. A hangelem törzse tartalmazhat egyszerű szöveges vagy SSML jelölést, amely akkor beszél, ha a hangfájl nem érhető el, vagy nem játszható le.The body of the audio element may contain plain text or SSML markup that's spoken if the audio file is unavailable or unplayable. Emellett az audio elem tartalmazhat szöveget és a következő elemeket:,,,,,, audio break p s phoneme prosody say-as és sub .Additionally, the audio element can contain text and the following elements: audio, break, p, s, phoneme, prosody, say-as, and sub.

A SSML-dokumentumban szereplő összes hangnak meg kell felelnie a következő követelményeknek:Any audio included in the SSML document must meet these requirements:

 • Az MP3-t egy internetről elérhető HTTPS-végponton kell üzemeltetni.The MP3 must be hosted on an Internet-accessible HTTPS endpoint. HTTPS szükséges, és az MP3-fájlt üzemeltető tartománynak érvényes, megbízható TLS/SSL-tanúsítványt kell tartalmaznia.HTTPS is required, and the domain hosting the MP3 file must present a valid, trusted TLS/SSL certificate.
 • Az MP3-fájlnak érvényes MP3-fájlként (MPEG v2) kell lennie.The MP3 must be a valid MP3 file (MPEG v2).
 • A bitsűrűségnek 48 kbps-nak kell lennie.The bit rate must be 48 kbps.
 • A mintavételi sebességnek 16 000 Hz-nek kell lennie.The sample rate must be 16,000 Hz.
 • Az egyetlen válaszban lévő összes szöveges és hangfájl együttes teljes ideje nem lehet nagyobb, mint 90 (90) másodperc.The combined total time for all text and audio files in a single response cannot exceed ninety (90) seconds.
 • Az MP3 nem tartalmazhat ügyfél-specifikus vagy más bizalmas információt.The MP3 must not contain any customer-specific or other sensitive information.

SyntaxSyntax

<audio src="string"/></audio>

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
src Megadja a hangfájl helyét/URL-címét.Specifies the location/URL of the audio file. Kötelező, ha a hangelemet használja a SSML-dokumentumban.Required if using the audio element in your SSML document.

PéldaExample

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-JennyNeural">
    <p>
      <audio src="https://contoso.com/opinionprompt.wav"/>
      Thanks for offering your opinion. Please begin speaking after the beep.
      <audio src="https://contoso.com/beep.wav">
        Could not play the beep, please voice your opinion now.
      </audio>
    </p>
  </voice>
</speak>

Háttérbeli hang hozzáadásaAdd background audio

Az mstts:backgroundaudio elem lehetővé teszi a háttérbeli hang hozzáadását a SSML-dokumentumokhoz (vagy szöveg-beszéd típusú hangfájlt keverve).The mstts:backgroundaudio element allows you to add background audio to your SSML documents (or mix an audio file with text-to-speech). A mstts:backgroundaudio háttérbeli hangfájlok a háttérben, a szöveg és a beszéd elején elhalványulnak, és a szöveg és a beszéd végén elhalványulnak.With mstts:backgroundaudio you can loop an audio file in the background, fade in at the beginning of text-to-speech, and fade out at the end of text-to-speech.

Ha a megadott háttérbeli hang rövidebb, mint a szöveg-beszéd vagy a Halványítás, a rendszer hurokba kerül.If the background audio provided is shorter than the text-to-speech or the fade out, it will loop. Ha a szöveg-beszédnél hosszabb, akkor leáll, amikor befejeződött a Halványítás.If it is longer than the text-to-speech, it will stop when the fade out has finished.

SSML-dokumentumok esetében csak egy háttér-hangfájl engedélyezett.Only one background audio file is allowed per SSML document. audioAz elemen belüli címkéket azonban intersperse is voice felvehet, ha további hanganyagot szeretne hozzáadni a SSML-dokumentumhoz.However, you can intersperse audio tags within the voice element to add additional audio to your SSML document.

SyntaxSyntax

<mstts:backgroundaudio src="string" volume="string" fadein="string" fadeout="string"/>

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
src Megadja a háttér hangfájljának helyét/URL-címét.Specifies the location/URL of the background audio file. Kötelező, ha a SSML-dokumentumban háttér hang van használatban.Required if using background audio in your SSML document.
volume Meghatározza a háttér-hangfájl kötetét.Specifies the volume of the background audio file. Elfogadott értékek: 0 a 100 bezárólag.Accepted values: 0 to 100 inclusive. Az alapértelmezett érték 1.The default value is 1. VálaszthatóOptional
fadein Meghatározza a háttérbeli hang "elhalványulás" időtartamát ezredmásodpercben.Specifies the duration of the background audio "fade in" as milliseconds. Az alapértelmezett érték 0 :, amely a nem áttűnéssel egyenértékű.The default value is 0, which is the equivalent to no fade in. Elfogadott értékek: 0 a 10000 bezárólag.Accepted values: 0 to 10000 inclusive. VálaszthatóOptional
fadeout Meghatározza, hogy a háttérbeli hang mennyi ideig elhalványul ezredmásodpercben.Specifies the duration of the background audio fade out in milliseconds. Az alapértelmezett érték a 0 , ami egyenértékű a kihalványítás nélkül. Elfogadott értékek: 0 a 10000 bezárólag.The default value is 0, which is the equivalent to no fade out. Accepted values: 0 to 10000 inclusive. VálaszthatóOptional

PéldaExample

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
  <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
  <voice name="Microsoft Server Speech Text to Speech Voice (en-US, JennyNeural)">
    The text provided in this document will be spoken over the background audio.
  </voice>
</speak>

Könyvjelző elemBookmark element

A könyvjelző elem lehetővé teszi, hogy egyéni jelölőket helyezzen be a SSML-ben, hogy az egyes jelölők eltolása legyen az audio streamben.The bookmark element allows you to insert custom markers in SSML to get the offset of each marker in the audio stream. Nem fogjuk beolvasni a könyvjelző elemeit.We will not read out the bookmark elements. A Bookmark (könyvjelző) elem használatával egy adott helyre hivatkozhat a szöveg vagy a címke sorrendjében.The bookmark element can be used to reference a specific location in the text or tag sequence.

Megjegyzés

bookmark az elem en-US-AriaNeural most már csak hangra működik.bookmark element only works for en-US-AriaNeural voice for now.

SyntaxSyntax

<bookmark mark="string"/>

AttribútumokAttributes

AttribútumAttribute LeírásDescription Kötelező/nem kötelezőRequired / Optional
mark Megadja az elem hivatkozási szövegét bookmark .Specifies the reference text of the bookmark element. Kötelező.Required.

PéldaExample

Előfordulhat például, hogy a következő módon szeretné tudni, hogy az egyes virág-szavak milyen időeltolódást mutatnakAs an example, you might want to know the time offset of each flower word as following

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
  <voice name="en-US-AriaNeural">
    We are selling <bookmark mark='flower_1'/>roses and <bookmark mark='flower_2'/>daisies.
  </voice>
</speak>

Könyvjelző beolvasása a Speech SDK használatávalGet bookmark using Speech SDK

Előfizethet a BookmarkReached SPEECH SDK eseményére a könyvjelzők eltolásának lekéréséhez.You can subscribe to the BookmarkReached event in Speech SDK to get the bookmark offsets.

Megjegyzés

BookmarkReached az esemény csak a Speech SDK verzió 1.16.0 óta érhető el.BookmarkReached event is only available since Speech SDK version 1.16.0.

BookmarkReached az események akkor jönnek létre, amikor a kimeneti hangadatok elérhetővé válnak, ami gyorsabb lesz, mint a lejátszás kimeneti eszközön.BookmarkReached events are raised as the output audio data becomes available, which will be faster than playback to an output device.

 • AudioOffset azt jelenti, hogy a kimeneti hang eltelt ideje a szintézis és a könyvjelző elem kezdete között van.AudioOffset reports the output audio's elapsed time between the beginning of synthesis and the bookmark element. Ez 100 ns egységben (HNS) mérve, 10 000 HNS egyenértéktel, 1 ezredmásodpercnél.This is measured in hundred-nanosecond units (HNS) with 10,000 HNS equivalent to 1 millisecond.
 • Text a könyvjelző elem hivatkozási szövege, amely az mark attribútumban beállított sztring.Text is the reference text of the bookmark element, which is the string you set in the mark attribute.

További információ: BookmarkReached .For more information, see BookmarkReached .

synthesizer.BookmarkReached += (s, e) =>
{
  // The unit of e.AudioOffset is tick (1 tick = 100 nanoseconds), divide by 10,000 to convert to milliseconds.
  Console.WriteLine($"Bookmark reached. Audio offset: " +
    $"{e.AudioOffset / 10000}ms, bookmark text: {e.Text}.");
};

A fenti példában SSML az BookmarkReached eseményt kétszer indítja el a rendszer, és a konzol kimenete a következő lesz:For the example SSML above, the BookmarkReached event will be triggered twice, and the console output will be

Bookmark reached. Audio offset: 825ms, bookmark text: flower_1.
Bookmark reached. Audio offset: 1462.5ms, bookmark text: flower_2.

Következő lépésekNext steps