Anpassa röst och ljud med SSML

Du kan använda Speech Synthesis Markup Language (SSML) för att ange text till talröst, språk, namn, stil och roll för dina talutdata. Du kan också använda flera röster i ett enda SSML-dokument och justera betoning, talfrekvens, tonhöjd och volym. Dessutom har SSML möjlighet att infoga förinspelat ljud, till exempel en ljudeffekt eller en musikalisk ton.

Artikeln visar hur du använder SSML-element för att ange röst och ljud. Mer information om SSML-syntax finns i SSML-dokumentstruktur och -händelser.

Använda röstelement

Minst ett voice element måste anges i varje SSML-talelement. Det här elementet avgör vilken röst som används för text till tal.

Du kan inkludera flera voice element i ett enda SSML-dokument. Varje voice element kan ange en annan röst. Du kan också använda samma röst flera gånger med olika inställningar, till exempel när du ändrar varaktigheten för tystnad mellan meningar.

I följande tabell beskrivs användningen av voice elementets attribut:

Attribut beskrivning Obligatorisk eller valfri
name Den röst som används för text till tal-utdata. En fullständig lista över fördefinierade röster som stöds finns i Språkstöd. Obligatoriskt
effect Ljudeffektprocessorn som används för att optimera kvaliteten på de syntetiserade talutdata för specifika scenarier på enheter.

I vissa scenarier i produktionsmiljöer kan granskningsupplevelsen försämras på grund av uppspelningsförvrängningen på vissa enheter. Till exempel kan det syntetiserade talet från en bilhögtalare låta tråkigt och dämpat på grund av miljöfaktorer som talarsvar, rumsåterklang och bakgrundsbrus. Passageraren kan behöva skruva upp volymen för att höra tydligare. För att undvika manuella åtgärder i ett sådant scenario kan ljudeffektprocessorn göra ljudet tydligare genom att kompensera förvrängningen av uppspelningen.

Följande värden stöds:
  • eq_car – Optimera auditiv upplevelse när du tillhandahåller hög återgivning tal i bilar, bussar och andra omslutna bilar.
  • eq_telecomhp8k – Optimera auditiv upplevelse för smalbandstal i telekom- eller telefonscenarier. Du bör använda en samplingsfrekvens på 8 kHz. Om exempelfrekvensen inte är 8 kHz optimeras inte utdatatalets auditiva kvalitet.

Om värdet saknas eller är ogiltigt ignoreras det här attributet och ingen effekt tillämpas.
Valfritt

Röstexempel

Information om de värden som stöds för elementets attribut finns i voiceAnvända röstelement.

Exempel på en röst

I det en-US-AvaMultilingualNeural här exemplet används rösten.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        This is the text that is spoken.
    </voice>
</speak>

Exempel på flera röster

I elementet speak kan du ange flera röster för text till tal-utdata. Dessa röster kan finnas på olika språk. För varje röst måste texten vara omsluten i ett voice element.

Det här exemplet växlar mellan en-US-AvaMultilingualNeural rösterna och en-US-AndrewMultilingualNeural . Neurala flerspråkiga röster kan tala olika språk baserat på indatatexten.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Good morning!
    </voice>
    <voice name="en-US-AndrewMultilingualNeural">
        Good morning to you too Ava!
    </voice>
</speak>

Exempel på anpassad neural röst

Om du vill använda din anpassade neurala röst anger du modellnamnet som röstnamn i SSML.

I det här exemplet används en anpassad röst med namnet my-custom-voice.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="my-custom-voice">
        This is the text that is spoken.
    </voice>
</speak>

Exempel på ljudeffekt

Du använder effect attributet för att optimera auditiv upplevelse för scenarier som bilar och telekommunikation. I följande SSML-exempel används effect attributet med konfigurationen i bilscenarier.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural" effect="eq_car">
        This is the text that is spoken.
    </voice>
</speak>

Använda talformat och roller

Neurala röster har som standard en neutral talarstil. Du kan justera talstil, formatmall och roll på meningsnivå.

Kommentar

Speech-tjänsten stöder format, formatmallar och roller för en delmängd av neurala röster enligt beskrivningen i dokumentationen för röstformat och roller . Om du vill fastställa vilka format och roller som stöds för varje röst kan du också använda api:et liströster och webbprogrammet för att skapa ljudinnehåll.

I följande tabell beskrivs användningen av mstts:express-as elementets attribut:

Attribut beskrivning Obligatorisk eller valfri
style Den röstspecifika talstilen. Du kan uttrycka känslor som glädje, empati och lugn. Du kan också optimera rösten för olika scenarier som kundtjänst, nyhetssändning och röstassistent. Om formatvärdet saknas eller är ogiltigt ignoreras hela mstts:express-as elementet och tjänsten använder standardneutralt tal. Mer information om anpassade neurala röstformat finns i exemplet med anpassat neuralt röstformat. Obligatoriskt
styledegree Intensiteten i talstilen. Du kan ange ett starkare eller mjukare format för att göra talet mer uttrycksfullt eller dämpat. Intervallet för godkända värden är: 0.01 till 2 inkluderande. Standardvärdet är 1, vilket innebär den fördefinierade formatintensiteten. Den minsta enheten är 0.01, vilket resulterar i en liten tendens för målformatet. Ett värde för 2 resulterar i en fördubbling av standardstilintensiteten. Om formatgraden saknas eller inte stöds för din röst ignoreras det här attributet. Valfritt
role Det talande rollspelet. Rösten kan imitera en annan ålder och ett annat kön, men röstnamnet ändras inte. Till exempel kan en manlig röst höja tonhöjden och ändra intonationen till att imitera en kvinnlig röst, men röstnamnet ändras inte. Om rollen saknas eller inte stöds för din röst ignoreras det här attributet. Valfritt

I följande tabell beskrivs varje attribut som stöds style :

Format beskrivning
style="advertisement_upbeat" Uttrycker en upphetsad och högenergiton för att främja en produkt eller tjänst.
style="affectionate" Uttrycker en varm och tillgiven ton, med högre tonhöjd och röstenergi. Talaren är i ett tillstånd av att dra till sig lyssnarens uppmärksamhet. Talarens personlighet är ofta älskvärd i naturen.
style="angry" Uttrycker en arg och irriterad ton.
style="assistant" Uttrycker en varm och avslappnad ton för digitala assistenter.
style="calm" Uttrycker en cool, samlad och sammansatt attityd när man talar. Ton, tonhöjd och prosodi är mer enhetliga jämfört med andra typer av tal.
style="chat" Uttrycker en avslappnad och avslappnad ton.
style="cheerful" Uttrycker en positiv och glad ton.
style="customerservice" Uttrycker en vänlig och användbar ton för kundsupport.
style="depressed" Uttrycker en melankolisk och förtvivlad ton med lägre tonhöjd och energi.
style="disgruntled" Uttrycker en föraktfull och klagande ton. Tal av denna känsla visar missnöje och förakt.
style="documentary-narration" Berättar dokumentärer i en avslappnad, intresserad och informativ stil som lämpar sig för dubbning av dokumentärer, expertkommentarer och liknande innehåll.
style="embarrassed" Uttrycker en osäker och tveksam ton när talaren känner sig obekväm.
style="empathetic" Uttrycker en känsla av omsorg och förståelse.
style="envious" Uttrycker en ton av beundran när du önskar något som någon annan har.
style="excited" Uttrycker en optimistisk och hoppfull ton. Det låter som om något bra händer och talaren är glad över det.
style="fearful" Uttrycker en rädd och nervös ton, med högre tonhöjd, högre röstenergi och snabbare takt. Talaren är i ett tillstånd av spänning och oro.
style="friendly" Uttrycker en trevlig, inbjudande och varm ton. Det låter uppriktigt och omtänksamt.
style="gentle" Uttrycker en mild, artig och trevlig ton, med lägre tonhöjd och röstenergi.
style="hopeful" Uttrycker en varm och längtande ton. Det låter som om något bra kommer att hända med talaren.
style="lyrical" Uttrycker känslor på ett melodiskt och sentimentalt sätt.
style="narration-professional" Uttrycker en professionell, objektiv ton för innehållsläsning.
style="narration-relaxed" Uttrycker en lugnande och melodiös ton för innehållsläsning.
style="newscast" Uttrycker en formell och professionell ton för att berätta nyheter.
style="newscast-casual" Uttrycker en mångsidig och avslappnad ton för allmän nyhetsleverans.
style="newscast-formal" Uttrycker en formell, säker och auktoritativ ton för nyhetsleverans.
style="poetry-reading" Uttrycker en känslomässig och rytmisk ton när du läser en dikt.
style="sad" Uttrycker en sorgsen ton.
style="serious" Uttrycker en strikt och befallande ton. Högtalare låter ofta styvare och mycket mindre avslappnad med fast kadens.
style="shouting" Uttrycker en ton som låter som om rösten är avlägsen eller på en annan plats och anstränger sig för att bli tydligt hörd.
style="sports_commentary" Uttrycker en avslappnad och intresserad ton för att sända ett sportevenemang.
style="sports_commentary_excited" Uttrycker en intensiv och energisk ton för att sända spännande stunder i ett sportevenemang.
style="whispering" Uttrycker en mjuk ton som försöker göra ett tyst och mjukt ljud.
style="terrified" Uttrycker en rädd ton, med snabbare takt och en skakigare röst. Det låter som om talaren är i en ostadig och frenetisk status.
style="unfriendly" Uttrycker en kall och likgiltig ton.

Följande tabell innehåller beskrivningar av varje attribut som stöds role :

Roll beskrivning
role="Girl" Rösten imiterar en flicka.
role="Boy" Rösten imiterar en pojke.
role="YoungAdultFemale" Rösten imiterar en ung vuxen kvinna.
role="YoungAdultMale" Rösten imiterar en ung vuxen man.
role="OlderAdultFemale" Rösten imiterar en äldre vuxen kvinna.
role="OlderAdultMale" Rösten imiterar en äldre vuxen man.
role="SeniorFemale" Rösten imiterar en äldre kvinna.
role="SeniorMale" Rösten imiterar en äldre man.

mstts express-as-exempel

Information om de värden som stöds för elementets attribut finns i mstts:express-asAnvända talformat och roller.

Formatmall och examensexempel

Du använder elementet mstts:express-as för att uttrycka känslor som glädje, empati och lugn. Du kan också optimera rösten för olika scenarier som kundtjänst, nyhetssändning och röstassistent.

I följande SSML-exempel används elementet med stilgraden <mstts:express-as>sad2.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧,路上一定要注意安全,早去早回。
        </mstts:express-as>
    </voice>
</speak>

Rollexempel

Förutom att justera talstilarna och stilgraden kan du också justera parametern role så att rösten imiterar en annan ålder och ett annat kön. Till exempel kan en manlig röst höja tonhöjden och ändra intonationen till att imitera en kvinnlig röst, men röstnamnet ändras inte.

Det här SSML-kodfragmentet illustrerar hur role attributet används för att ändra rollspelet för zh-CN-XiaomoNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来,问道:
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的,怎么过来的?”
        </mstts:express-as>
        父亲放下手提包,说:
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的,路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

Exempel på anpassat neuralt röstformat

Du kan träna din anpassade neurala röst att tala med vissa förinställda format, till exempel cheerful, sadoch whispering. Du kan också träna en anpassad neural röst att tala i ett anpassat format enligt dina träningsdata. Om du vill använda ditt anpassade neurala röstformat i SSML anger du formatmallsnamnet som du tidigare angav i Speech Studio.

I det här exemplet används en anpassad röst med namnet my-custom-voice. Den anpassade rösten talar med den förinställda stil- cheerful och formatgraden 2, och sedan med ett anpassat format med namnet my-custom-style och style degree of 0.01.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="my-custom-voice">
        <mstts:express-as style="cheerful" styledegree="2">
            That'd be just amazing!
        </mstts:express-as>
        <mstts:express-as style="my-custom-style" styledegree="0.01">
            What's next?
        </mstts:express-as>
    </voice>
</speak>

Talarprofil-ID

Du använder elementet mstts:ttsembedding för att ange speakerProfileId egenskapen för en personlig röst. Personlig röst är en anpassad neural röst som tränas på din egen röst eller kundens röst. Mer information finns i skapa en personlig röst.

I följande SSML-exempel används elementet <mstts:ttsembedding> med röstnamn och talarprofil-ID.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak> 

Justera talspråk

Som standard kan flerspråkiga röster identifiera språket i indatatexten automatiskt och tala på språket för standardspråket för indatatexten utan att använda SSML. Du kan också använda elementet <lang xml:lang> för att justera talarspråket för dessa röster för att ange önskad accent, till exempel en-GB för brittisk engelska. Du kan justera talarspråket på både meningsnivå och ordnivå. Information om språk som stöds för flerspråkig röst finns i Flerspråkiga röster med lang-elementet för en tabell som visar syntax- <lang> och attributdefinitionerna.

I följande tabell beskrivs användningen av <lang xml:lang> elementets attribut:

Attribut beskrivning Obligatorisk eller valfri
xml:lang Det språk som du vill att den neurala rösten ska tala. Krävs för att justera talarspråket för den neurala rösten. Om du använder lang xml:langmåste nationella inställningar anges.

Kommentar

Elementet <lang xml:lang> är inte kompatibelt med elementen prosody och break . Du kan inte justera paus och prosody som tonhöjd, kontur, hastighet eller volym i det här elementet.

Flerspråkiga röster med lang-elementet

Använd avsnittet flerspråkiga röster för att avgöra vilka talspråk som Speech-tjänsten stöder för varje neural röst, vilket visas i följande exempeltabell. Om rösten inte talar indatatextens språk matar taltjänsten inte ut syntetiserat ljud.

Röst Språknummer som stöds Språk som stöds Automatiskt identifierade standardspråk för varje språk
en-US-AndrewMultilingualNeural1 (man)
en-US-AvaMultilingualNeural1 (kvinna)
en-US-BrianMultilingualNeural1 (man)
en-US-EmmaMultilingualNeural1 (kvinna)
77 afrikaaner, albaner, amhariska, arabiska, armeniska, azerbajdzjanska, bahasa indonesiska, bangla, baskiska, bengali, bosniska, bulgariska, burmesiska, Katalanska, kinesiska kantonesiska, kinesiska mandarin, kinesiska taiwanesiska, kroatiska, tjeckiska, danska, nederländska, engelska, estniska, filippinska, finska, franska, galiciska, georgiska, tyska, grekiska, hebreiska, hindi, ungerska, isländska, irländska, italienska, japanska, javanesiska, kannada, kazakiska, khmer, koreanska, lao, lettiska, litauiska, makedonska, malajiska, malayalam, maltesiska, mongoliska, nepalesiska, nepalesiska, Norska Bokmål, Pashto, persiska, polska, portugisiska, rumänska, ryska, serbiska, sinhala, slovakiska, slovenska, somaliska, spanska, sundanese, swahili, svenska,tamilska, telugu, thailändska, turkiska, ukrainska, Urdu, uzbekiska, vietnamesiska, walesiska, Zulu af-ZA, am-ET, ar-EG, az-AZ, bg-BG, bn-BD, bn-IN, bs-BA, ca-ES, cs-CZ, cy-GB, da-DK, de-DE, , el-GR, en-US, es-ES, eu-ESja-JPfr-FRhy-AMis-IShr-HRga-IEhu-HUjv-IDfi-FIhe-ILhi-INid-IDka-GEit-ITet-EEfa-IRfil-PHgl-ES, kk-KZ, , km-KH, kn-IN, , ko-KR, ml-INmn-MNmk-MKlv-LVlt-LTms-MYlo-LAmt-MTso-SOpl-PLnl-NLne-NPnb-NOps-AFpt-BRro-ROsi-LKsk-SKmy-MMsl-SIru-RU, , sq-AL, , sr-RSsu-ID, , , , sv-SEsw-KE, ta-IN, te-IN, th-TH, tr-TR, uk-UA, ur-PK, uz-UZ, vi-VN, , zh-CN, zh-HK, zh-TW, zu-ZA.

1 Det är neurala flerspråkiga röster i Azure AI Speech. Alla flerspråkiga röster kan tala på språket i standardspråket för indatatexten utan att använda SSML. Du kan dock fortfarande använda elementet <lang xml:lang> för att justera talande accent för varje språk för att ange önskad accent, till exempel brittisk accent (en-GB) för engelska. Det primära språket för varje röst anges med prefixet i dess namn, till exempel rösten en-US-AndrewMultilingualNeural, dess primära språk är en-US. Kontrollera den fullständiga listan över språk som stöds via SSML.

Kommentar

Flerspråkiga röster stöder inte helt vissa SSML-element, till exempel break, emphasis, silenceoch sub.

Lang-exempel

Information om de värden som stöds för elementets attribut finns i langJustera talande språk.

Du måste ange en-US som standardspråk i elementet speak , oavsett om språket justeras någon annanstans eller inte. I det här exemplet är en-USdet primära språket för en-US-AvaMultilingualNeural .

Det här SSML-kodavsnittet visar hur du använder <lang xml:lang> för att tala de-DE med neural en-US-AvaMultilingualNeural röst.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="de-DE">
            Wir freuen uns auf die Zusammenarbeit mit Ihnen!
        </lang>
    </voice>
</speak>

I elementet speak kan du ange flera språk, inklusive en-US för text till tal-utdata. För varje justerat språk måste texten matcha språket och omslutas i ett voice element. Det här SSML-kodavsnittet visar hur du använder <lang xml:lang> för att ändra talspråken till es-MX, en-USoch fr-FR.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="es-MX">
            ¡Esperamos trabajar con usted!
        </lang>
        <lang xml:lang="en-US">
           We look forward to working with you!
        </lang>
        <lang xml:lang="fr-FR">
            Nous avons hâte de travailler avec vous!
        </lang>
    </voice>
</speak>

Justera prosodi

Du kan använda elementet prosody för att ange ändringar i tonhöjd, kontur, intervall, hastighet och volym för text-till-tal-utdata. Elementet prosody kan innehålla text och följande element: audio, break, p, phoneme, prosody, say-as, och subs.

Eftersom prosomatiska attributvärden kan variera över ett brett intervall tolkar taligenkänningen de tilldelade värdena som ett förslag på vad de faktiska prosomada värdena för den valda rösten ska vara. Text till tal begränsar eller ersätter värden som inte stöds. Exempel på värden som inte stöds är en tonhöjd på 1 MHz eller en volym på 120.

I följande tabell beskrivs användningen av prosody elementets attribut:

Attribut beskrivning Obligatorisk eller valfri
contour Kontur representerar ändringar i tonhöjd. Dessa ändringar representeras som en matris med mål vid angiven tidpunkt positioner i talutdata. Uppsättningar med parameterpar definierar varje mål. Till exempel:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

Det första värdet i varje uppsättning parametrar anger platsen för tonhöjdsändringen som en procentandel av textens varaktighet. Det andra värdet anger hur mycket som ska höjas eller sänka tonhöjden med hjälp av ett relativt värde eller ett uppräkningsvärde för tonhöjd (se pitch).
Valfritt
pitch Anger originalplan för texten. Tonhöjdsändringar kan tillämpas på meningsnivå. Tonhöjdsändringarna ska vara mellan 0,5 och 1,5 gånger det ursprungliga ljudet. Du kan uttrycka tonhöjden som:
  • Ett absolut värde: Uttryckt som ett tal följt av "Hz" (Hertz). Exempel: <prosody pitch="600Hz">some text</prosody>
  • Ett relativt värde:
    • Som ett relativt tal: Uttryckt som ett tal som föregås av "+" eller "-" och följt av "Hz" eller "st" som anger ett belopp för att ändra tonhöjden. Till exempel: <prosody pitch="+80Hz">some text</prosody> eller <prosody pitch="-2st">some text</prosody>. "St" anger att ändringsenheten är halvton, vilket är hälften av en ton (ett halvt steg) på standarddiatonskalan.
    • I procent: Uttryckt som ett tal föregås av "+" (valfritt) eller "-" och följt av "%", som anger den relativa ändringen. Till exempel: <prosody pitch="50%">some text</prosody> eller <prosody pitch="-50%">some text</prosody>.
  • Ett konstant värde:
    • x-low
    • Låg
    • medel
    • Hög
    • x-high
    • standard
Valfritt
range Ett värde som representerar tonhöjdsintervallet för texten. Du kan uttrycka range med samma absoluta värden, relativa värden eller uppräkningsvärden som används för att beskriva pitch. Valfritt
rate Anger talhastigheten för texten. Talfrekvens kan tillämpas på ord- eller meningsnivå. Hastighetsändringarna bör vara inom 0.5 tidsintervallet för 2 det ursprungliga ljudet. Du kan uttrycka rate som:
  • Ett relativt värde:
    • Som ett relativt tal: Uttryckt som ett tal som fungerar som en multiplikator av standardvärdet. Ett värde för 1 resulterar till exempel inte i någon ändring i den ursprungliga kursen. Ett värde för 0.5 resulterar i en halvering av den ursprungliga kursen. Ett värde för 2 resulterar i dubbelt så mycket som den ursprungliga kursen.
    • I procent: Uttryckt som ett tal föregås av "+" (valfritt) eller "-" och följt av "%", som anger den relativa ändringen. Till exempel: <prosody rate="50%">some text</prosody> eller <prosody rate="-50%">some text</prosody>.
  • Ett konstant värde:
    • x-slow
    • långsam
    • medel
    • snabb
    • x-fast
    • standard
Valfritt
volume Anger talröstens volymnivå. Volymändringar kan tillämpas på meningsnivå. Du kan uttrycka volymen som:
  • Ett absolut värde: Uttryckt som ett tal i intervallet 0.0 till , från tystaste till mest högljudda, till exempel 75100.0. Standardvärdet är 100.0.
  • Ett relativt värde:
    • Som ett relativt tal: Uttryckt som ett tal föregås av "+" eller "-" som anger ett belopp för att ändra volymen. Exempel är +10 eller -5.5.
    • I procent: Uttryckt som ett tal föregås av "+" (valfritt) eller "-" och följt av "%", som anger den relativa ändringen. Till exempel: <prosody volume="50%">some text</prosody> eller <prosody volume="+3%">some text</prosody>.
  • Ett konstant värde:
    • Tyst
    • x-soft
    • mjuk
    • medel
    • Högt
    • x-högt
    • standard
Valfritt

Prosody-exempel

Information om de värden som stöds för elementets attribut finns i prosodyJustera prosody.

Ändra talfrekvensexempel

Det här SSML-kodavsnittet illustrerar hur rate attributet används för att ändra talfrekvensen till 30 % högre än standardfrekvensen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody rate="+30.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Ändra volymexempel

Det här SSML-kodavsnittet illustrerar hur volume attributet används för att ändra volymen till 20 % större än standardvolymen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody volume="+20.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

Ändra tonhöjdsexempel

Det här SSML-kodavsnittet illustrerar hur pitch attributet används så att rösten talar i hög tonhöjd.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
    </voice>
</speak>

Ändra lutningskonturexempel

Det här SSML-kodavsnittet illustrerar hur contour attributet används för att ändra konturen.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

Justera betoning

Du kan använda det valfria emphasis elementet för att lägga till eller ta bort stress på ordnivå för texten. Det här elementet kan bara innehålla text och följande element: audio, break, emphasis, lang, phoneme, prosody, say-as, suboch voice.

Kommentar

Betoningsjusteringen på ordnivå är endast tillgänglig för dessa neurala röster: en-US-GuyNeural, en-US-DavisNeuraloch en-US-JaneNeural.

För ord som har låg tonhöjd och kort varaktighet kanske tonhöjden inte höjs tillräckligt för att märkas.

I följande tabell beskrivs elementets emphasis attribut:

Attribut beskrivning Obligatorisk eller valfri
level Anger styrkan i den betoning som ska tillämpas:
  • reduced
  • none
  • moderate
  • strong
.
När attributet level inte har angetts är moderatestandardnivån . Mer information om varje attribut finns i betoningselementet.
Valfritt

Exempel på betoning

Information om de värden som stöds för elementets attribut finns emphasis i Justera betoning.

Det här SSML-kodfragmentet visar hur du kan använda elementet emphasis för att lägga till måttlig nivåbetoning för ordet "möten".

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AndrewMultilingualNeural">
    I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
    </voice>
</speak>

Lägg till inspelat ljud

Elementet audio är valfritt. Du kan använda den för att infoga förinspelat ljud i ett SSML-dokument. Elementets audio brödtext kan innehålla oformaterad text eller SSML-markering som talas om ljudfilen inte är tillgänglig eller inte går att spela upp. Elementet audio kan också innehålla text och följande element: audio, break, p, s, phoneme, prosody, , say-asoch sub.

Ljud som ingår i SSML-dokumentet måste uppfylla följande krav:

  • Ljudfilen måste vara giltig *.mp3, *.wav, *.opus, *.ogg, *.flac eller *.wma filer.
  • Den sammanlagda totala tiden för alla text- och ljudfiler i ett enda svar får inte överstiga 600 sekunder.
  • Ljudet får inte innehålla någon kundspecifik eller annan känslig information.

Kommentar

Elementet audio stöds inte av API:et för långt ljud. För långformatstext till tal använder du batchsyntes-API:et (förhandsversion) i stället.

I följande tabell beskrivs användningen av audio elementets attribut:

Attribut beskrivning Obligatorisk eller valfri
src URI-platsen för ljudfilen. Ljudet måste finnas på en Internettillgänglig HTTPS-slutpunkt. HTTPS krävs. Domänen som är värd för filen måste innehålla ett giltigt, betrott TLS/SSL-certifikat. Du bör placera ljudfilen i Blob Storage i samma Azure-region som text till talslutpunkt för att minimera svarstiden. Obligatoriskt

Ljudexempel

Information om de värden som stöds för elementets attribut finns i audioLägga till inspelat ljud.

Det här SSML-kodavsnittet visar hur du använder src attributet för att infoga ljud från två .wav filer.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

Justera ljudvaraktigheten

Använd elementet mstts:audioduration för att ange varaktigheten för utdataljudet. Använd det här elementet för att synkronisera tidpunkten för slutförande av ljudutdata. Ljudvaraktigheten kan minskas eller ökas mellan 0.5 tidsintervallet 2 för det ursprungliga ljudet. Det ursprungliga ljudet är ljudet utan andra frekvensinställningar. Talhastigheten saktas ned eller ökas i enlighet med detta baserat på det angivna värdet.

Inställningen för ljudvaraktighet gäller för all indatatext i dess omslutande voice element. Om du vill återställa eller ändra inställningen för ljudvaraktighet igen måste du använda ett nytt voice element med antingen samma röst eller en annan röst.

I följande tabell beskrivs användningen av mstts:audioduration elementets attribut:

Attribut beskrivning Obligatorisk eller valfri
value Den begärda varaktigheten för utdataljudet på några sekunder, till exempel 2s, eller millisekunder, till exempel 2000ms.

Det här värdet ska vara inom 0.5 tid till 2 det ursprungliga ljudet utan några andra hastighetsinställningar. Om den begärda varaktigheten för ljudet till exempel är 30småste det ursprungliga ljudet annars vara mellan 15 och 60 sekunder. Om du anger ett värde utanför dessa gränser anges varaktigheten enligt respektive minsta eller högsta multipel.

Med tanke på den begärda ljudvaraktigheten för utdata justerar Speech-tjänsten talfrekvensen i enlighet med detta. Använd röstliste-API:et WordsPerMinute och kontrollera attributet för att ta reda på talfrekvensen för den neurala röst som du använder. Du kan dela upp antalet ord i indatatexten med värdet WordsPerMinute för attributet för att få den ungefärliga ursprungliga ljudvaraktigheten för utdata. Utdataljudet låter mest naturligt när du anger den ljudvaraktighet som är närmast den uppskattade varaktigheten.
Obligatoriskt

exempel på mstts-ljudvaraktighet

Information om de värden som stöds för elementets mstts:audiodurationattribut finns i Justera ljudvaraktigheten.

I det här exemplet är det ursprungliga ljudet cirka 15 sekunder. Elementet mstts:audioduration används för att ange ljudvaraktigheten till 20 sekunder eller 20s.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

Lägg till bakgrundsljud

Du kan använda elementet mstts:backgroundaudio för att lägga till bakgrundsljud i dina SSML-dokument eller blanda en ljudfil med text till tal. Med mstts:backgroundaudiokan du loopa en ljudfil i bakgrunden, tona in i början av text till tal och tona ut i slutet av text till tal.

Om bakgrundsljudet som tillhandahålls är kortare än texten till tal eller tona ut, loopar det. Om den är längre än text till tal stoppas den när toningen är klar.

Endast en bakgrundsljudfil tillåts per SSML-dokument. Du kan interspersera audio taggar i elementet voice för att lägga till mer ljud i ditt SSML-dokument.

Kommentar

Elementet mstts:backgroundaudio ska placeras framför alla voice element. Om det anges måste det vara det första underordnade elementet speak .

Elementet mstts:backgroundaudio stöds inte av API:et för långt ljud. För långformatstext till tal använder du batchsyntes-API:et (förhandsversion) i stället.

I följande tabell beskrivs användningen av mstts:backgroundaudio elementets attribut:

Attribut beskrivning Obligatorisk eller valfri
src URI-platsen för bakgrundsljudfilen. Obligatoriskt
volume Volymen för bakgrundsljudfilen. Accepterade värden: 0 till 100 inkluderande. Standardvärdet är 1. Valfritt
fadein Varaktigheten för bakgrundsljudet tonas in som millisekunder. Standardvärdet är 0, vilket motsvarar ingen toning. Accepterade värden: 0 till 10000 inkluderande. Valfritt
fadeout Varaktigheten för bakgrundsljudet tonas ut i millisekunder. Standardvärdet är 0, vilket motsvarar ingen toning. Accepterade värden: 0 till 10000 inkluderande. Valfritt

mstss backgroundaudio-exempel

Information om de värden som stöds för elementets attribut finns i mstts:backgroundaudiLägg till bakgrundsljud.

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="en-US-AvaMultilingualNeural">
        The text provided in this document will be spoken over the background audio.
    </voice>
</speak>

Nästa steg