Verbessern der Synthese mit Markupsprache für Sprachsynthese (Speech Synthesis Markup Language, SSML)Improve synthesis with Speech Synthesis Markup Language (SSML)

Speech Synthesis Markup Language (SSML) ist eine XML-basierte Markupsprache, die Entwicklern ermöglicht, anzugeben, wie der Eingabetext mithilfe des Sprachsynthesediensts in synthetisierte Sprache konvertiert werden soll.Speech Synthesis Markup Language (SSML) is an XML-based markup language that lets developers specify how input text is converted into synthesized speech using the text-to-speech service. Verglichen mit Nur-Text ermöglicht SSML Entwicklern, die Tonhöhe, Aussprache, Sprechgeschwindigkeit, Lautstärke und mehr für die Ausgabe der Sprachsynthese zu optimieren.Compared to plain text, SSML allows developers to fine-tune the pitch, pronunciation, speaking rate, volume, and more of the text-to-speech output. Die normale Interpunktion, z.B. das Pausieren nach einem Punkt, oder die Verwendung der korrekten Intonation, wenn ein Satz mit einem Fragezeichen endet, werden automatisch verarbeitet.Normal punctuation, such as pausing after a period, or using the correct intonation when a sentence ends with a question mark are automatically handled.

Die Speech-Dienstimplementierung von SSML basiert auf der Markupsprache für Sprachsynthese, Version 1.0 des World Wide Web Consortiums.The Speech service implementation of SSML is based on World Wide Web Consortium's Speech Synthesis Markup Language Version 1.0.

Wichtig

Chinesische, japanische und koreanische Zeichen zählen bei der Abrechnung jeweils als zwei Zeichen.Chinese, Japanese, and Korean characters count as two characters for billing. Weitere Informationen finden Sie unter Preise.For more information, see Pricing.

Standard-, neuronale und benutzerdefinierte StimmenStandard, neural, and custom voices

Wählen Sie aus Standard- und neuronalen Stimmen, oder erstellen Sie Ihre eigene, benutzerdefinierte Stimme, die einzigartig für Ihr Produkt oder Ihre Marke ist.Choose from standard and neural voices, or create your own custom voice unique to your product or brand. Mehr als 75 Standardstimmen sind in mehr als 45 Sprachen und Gebietsschemas verfügbar, und 5 neuronale Stimmen sind in vier Sprachen und Gebietsschemas verfügbar.75+ standard voices are available in more than 45 languages and locales, and 5 neural voices are available in four languages and locales. Eine vollständige Liste der unterstützten Sprachen, Gebietsschemas und Stimmen (neuronal und Standard) finden Sie unter Sprachunterstützung.For a complete list of supported languages, locales, and voices (neural and standard), see language support.

Weitere Informationen zu Standard-, neuronalen und benutzerdefinierten Stimmen finden Sie unter Text-to-speech overview (Übersicht über die Sprachsynthese).To learn more about standard, neural, and custom voices, see Text-to-speech overview.

SonderzeichenSpecial characters

Beachten Sie bei Verwendung von SSML, dass Sonderzeichen wie Anführungszeichen, Apostrophe und Klammern mit Escapezeichen versehen werden müssen.While using SSML, keep in mind that special characters, such as quotation marks, apostrophes, and brackets must be escaped. Weitere Informationen finden Sie unter Extensible Markup Language (XML) 1.0: Anhang D.For more information, see Extensible Markup Language (XML) 1.0: Appendix D.

Unterstützte SSML-ElementeSupported SSML elements

Jedes SSML-Dokument wird mit SSML-Elementen (oder Tags) erstellt.Each SSML document is created with SSML elements (or tags). Diese Elemente werden zum Anpassen von Tonhöhe, Satzrhythmus, Lautstärke und mehr verwendet.These elements are used to adjust pitch, prosody, volume, and more. In den folgenden Abschnitten wird erläutert, wie die einzelnen Elemente verwendet werden und wann ein Element erforderlich oder optional ist.The following sections detail how each element is used, and when an element is required or optional.

Wichtig

Vergessen Sie nicht die Eingabe von doppelten Anführungszeichen um Attributwerte.Don't forget to use double quotes around attribute values. Die Standards für wohlgeformtes, gültiges XML erfordern es, dass Attributwerte in doppelten Anführungszeichen stehen.Standards for well-formed, valid XML requires attribute values to be enclosed in double quotation marks. So ist <prosody volume="90"> ein wohlgeformtes, gültiges Element, <prosody volume=90> aber nicht.For example, <prosody volume="90"> is a well-formed, valid element, but <prosody volume=90> is not. SSML erkennt möglicherweise nicht Attributwerte, die nicht in Anführungszeichen stehen.SSML may not recognize attribute values that are not in quotes.

Erstellen eines SSML-DokumentsCreate an SSML document

speak ist das Stammelement und bei allen SSML-Dokumenten erforderlich.speak is the root element, and is required for all SSML documents. Das speak-Element enthält wichtige Informationen, z.B. die Version, Sprache und die Definition des Markupvokabulars.The speak element contains important information, such as version, language, and the markup vocabulary definition.

SyntaxSyntax

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="string"></speak>

AttributeAttributes

attributeAttribute BESCHREIBUNGDescription Erforderlich/optionalRequired / Optional
version Gibt die Version der SSML-Spezifikation an, die zum Interpretieren des Dokumentmarkups verwendet wird.Indicates the version of the SSML specification used to interpret the document markup. Die aktuelle Version ist 1.0.The current version is 1.0. ErforderlichRequired
xml:lang Gibt die Sprache des Stammdokuments an.Specifies the language of the root document. Der Wert kann einen Kleinbuchstaben, einen Sprachcode aus zwei Buchstaben (z. B. en) oder den Sprachcode und Land/Region aus Großbuchstaben (z. B. en-US) enthalten.The value may contain a lowercase, two-letter language code (for example, en), or the language code and uppercase country/region (for example, en-US). ErforderlichRequired
xmlns Gibt den URI zu dem Dokument an, in dem das Markupvokabular (die Elementtypen und Attributnamen) des SSML-Dokuments definiert werden.Specifies the URI to the document that defines the markup vocabulary (the element types and attribute names) of the SSML document. Der aktuelle URI ist https://www.w3.org/2001/10/synthesis.The current URI is https://www.w3.org/2001/10/synthesis. ErforderlichRequired

Auswählen einer Stimme für SprachsyntheseChoose a voice for text-to-speech

Das voice-Element ist erforderlich.The voice element is required. Hiermit wird die Stimme angeben, für die Sprachsynthese verwendet wird.It is used to specify the voice that is used for text-to-speech.

SyntaxSyntax

<voice name="string">
    This text will get converted into synthesized speech.
</voice>

AttributeAttributes

attributeAttribute BESCHREIBUNGDescription Erforderlich/optionalRequired / Optional
name Identifiziert die Stimme, die für die Ausgabe der Sprachsynthese verwendet wird.Identifies the voice used for text-to-speech output. Eine vollständige Liste der unterstützten Stimmen finden Sie unter Sprachunterstützung.For a complete list of supported voices, see Language support. ErforderlichRequired

BeispielExample

Hinweis

In diesem Beispiel wird die Stimme en-US-Jessa24kRUS verwendet.This example uses the en-US-Jessa24kRUS voice. Eine vollständige Liste der unterstützten Stimmen finden Sie unter Sprachunterstützung.For a complete list of supported voices, see Language support.

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Jessa24kRUS">
        This is the text that is spoken.
    </voice>
</speak>

Verwenden mehrerer StimmenUse multiple voices

Innerhalb des speak-Elements können Sie mehrere Stimmen für die Ausgabe der Sprachsynthese angeben.Within the speak element, you can specify multiple voices for text-to-speech output. Diese Stimmen können in verschiedenen Sprachen sein.These voices can be in different languages. Der Text muss bei jeder Stimme von einem voice-Element umschlossen werden.For each voice, the text must be wrapped in a voice element.

AttributeAttributes

attributeAttribute BESCHREIBUNGDescription Erforderlich/optionalRequired / Optional
name Identifiziert die Stimme, die für die Ausgabe der Sprachsynthese verwendet wird.Identifies the voice used for text-to-speech output. Eine vollständige Liste der unterstützten Stimmen finden Sie unter Sprachunterstützung.For a complete list of supported voices, see Language support. ErforderlichRequired

Wichtig

Mehrere Stimmen sind nicht mit der Wortgrenzenfunktion kompatibel.Multiple voices are incompatible with the word boundary feature. Die Wortgrenzenfunktion muss deaktiviert werden, um mehrere Stimmen verwenden zu können.The word boundary feature needs to be disabled in order to use multiple voices.

Deaktivieren von WortgrenzenDisable word boundary

Abhängig von der Sprache des Speech SDK legen Sie die "SpeechServiceResponse_Synthesis_WordBoundaryEnabled"-Eigenschaft für eine Instanz des SpeechConfig-Objekts auf false fest.Depending on the Speech SDK language, you'll set the "SpeechServiceResponse_Synthesis_WordBoundaryEnabled" property to false on an instance of the SpeechConfig object.

Weitere Informationen finden Sie unter SetProperty .For more information, see SetProperty .

speechConfig.SetProperty(
    "SpeechServiceResponse_Synthesis_WordBoundaryEnabled", "false");

BeispielExample

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Jessa24kRUS">
        Good morning!
    </voice>
    <voice name="en-US-Guy24kRUS">
        Good morning to you too Jessa!
    </voice>
</speak>

Anpassen von SprechweisenAdjust speaking styles

Wichtig

Die Anpassung der Sprechstile funktioniert nur bei neuronalen Stimmen.The adjustment of speaking styles will only work with neural voices.

Standardmäßig synthetisiert der Sprachanalysedienst Text mithilfe einer neutralen Sprechweise sowohl bei Standard- als auch neuronalen Stimmen.By default, the text-to-speech service synthesizes text using a neutral speaking style for both standard and neural voices. Bei neuronalen Stimmen können Sie die Sprechweise anpassen, um mit dem <mstts:express-as>-Element Fröhlichkeit, Einfühlungsvermögen oder Stimmung auszudrücken.With neural voices, you can adjust the speaking style to express cheerfulness, empathy, or sentiment with the <mstts:express-as> element. Dies ist ein optionales Element und für den Speech-Dienst eindeutig.This is an optional element unique to the Speech service.

Anpassungen der Sprechweise werden derzeit bei diesen neuronalen Stimmen unterstützt:Currently, speaking style adjustments are supported for these neural voices:

  • en-US-JessaNeural
  • zh-CN-XiaoxiaoNeural

Änderungen werden auf Satzebene angewendet, und die Sprechweise variiert je nach Stimme.Changes are applied at the sentence level, and style vary by voice. Wenn keine Sprechweise unterstützt wird, gibt der Dienst Sprache in der neutralen Standardsprechweise zurück.If a style isn't supported, the service will return speech in the default neutral speaking style.

SyntaxSyntax

<mstts:express-as type="string"></mstts:express-as>

AttributeAttributes

attributeAttribute BESCHREIBUNGDescription Erforderlich/optionalRequired / Optional
type Gibt die Sprechweise an.Specifies the speaking style. Sprechweisen sind derzeit stimmenspezifisch.Currently, speaking styles are voice-specific. Erforderlich, wenn die Sprechweise für eine neuronale Stimme angepasst wird.Required if adjusting the speaking style for a neural voice. Bei Verwendung von mstts:express-as muss der Typ angegeben werden.If using mstts:express-as, then type must be provided. Bei Angabe eines ungültigen Werts wird dieses Element ignoriert.If an invalid value is provided, this element will be ignored.

Ermitteln Sie anhand dieser Tabelle, welche Sprechweisen für die einzelnen neuronalen Stimmen unterstützt werden.Use this table to determine which speaking styles are supported for each neural voice.

SpracheVoice typeType BESCHREIBUNGDescription
en-US-JessaNeural type="cheerful" Drückt eine positive und glückliche Emotion ausExpresses an emotion that is positive and happy
type="empathy" Drückt ein Gefühl von Anteilnahme und Verständnis ausExpresses a sense of caring and understanding
type="chat" Sprechen in einem lockeren, ungezwungenen TonSpeak in a casual, relaxed tone
type="newscast" Drückt einen formalen Ton ähnlich wie bei Nachrichtensendungen ausExpresses a formal tone, similar to news broadcasts
type="customerservice" Sprechen Sie als Kundendienst freundlich und geduldigSpeak in a friendly and patient way as customer service
zh-CN-XiaoxiaoNeural type="newscast" Drückt einen formalen Ton ähnlich wie bei Nachrichtensendungen ausExpresses a formal tone, similar to news broadcasts
type="sentiment" Vermittelt eine anrührende Botschaft oder GeschichteConveys a touching message or a story

BeispielExample

Dieser SSML-Codeausschnitt veranschaulicht, wie die Sprechweise mithilfe des <mstts:express-as>-Elements in cheerful (fröhlich) geändert wird.This SSML snippet illustrates how the <mstts:express-as> element is used to change the speaking style to cheerful.

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis"
       xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-JessaNeural">
        <mstts:express-as type="cheerful">
            That'd be just amazing!
        </mstts:express-as>
    </voice>
</speak>

Hinzufügen oder Entfernen einer Unterbrechung/PauseAdd or remove a break/pause

Verwenden Sie das break-Element zum Einfügen von Pausen (oder Unterbrechungen) zwischen Wörtern oder um Pausen zu verhindern, die vom Sprachsynthesedienst automatisch hinzugefügt werden.Use the break element to insert pauses (or breaks) between words, or prevent pauses automatically added by the text-to-speech service.

Hinweis

Mithilfe dieses Elements können Sie das Standardverhalten von TTS (Text-To-Speech, Text-zu-Sprache, Sprachsynthese) bei einem Wort oder Ausdruck außer Kraft setzen, wenn die synthetisierte Sprache dafür unnatürlich klingt.Use this element to override the default behavior of text-to-speech (TTS) for a word or phrase if the synthesized speech for that word or phrase sounds unnatural. Legen Sie strength auf none fest, um eine Unterbrechung des Satzrhythmus zu verhindern. Dieses Element wird automatisch vom Text-zu-Sprache-Dienst eingefügt.Set strength to none to prevent a prosodic break, which is automatically inserted by the text-to-speech service.

SyntaxSyntax

<break strength="string" />
<break time="string" />

AttributeAttributes

attributeAttribute BeschreibungDescription Erforderlich/optionalRequired / Optional
strength Gibt die relative Dauer einer Pause mit einem der folgenden Werte an:Specifies the relative duration of a pause using one of the following values:
  • nonenone
  • x-weakx-weak
  • weakweak
  • medium (Standard)medium (default)
  • strongstrong
  • x-strongx-strong
OptionalOptional
time Gibt die absolute Dauer einer Pause in Sekunden oder Millisekunden an.Specifies the absolute duration of a pause in seconds or milliseconds. Beispiele für gültige Werte sind 2s und 500Examples of valid values are 2s and 500 OptionalOptional
StrengthStrength BESCHREIBUNGDescription
„None“, oder wenn kein Wert angegebenNone, or if no value provided 0 ms0 ms
x-weakx-weak 250 ms250 ms
weakweak 500 ms500 ms
mittelmedium 750 ms750 ms
strongstrong 1.000 ms1000 ms
x-strongx-strong 1.250 ms1250 ms

BeispielExample

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Jessa24kRUS">
        Welcome to Microsoft Cognitive Services <break time="100ms" /> Text-to-Speech API.
    </voice>
</speak>

Angeben von Absätzen und SätzenSpecify paragraphs and sentences

p- und s-Elemente werden verwendet, um Abschnitte bzw. Sätze zu bezeichnen.p and s elements are used to denote paragraphs and sentences, respectively. Wenn diese Elemente fehlen, ermittelt der Sprachsynthesedienst automatisch die Struktur des SSML-Dokuments.In the absence of these elements, the text-to-speech service automatically determines the structure of the SSML document.

Das p-Element kann Text und die folgenden Elemente enthalten: audio, break, phoneme, prosody, say-as, sub, mstts:express-as und s.The p element may contain text and the following elements: audio, break, phoneme, prosody, say-as, sub, mstts:express-as, and s.

Das s-Element kann Text und die folgenden Elemente enthalten: audio, break, phoneme, prosody, say-as, mstts:express-as und sub.The s element may contain text and the following elements: audio, break, phoneme, prosody, say-as, mstts:express-as, and sub.

SyntaxSyntax

<p></p>
<s></s>

BeispielExample

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Jessa24kRUS">
        <p>
            <s>Introducing the sentence element.</s>
            <s>Used to mark individual sentences.</s>
        </p>
        <p>
            Another simple paragraph.
            Sentence structure in this paragraph is not explicitly marked.
        </p>
    </voice>
</speak>

Verwenden von Phonemen zur Verbesserung der AusspracheUse phonemes to improve pronunciation

Das ph-Element wird für die phonetische Aussprache in SSML-Dokumenten verwendet.The ph element is used to for phonetic pronunciation in SSML documents. Das ph-Element kann nur Text und keine anderen Elemente enthalten.The ph element can only contain text, no other elements. Geben Sie immer lesbare Sprache als ein Fallback an.Always provide human-readable speech as a fallback.

Phonetische Alphabete bestehen aus Phonen (Lauten), die sich aus Buchstaben, Zahlen oder Zeichen (manchmal in Kombination) zusammensetzen.Phonetic alphabets are composed of phones, which are made up of letters, numbers, or characters, sometimes in combination. Jedes Phon beschreibt einen eindeutigen Sprachklang.Each phone describes a unique sound of speech. Dies steht im Gegensatz zum lateinischen Alphabet, in dem jeder Buchstabe mehrere gesprochene Klänge darstellen kann.This is in contrast to the Latin alphabet, where any letter may represent multiple spoken sounds. Überlegen Sie die unterschiedliche Aussprache des Buchstabens „C“ in den Städtenamen „Coburg“ und „Celle“ oder die unterschiedliche Aussprache der Buchstabenkombination „ch“ in den Wörtern „ich“ und „ach“.Consider the different pronunciations of the letter "c" in the words "candy" and "cease", or the different pronunciations of the letter combination "th" in the words "thing" and "those".

SyntaxSyntax

<phoneme alphabet="string" ph="string"></phoneme>

AttributeAttributes

attributeAttribute BESCHREIBUNGDescription Erforderlich/optionalRequired / Optional
alphabet Gibt das phonetische Alphabet an, das verwendet werden soll, wenn die Aussprache der Zeichenfolge im ph-Attribut synthetisiert wird.Specifies the phonetic alphabet to use when synthesizing the pronunciation of the string in the ph attribute. Die Zeichenfolge, die das Alphabet angibt, muss in Kleinbuchstaben angegeben werden.The string specifying the alphabet must be specified in lowercase letters. Nachstehend sind die Alphabete aufgeführt, die Sie angeben können.The following are the possible alphabets that you may specify.
  • ipa – International Phonetic Alphabet (Internationales phonetisches Alphabet)ipa – International Phonetic Alphabet
  • sapi – Speech API Phone Set (Phongruppe für Spracheingabe-API)sapi – Speech API Phone Set
  • ups – Universal Phone Set (Universelle Phongruppe)ups – Universal Phone Set
Das Alphabet gilt nur für das Phonem im Element.The alphabet applies only to the phoneme in the element. Weitere Informationen finden Sie unter Phonetic Alphabet Reference (Referenz zum phonetischen Alphabet).For more information, see Phonetic Alphabet Reference.
OptionalOptional
ph Eine Zeichenfolge mit Phonen, die die Aussprache des Worts im phoneme-Element angeben.A string containing phones that specify the pronunciation of the word in the phoneme element. Wenn die angegebene Zeichenfolge nicht erkannte Phone enthält, weist der Sprachsynthesedienst das gesamte SSML-Dokument zurück und erzeugt keine der im Dokument angegebenen Sprachausgaben.If the specified string contains unrecognized phones, the text-to-speech (TTS) service rejects the entire SSML document and produces none of the speech output specified in the document. Erforderlich, wenn Phoneme verwendet werden.Required if using phonemes.

BeispieleExamples

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Jessa24kRUS">
        <s>His name is Mike <phoneme alphabet="ups" ph="JH AU"> Zhou </phoneme></s>
    </voice>
</speak>
<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Jessa24kRUS">
        <phoneme alphabet="ipa" ph="t&#x259;mei&#x325;&#x27E;ou&#x325;"> tomato </phoneme>
    </voice>
</speak>

Anpassen des SatzrhythmusAdjust prosody

Das prosody-Element wird verwendet, um Änderungen an Tonhöhe, Kontur, Bereich, Geschwindigkeit, Dauer und Lautstärke für die Ausgabe der Sprachsynthese anzugeben.The prosody element is used to specify changes to pitch, countour, range, rate, duration, and volume for the text-to-speech output. Das prosody-Element kann Text und die folgenden Elemente enthalten: audio, break, p, phoneme, prosody, say-as, sub und s.The prosody element may contain text and the following elements: audio, break, p, phoneme, prosody, say-as, sub, and s.

Weil Attributwerte für den Satzrhythmus über einen breiten Bereich variieren können, interpretiert die Spracherkennung die zugewiesenen Werte als einen Vorschlag dazu, wie die tatsächlichen Satzrhythmuswerte für die ausgewählte Stimme lauten sollten.Because prosodic attribute values can vary over a wide range, the speech recognizer interprets the assigned values as a suggestion of what the actual prosodic values of the selected voice should be. Der Sprachsynthesedienst beschränkt oder ersetzt nicht unterstützte Werte.The text-to-speech service limits or substitutes values that are not supported. Beispiele für nicht unterstützte Werte sind eine Tonhöhe von 1 MHz oder eine Lautstärke von 120.Examples of unsupported values are a pitch of 1 MHz or a volume of 120.

SyntaxSyntax

<prosody pitch="value" contour="value" range="value" rate="value" duration="value" volume="value"></prosody>

AttributeAttributes

attributeAttribute BESCHREIBUNGDescription Erforderlich/optionalRequired / Optional
pitch Gibt die Basistonhöhe für den Text an.Indicates the baseline pitch for the text. Sie können die Tonhöhe ausdrücken als:You may express the pitch as:
  • Ein absoluter Wert, der ausgedrückt wird als eine Zahl, hinter der„Hz“ (Hertz) steht.An absolute value, expressed as a number followed by "Hz" (Hertz). Beispielsweise 600 Hz.For example, 600 Hz.
  • Ein relativer Wert, der ausgedrückt wird als eine Zahl, vor der „+“ oder „–“ und hinter der „Hz“ oder „st“steht, das einen Betrag zur Änderung der Tonhöhe angibt.A relative value, expressed as a number preceded by "+" or "-" and followed by "Hz" or "st", that specifies an amount to change the pitch. Beispiel: „+80 Hz“ oder „-2st“.For example: +80 Hz or -2st. Das „st“ gibt an, dass die Änderungseinheit ein Halbton ist, bei dem es sich um die Hälfte eines Tons (ein halber Schritt) auf der diatonischen Standardtonleiter handelt.The "st" indicates the change unit is semitone, which is half of a tone (a half step) on the standard diatonic scale.
  • Einen konstanten Wert:A constant value:
    • x-lowx-low
    • niedriglow
    • mittelmedium
    • highhigh
    • x-highx-high
    • defaultdefault
erforderlich..
OptionalOptional
contour Die Kontur wird bei neuronalen Stimmen nicht unterstützt.Contour isn't supported for neural voices. Die Kontur stellt Änderungen der Tonhöhe dar.Contour represents changes in pitch. Diese Änderungen werden als ein Array von Zielen an den angegebenen Zeitpositionen in der Sprachausgabe dargestellt.These changes are represented as an array of targets at specified time positions in the speech output. Jedes Ziel wird durch Gruppen von Parameterpaaren definiert.Each target is defined by sets of parameter pairs. Beispiel:For example:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

Der erste Wert in jeder Gruppe von Parametern gibt den Ort der Tonhöhenänderung als Prozentsatz der Textdauer an.The first value in each set of parameters specifies the location of the pitch change as a percentage of the duration of the text. Der zweite Wert gibt den Betrag an, um den die Tonhöhe erhöht oder verringert werden soll. Dazu wird ein relativer Wert oder ein Aufzählungswert für die Tonhöhe verwendet (siehe pitch).The second value specifies the amount to raise or lower the pitch, using a relative value or an enumeration value for pitch (see pitch).
OptionalOptional
range Ein Wert, der den Tonhöhenbereich für den Text darstellt.A value that represents the range of pitch for the text. Sie können range mit denselben absoluten Werten, relativen Werten oder Aufzählungswerten ausdrücken, mit denen beschrieben pitch wird.You may express range using the same absolute values, relative values, or enumeration values used to describe pitch. OptionalOptional
rate Gibt die Sprechgeschwindigkeit für den Text an.Indicates the speaking rate of the text. Sie können rate ausdrücken als:You may express rate as:
  • Ein relativer Wert, der ausgedrückt wird als eine Zahl, die als Multiplikator des Standards fungiert.A relative value, expressed as a number that acts as a multiplier of the default. So führt beispielsweise der Wert 1 zu keiner Änderung der Geschwindigkeit.For example, a value of 1 results in no change in the rate. Der Wert 0,5 führt zu einer Halbierung der Geschwindigkeit.A value of 0.5 results in a halving of the rate. Der Wert 3 führt zu einer Verdreifachung der Geschwindigkeit.A value of 3 results in a tripling of the rate.
  • Einen konstanten Wert:A constant value:
    • x-slowx-slow
    • langsamslow
    • mittelmedium
    • fastfast
    • x-fastx-fast
    • defaultdefault
OptionalOptional
duration Die Zeitspanne in Sekunden oder Millisekunden, die vergehen sollte, während der Sprachsynthesedienst den Text liest.The period of time that should elapse while the speech synthesis (TTS) service reads the text, in seconds or milliseconds. Beispiel: 2s oder 1800ms.For example, 2s or 1800ms. OptionalOptional
volume Gibt die Lautstärke der Sprechstimme an.Indicates the volume level of the speaking voice. Sie können die Lautstärke ausdrücken als:You may express the volume as:
  • Ein absoluter Wert, der ausgedrückt wird als eine Zahl im Bereich von 0,0 bis 100,0 – von am leisesten bis zu am lautesten.An absolute value, expressed as a number in the range of 0.0 to 100.0, from quietest to loudest. Beispiel: „75“.For example, 75. Der Standardwert ist „100,0“.The default is 100.0.
  • Ein relativer Wert, der ausgedrückt wird als eine Zahl, vor der ein „+“ oder „–“ steht und die einen Betrag zum Ändern der Lautstärke angibt.A relative value, expressed as a number preceded by "+" or "-" that specifies an amount to change the volume. Beispiel: „+10“ oder „-5,5“.For example, +10 or -5.5.
  • Einen konstanten Wert:A constant value:
    • silentsilent
    • x-softx-soft
    • softsoft
    • mittelmedium
    • loudloud
    • x-loudx-loud
    • defaultdefault
OptionalOptional

Ändern der SprechgeschwindigkeitChange speaking rate

Die Sprechgeschwindigkeit kann auf Standardstimmen auf Wort- oder Satzebene angewendet werden.Speaking rate can be applied to standard voices at the word or sentence-level. Die Sprechgeschwindigkeit kann dagegen nur auf neuronale Stimmen auf Satzebene angewendet werden.Whereas speaking rate can only be applied to neural voices at the sentence level.

BeispielExample

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Guy24kRUS">
        <prosody rate="+30.00%">
            Welcome to Microsoft Cognitive Services Text-to-Speech API.
        </prosody>
    </voice>
</speak>

Ändern der LautstärkeChange volume

Änderungen der Lautstärke können auf Standardstimmen auf Wort- oder Satzebene angewendet werden.Volume changes can be applied to standard voices at the word or sentence-level. Änderungen der Lautstärke können dagegen nur auf neuronale Stimmen auf Satzebene angewendet werden.Whereas volume changes can only be applied to neural voices at the sentence level.

BeispielExample

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Jessa24kRUS">
        <prosody volume="+20.00%">
            Welcome to Microsoft Cognitive Services Text-to-Speech API.
        </prosody>
    </voice>
</speak>

Ändern der TonhöheChange pitch

Änderungen der Tonhöhe können auf Standardstimmen auf Wort- oder Satzebene angewendet werden.Pitch changes can be applied to standard voices at the word or sentence-level. Änderungen der Tonhöhe können dagegen nur auf neuronale Stimmen auf Satzebene angewendet werden.Whereas pitch changes can only be applied to neural voices at the sentence level.

BeispielExample

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Guy24kRUS">
        Welcome to <prosody pitch="high">Microsoft Cognitive Services Text-to-Speech API.</prosody>
    </voice>
</speak>

Ändern der TonhöhenkonturChange pitch contour

Wichtig

Änderungen der Tonhöhenkontur werden mit neuronalen Stimmen nicht unterstützt.Pitch contour changes aren't supported with neural voices.

BeispielExample

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Jessa24kRUS">
        <prosody contour="(80%,+20%) (90%,+30%)" >
            Good morning.
        </prosody>
    </voice>
</speak>

say-as-Elementsay-as element

say-as ist ein optionales Element, das den Inhaltstyp (z. B. Zahl oder Datum) für den Text des Elements angibt.say-as is an optional element that indicates the content type (such as number or date) of the element's text. Es informiert die Sprachsynthese-Engine, wie der Text ausgesprochen wird.This provides guidance to the speech synthesis engine about how to pronounce the text.

SyntaxSyntax

<say-as interpret-as="string" format="digit string" detail="string"> <say-as>

AttributeAttributes

attributeAttribute BeschreibungDescription Erforderlich/optionalRequired / Optional
interpret-as Gibt an, welchen Inhaltstyp der Text des Elements darstellt.Indicates the content type of element's text. Die folgende Tabelle listet die unterschiedlichen Typen auf.For a list of types, see the table below. ErforderlichRequired
format Enthält weitere Informationen, wie genau der Elementtext formatiert ist, für Inhaltstypen, die mehrdeutige Formate haben können.Provides additional information about the precise formatting of the element's text for content types that may have ambiguous formats. SSML definiert Formate für Inhaltstypen, die diese verwenden (siehe Tabelle unten).SSML defines formats for content types that use them (see table below). OptionalOptional
detail Gibt die Menge der auszusprechenden Details an.Indicates the level of detail to be spoken. Dieses Attribut könnte beispielsweise bei der Sprachsynthese-Engine die Aussprache von Satzzeichen anfordern.For example, this attribute might request that the speech synthesis engine pronounce punctuation marks. Für detail sind keine Standardwerte definiert.There are no standard values defined for detail. OptionalOptional

Im Folgenden finden Sie die unterstützten Inhaltstypen für die Attribute interpret-as und format.The following are the supported content types for the interpret-as and format attributes. Fügen Sie das format-Attribut nur dann ein, wenn interpret-as auf Datum und Uhrzeit festgelegt ist.Include the format attribute only if interpret-as is set to date and time.

interpret-asinterpret-as formatformat InterpretationInterpretation
address Der Text wird als Adresse ausgesprochen.The text is spoken as an address. Aussprache der Sprachsynthese-Engine:The speech synthesis engine pronounces:

I'm at <say-as interpret-as="address">150th CT NE, Redmond, WA</say-as>

Als „Ich bin am 150th Court Nordost Redmond Washington“.As "I'm at 150th court north east redmond washington."
cardinal, numbercardinal, number Der Text wird als Kardinalzahl ausgesprochen.The text is spoken as a cardinal number. Aussprache der Sprachsynthese-Engine:The speech synthesis engine pronounces:

There are <say-as interpret-as="cardinal">3</say-as> alternatives

Als „Es gibt drei Alternativen.“As "There are three alternatives."
characters, spell-outcharacters, spell-out Der Text wird als einzelner Buchstabe (buchstabiert) ausgesprochen.The text is spoken as individual letters (spelled out). Aussprache der Sprachsynthese-Engine:The speech synthesis engine pronounces:

<say-as interpret-as="characters">test</say-as>

Als „T E S T.“As "T E S T."
date TMJ, MTJ, JMT, JTM, JM, MT, TM, T, M, Jdmy, mdy, ymd, ydm, ym, my, md, dm, d, m, y Der Text wird als Datum ausgesprochen.The text is spoken as a date. Das format-Attribut gibt das Datumsformat an (T = Tag, M = Monat und J = Jahr).The format attribute specifies the date's format (d=day, m=month, and y=year). Aussprache der Sprachsynthese-Engine:The speech synthesis engine pronounces:

Today is <say-as interpret-as="date" format="mdy">10-19-2016</say-as>

Als „heute ist der neunzehnte Oktober zweitausendsechzehn“.As "Today is October nineteenth two thousand sixteen."
digits, number_digitdigits, number_digit Der Text wird als Sequenz einzelner Ziffern gesprochen.The text is spoken as a sequence of individual digits. Aussprache der Sprachsynthese-Engine:The speech synthesis engine pronounces:

<say-as interpret-as="number_digit">123456789</say-as>

Als „1 2 3 4 5 6 7 8 9“.As "1 2 3 4 5 6 7 8 9."
fraction Der Text wird als Bruchzahl ausgesprochen.The text is spoken as a fractional number. Aussprache der Sprachsynthese-Engine:The speech synthesis engine pronounces:

<say-as interpret-as="fraction">3/8</say-as> of an inch

Als „drei achtel Zoll“.As "three eighths of an inch."
ordinal Der Text wird als Ordinalzahl ausgesprochen.The text is spoken as an ordinal number. Aussprache der Sprachsynthese-Engine:The speech synthesis engine pronounces:

Select the <say-as interpret-as="ordinal">3rd</say-as> option

Als „Wählen Sie die dritte Option aus.“As "Select the third option".
telephone Der Text wird als Telefonnummer ausgesprochen.The text is spoken as a telephone number. Das Attribut format kann Ziffern enthalten, die einen Ländercode darstellen.The format attribute may contain digits that represent a country code. Beispiel: „1“ für die USA oder „39“ für Italien.For example, "1" for the United States or "39" for Italy. Die Sprachsynthese-Engine kann sich anhand dieser Informationen orientieren, wie eine Telefonnummer auszusprechen ist.The speech synthesis engine may use this information to guide its pronunciation of a phone number. Wenn die Telefonnummer ebenfalls den Ländercode enthält, hat dieser Vorrang vor dem Ländercode in format.The phone number may also include the country code, and if so, takes precedence over the country code in the format. Aussprache der Sprachsynthese-Engine:The speech synthesis engine pronounces:

The number is <say-as interpret-as="telephone" format="1">(888) 555-1212</say-as>

Als „Meine Nummer lautet Vorwahl acht acht acht fünf fünf fünf eins zwei eins zwei.“As "My number is area code eight eight eight five five five one two one two."
time hms12, hms24hms12, hms24 Der Text wird als Uhrzeit ausgesprochen.The text is spoken as a time. Das format-Attribut gibt an, ob die Uhrzeit im 12-Stunden-Format (hms12) oder 24-Stunden-Format (hms24) angegeben wird.The format attribute specifies whether the time is specified using a 12-hour clock (hms12) or a 24-hour clock (hms24). Verwenden Sie einen Doppelpunkt zum Trennen von Zahlen, die Stunden, Minuten und Sekunden darstellen.Use a colon to separate numbers representing hours, minutes, and seconds. Beispielsweise ist Folgendes zulässig: 12:35, 1:14:32, 08:15 und 02:50:45.The following are valid time examples: 12:35, 1:14:32, 08:15, and 02:50:45. Aussprache der Sprachsynthese-Engine:The speech synthesis engine pronounces:

The train departs at <say-as interpret-as="time" format="hms12">4:00am</say-as>

Als „Der Zug fährt um vier Uhr morgens.“As "The train departs at four A M."

VerwendungUsage

Das say-as-Element darf nur Text enthalten.The say-as element may contain only text.

BeispielExample

Die Sprachsynthese-Engine spricht den Beispielsatz wie folgt aus: „Ihre erste Anfrage war für ein Zimmer am neunzehnten Oktober zweitausendzehn mit frühzeitiger Ankunft um zwölf Uhr fünfunddreißig nachmittags“.The speech synthesis engine speaks the following example as "Your first request was for one room on October nineteenth twenty ten with early arrival at twelve thirty five PM."

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Jessa24kRUS">
        <p>
        Your <say-as interpret-as="ordinal"> 1st </say-as> request was for <say-as interpret-as="cardinal"> 1 </say-as> room
        on <say-as interpret-as="date" format="mdy"> 10/19/2010 </say-as>, with early arrival at <say-as interpret-as="time" format="hms12"> 12:35pm </say-as>.
        </p>
    </voice>
</speak>

Hinzufügen von AudioaufzeichnungenAdd recorded audio

audio ist ein optionales Element, mit dem Sie MP3-Audioaufzeichnungen in ein SSML-Dokument einfügen können.audio is an optional element that allows you to insert MP3 audio into an SSML document. Der Text des Elements „audio“ kann Nur-Text oder SSML-Markup enthalten, das verwendet wird, wenn die Audiodatei nicht verfügbar oder nicht abspielbar ist.The body of the audio element may contain plain text or SSML markup that's spoken if the audio file is unavailable or unplayable. Außerdem kann das Element audio Text und die folgenden Elemente enthalten: audio, break, p, s, phoneme, prosody, say-as und sub.Additionally, the audio element can contain text and the following elements: audio, break, p, s, phoneme, prosody, say-as, and sub.

Alle Audiodaten, die im SSML-Dokument enthalten sind, müssen die folgenden Anforderungen erfüllen:Any audio included in the SSML document must meet these requirements:

  • Die MP3-Datei muss auf einem HTTPS-Endpunkt gehostet werden, der über das Internet zugänglich ist.The MP3 must be hosted on an Internet-accessible HTTPS endpoint. HTTPS ist erforderlich, und die Domäne, die die MP3-Datei hostet, muss ein gültiges vertrauenswürdiges SSL-Zertifikat enthalten.HTTPS is required, and the domain hosting the MP3 file must present a valid, trusted SSL certificate.
  • Es muss es sich um eine gültige MP3-Datei (MPEG v2) handeln.The MP3 must be a valid MP3 file (MPEG v2).
  • Die Bitrate muss 48 KBit/s betragen.The bit rate must be 48 kbps.
  • Die Abtastrate muss bei 16.000 Hz liegen.The sample rate must be 16,000 Hz.
  • Die Gesamtzeit für alle Text- und Audiodateien in einer einzelnen Antwort darf nicht über 90 Sekunden liegen.The combined total time for all text and audio files in a single response cannot exceed ninety (90) seconds.
  • Die MP3-Datei darf keine kundenspezifischen oder andere vertrauliche Informationen enthalten.The MP3 must not contain any customer-specific or other sensitive information.

SyntaxSyntax

<audio src="string"/></audio>

AttributeAttributes

attributeAttribute BESCHREIBUNGDescription Erforderlich/optionalRequired / Optional
src Gibt den Speicherort bzw. die URL der Audiodatei an.Specifies the location/URL of the audio file. Erforderlich, wenn Sie das Element „audio“ im SSML-Dokument verwenden.Required if using the audio element in your SSML document.

BeispielExample

<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Jessa24kRUS">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

Hinzufügen von HintergrundaudioaufnahmenAdd background audio

Das Element mstts:backgroundaudio ermöglicht es Ihnen, Hintergrundaudioaufnahmen zu Ihren SSML-Dokumenten hinzuzufügen (oder eine Audiodatei mit Text-zu-Sprache zu vermischen).The mstts:backgroundaudio element allows you to add background audio to your SSML documents (or mix an audio file with text-to-speech). Mithilfe von mstts:backgroundaudio können Sie im Hintergrund eine Audiodatei in Dauerschleife abspielen, die am Anfang der Text-zu-Sprache-Aufnahme ein und am Ende wieder ausgeblendet wird.With mstts:backgroundaudio you can loop an audio file in the background, fade in at the beginning of text-to-speech, and fade out at the end of text-to-speech.

Wenn die bereitgestellte Hintergrundaudiospur kürzer ist als die Text-zu-Sprache-Aufnahme oder das Ausblenden, wird diese wieder von vorne abgespielt.If the background audio provided is shorter than the text-to-speech or the fade out, it will loop. Wenn sie länger als die Text-zu-Sprache-Aufnahme ist, wird sie angehalten, sobald der Ausblendevorgang abgeschlossen ist.If it is longer than the text-to-speech, it will stop when the fade out has finished.

Pro SSML-Dokument ist nur eine Hintergrundaudiodatei zulässig.Only one background audio file is allowed per SSML document. Sie können jedoch audio-Tags in das Element voice integrieren, um dem SSML-Dokument zusätzliche Audioaufnahmen hinzuzufügen.However, you can intersperse audio tags within the voice element to add additional audio to your SSML document.

SyntaxSyntax

<mstts:backgroundaudio src="string" volume="string" fadein="string" fadeout="string"/>

AttributeAttributes

attributeAttribute BESCHREIBUNGDescription Erforderlich/optionalRequired / Optional
src Gibt den Speicherort bzw. die URL der Hintergrundaudiodatei an.Specifies the location/URL of the background audio file. Erforderlich, wenn Sie eine Hintergrundaudioaufnahme in Ihrem SSML-Dokument verwenden.Required if using background audio in your SSML document.
volume Gibt die Lautstärke der Hintergrundaudiodatei an.Specifies the volume of the background audio file. Akzeptierte Werte: 0 bis 100 (einschließlich).Accepted values: 0 to 100 inclusive. Standardwert: 1.The default value is 1. OptionalOptional
fadein Gibt (in Millisekunden) an, wie lange die Hintergrundaudiodatei eingeblendet wird.Specifies the duration of the background audio "fade in" as milliseconds. Der Standardwert ist 0, was dem „Nicht einblenden“ entspricht.The default value is 0, which is the equivalent to no fade in. Akzeptierte Werte: 0 bis 10000 (einschließlich).Accepted values: 0 to 10000 inclusive. OptionalOptional
fadeout Gibt (in Millisekunden) an, wie lange die Hintergrundaudiodatei ausgeblendet wird.Specifies the duration of the background audio fade out in milliseconds. Der Standardwert ist 0, was dem „Nicht ausblenden“ entspricht. Akzeptierte Werte: 0 bis 10000 (einschließlich).The default value is 0, which is the equivalent to no fade out. Accepted values: 0 to 10000 inclusive. OptionalOptional

BeispielExample

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="Microsoft Server Speech Text to Speech Voice (en-US, Jessa24kRUS)">
        The text provided in this document will be spoken over the background audio.
    </voice>
</speak>

Nächste SchritteNext steps