音声合成マークアップ言語 (SSML) を使用して合成を改善するImprove synthesis with Speech Synthesis Markup Language (SSML)

音声合成マークアップ言語 (SSML) は、XML ベースのマークアップ言語であり、これにより、開発者はテキスト読み上げサービスを使用して、入力テキストを合成音声に変換する方法を指定することができます。Speech Synthesis Markup Language (SSML) is an XML-based markup language that lets developers specify how input text is converted into synthesized speech using the text-to-speech service. プレーンテキストと比較して、SSML では、開発者が音声合成出力のピッチ、読み方、読み上げ速度、音量などを微調整できます。Compared to plain text, SSML allows developers to fine-tune the pitch, pronunciation, speaking rate, volume, and more of the text-to-speech output. 通常の句読点は、ピリオドの後の一時停止、または文が疑問符で終わるときの正しいイントネーションの使用など、自動的に処理されます。Normal punctuation, such as pausing after a period, or using the correct intonation when a sentence ends with a question mark are automatically handled.

SSML の Speech Service の実装は、World Wide Web コンソーシアムの音声合成マークアップ言語バージョン 1.0 に基づいています。The Speech service implementation of SSML is based on World Wide Web Consortium's Speech Synthesis Markup Language Version 1.0.

重要

中国語、日本語、韓国語の文字は、2 文字としてカウントされ課金されます。Chinese, Japanese, and Korean characters count as two characters for billing. 詳細については、価格に関するページをご覧ください。For more information, see Pricing.

標準音声、ニューラル音声、およびカスタム音声Standard, neural, and custom voices

音声は、標準音声およびニューラル音声から選択できますが、製品やブランドに固有のカスタム音声を独自に作成することもできます。Choose from standard and neural voices, or create your own custom voice unique to your product or brand. 標準音声は、45 を超える言語およびロケールで 75 種類以上が用意されています。ニューラル音声は、4 つの言語およびロケールで 5 種類が用意されています。75+ standard voices are available in more than 45 languages and locales, and 5 neural voices are available in four languages and locales. サポートされている言語、ロケール、および音声 (ニューラルと標準) の完全な一覧については、言語のサポートに関するページを参照してください。For a complete list of supported languages, locales, and voices (neural and standard), see language support.

標準音声、ニューラル音声、およびカスタム音声の詳細については、テキスト読み上げの概要に関するページを参照してください。To learn more about standard, neural, and custom voices, see Text-to-speech overview.

特殊文字Special characters

SSML を使用するとき、引用符、アポストロフィ、角かっこなどの特殊文字をエスケープする必要があることに注意してください。While using SSML, keep in mind that special characters, such as quotation marks, apostrophes, and brackets must be escaped. 詳細については、「Extensible Markup Language (XML) 1.0: Appendix D」 (拡張マークアップ言語 (XML) 1.0: 付録 D) を参照してください。For more information, see Extensible Markup Language (XML) 1.0: Appendix D.

サポートされている SSML 要素Supported SSML elements

SSML の各ドキュメントは、SSML 要素 (またはタグ) を使用して作成されます。Each SSML document is created with SSML elements (or tags). これらの要素は、ピッチ、韻律、音量などの調整に使用されます。These elements are used to adjust pitch, prosody, volume, and more. 次のセクションでは、各要素の使用方法と、要素がいつ必須か省略可能かについて説明します。The following sections detail how each element is used, and when an element is required or optional.

重要

必ず二重引用符を使用して属性値を囲んでください。Don't forget to use double quotes around attribute values. 適切な形式の有効な XML の標準では、属性値を二重引用符で囲む必要があります。Standards for well-formed, valid XML requires attribute values to be enclosed in double quotation marks. たとえば、<prosody volume="90"> は適切な形式で有効な要素ですが、<prosody volume=90> はそうではありません。For example, <prosody volume="90"> is a well-formed, valid element, but <prosody volume=90> is not. SSML は、引用符で囲まれていない属性値を認識しない場合があります。SSML may not recognize attribute values that are not in quotes.

SSML ドキュメントを作成するCreate an SSML document

speak はルート要素であり、SSML のすべてのドキュメントで必須です。speak is the root element, and is required for all SSML documents. speak 要素には、バージョン、言語、およびマークアップのボキャブラリ定義などの重要な情報が含まれています。The speak element contains important information, such as version, language, and the markup vocabulary definition.

構文Syntax

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="string"></speak>

属性Attributes

属性Attribute 説明Description 必須/省略可能Required / Optional
version ドキュメント マークアップの解釈に使用される SSML 仕様のバージョンを指定します。Indicates the version of the SSML specification used to interpret the document markup. 現行バージョンは 1.0 です。The current version is 1.0. 必須Required
xml:lang ルート ドキュメントの言語を指定します。Specifies the language of the root document. この値には、小文字、2 文字の言語コード (en など)、または言語コードと大文字の国/地域 (en-US など) を含めることができます。The value may contain a lowercase, two-letter language code (for example, en), or the language code and uppercase country/region (for example, en-US). 必須Required
xmlns SSML のドキュメントのマークアップ ボキャブラリ (要素型と属性名) を定義するドキュメントへの URI を指定します。Specifies the URI to the document that defines the markup vocabulary (the element types and attribute names) of the SSML document. 現在の URI は http://www.w3.org/2001/10/synthesis です。The current URI is http://www.w3.org/2001/10/synthesis. 必須Required

テキスト読み上げのための音声を選択するChoose a voice for text-to-speech

voice 要素は必須です。The voice element is required. テキスト読み上げに使用される音声を指定するために使用されます。It is used to specify the voice that is used for text-to-speech.

構文Syntax

<voice name="string">
    This text will get converted into synthesized speech.
</voice>

属性Attributes

属性Attribute 説明Description 必須/省略可能Required / Optional
name テキスト読み上げの出力に使用される音声を識別します。Identifies the voice used for text-to-speech output. サポートされている声の全一覧については、言語のサポートに関するページを参照してください。For a complete list of supported voices, see Language support. 必須Required

Example

注意

この例では、en-US-AriaRUS 音声を使用します。This example uses the en-US-AriaRUS voice. サポートされている声の全一覧については、言語のサポートに関するページを参照してください。For a complete list of supported voices, see Language support.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaRUS">
        This is the text that is spoken.
    </voice>
</speak>

複数の音声の使用Use multiple voices

speak 要素内には、テキスト読み上げの出力用の複数の音声を指定することができます。Within the speak element, you can specify multiple voices for text-to-speech output. これらの音声はさまざまな言語で指定できます。These voices can be in different languages. 音声ごとに、テキストを voice 要素にラップする必要があります。For each voice, the text must be wrapped in a voice element.

属性Attributes

属性Attribute 説明Description 必須/省略可能Required / Optional
name テキスト読み上げの出力に使用される音声を識別します。Identifies the voice used for text-to-speech output. サポートされている声の全一覧については、言語のサポートに関するページを参照してください。For a complete list of supported voices, see Language support. 必須Required

重要

複数の音声はワード境界機能に対応していません。Multiple voices are incompatible with the word boundary feature. 複数の音声を使用するには、ワード境界機能を無効にする必要があります。The word boundary feature needs to be disabled in order to use multiple voices.

ワード境界を無効にするDisable word boundary

Speech SDK 言語に基づき、SpeechConfig オブジェクトのインスタンスで "SpeechServiceResponse_Synthesis_WordBoundaryEnabled" プロパティを false に設定します。Depending on the Speech SDK language, you'll set the "SpeechServiceResponse_Synthesis_WordBoundaryEnabled" property to false on an instance of the SpeechConfig object.

詳細については、 SetProperty を参照してください。For more information, see SetProperty .

speechConfig.SetProperty(
    "SpeechServiceResponse_Synthesis_WordBoundaryEnabled", "false");

Example

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaRUS">
        Good morning!
    </voice>
    <voice name="en-US-Guy24kRUS">
        Good morning to you too Aria!
    </voice>
</speak>

話し方を調整するAdjust speaking styles

重要

ニューラル音声でのみ、話し方を調整できます。The adjustment of speaking styles will only work with neural voices.

既定では、テキスト読み上げサービスは、標準の音声とニューラル音声の両方のニュートラルな話し方を使用してテキストを合成します。By default, the text-to-speech service synthesizes text using a neutral speaking style for both standard and neural voices. ニューラル音声を使用すると、明るさ、共感、落ち着きなどのさまざまな感情を表現するように話し方を調整することや、mstts:express-as 要素を使用してカスタマー サービス、ニュース放送、音声アシスタントなどのさまざまなシナリオに合わせて音声を最適化することができます。With neural voices, you can adjust the speaking style to express different emotions like cheerfulness, empathy, and calm, or optimize the voice for different scenarios like customer service, newscasting and voice assistant, using the mstts:express-as element. これは、Speech Service に固有の省略可能な要素です。This is an optional element unique to the Speech service.

現在、これらのニューラル音声では話し方の調整がサポートされています。Currently, speaking style adjustments are supported for these neural voices:

  • en-US-AriaNeural
  • zh-CN-XiaoxiaoNeural
  • zh-CN-YunyangNeural

変更は文章レベルで適用され、スタイルは音声によって異なります。Changes are applied at the sentence level, and styles vary by voice. スタイルがサポートされていない場合、サービスは既定のニュートラルな話し方の音声を返します。If a style isn't supported, the service will return speech in the default neutral speaking style. 各音声でサポートされているスタイルは、音声の一覧 API で照会できます。You can query the styles supported for each voice through the voice list API.

中国語の音声 XiaoxiaoNeural では、ユースケースに合わせて話し方の強度をさらに変更できます。For Chinese voice XiaoxiaoNeural, the intensity of speaking style can be further changed to better fit your use case. styledegree でより強いスタイルやより柔らかいスタイルを指定して、音声の表現力を高めたり抑えたりできます。You can specify a stronger or softer style with styledegree to make the speech more expressive or subdued.

構文Syntax

<mstts:express-as style="string" styledegree="value"></mstts:express-as>

注意

現時点では、styledegree は XiaoxiaoNeural のみをサポートします。At the moment, styledegree only supports XiaoxiaoNeural.

属性Attributes

属性Attribute 説明Description 必須/省略可能Required / Optional
style 話し方を指定します。Specifies the speaking style. 現在のところ、話し方は音声に固有です。Currently, speaking styles are voice-specific. ニューラル音声の話し方を調整する場合は、必須です。Required if adjusting the speaking style for a neural voice. mstts:express-as を使用する場合は、スタイルを指定する必要があります。If using mstts:express-as, then style must be provided. 無効な値を指定すると、この要素は無視されます。If an invalid value is provided, this element will be ignored.
styledegree 話し方の強度を指定します。Specifies the intensity of speaking style. 指定可能な値:0.01 ~ 2 (0.01 と 2 を含む)。Accepted values: 0.01 to 2 inclusive. 既定値は、定義済みのスタイル強度を表す 1 です。The default value is 1 which means the predefined style intensity. 最小単位は 0.01 で、ターゲットのスタイルにわずかに傾きます。The minimum unit is 0.01 which results in a slightly tendency for the target style. 値を 2 にすると、既定のスタイル強度が 2 倍になります。A value of 2 results in a doubling of the default style intensity. 省略可能 (現時点では、styledegree は XiaoxiaoNeural のみをサポートします)。Optional (At the moment, styledegree only supports XiaoxiaoNeural.)

各ニューラル音声でサポートされている話し方を確認するには、次の表を使用してください。Use this table to determine which speaking styles are supported for each neural voice.

音声Voice StyleStyle 説明Description
en-US-AriaNeural style="newscast-formal" ニュースを配信するときの改まった、自信に満ちた、威厳のある語調を表しますExpresses a formal, confident and authoritative tone for news delivery
style="newscast-casual" 一般的なニュースを配信するときの汎用的でカジュアルな語調を表しますExpresses a versatile and casual tone for general news delivery
style="customerservice" カスタマー サポート向けのフレンドリーでわかりやすい語調を表しますExpresses a friendly and helpful tone for customer support
style="chat" カジュアルでリラックスした語調を表しますExpresses a casual and relaxed tone
style="cheerful" 肯定的で幸せな語調を表しますExpresses a positive and happy tone
style="empathetic" 思いやりと理解を示しますExpresses a sense of caring and understanding
zh-CN-XiaoxiaoNeural style="newscast" ニュースを読み上げる改まった職業的な語調を表しますExpresses a formal and professional tone for narrating news
style="customerservice" カスタマー サポート向けのフレンドリーでわかりやすい語調を表しますExpresses a friendly and helpful tone for customer support
style="assistant" デジタル アシスタント向けの暖かくてリラックスした語調を表しますExpresses a warm and relaxed tone for digital assistants
style="chat" おしゃべり向けのカジュアルでリラックスした語調を表しますExpresses a casual and relaxed tone for chit-chat
style="calm" 話すときの冷静で落ち着いた態度を表します。Expresses a cool, collected, and composed attitude when speaking. 他の種類の音声に比べて、語調、ピッチ、韻律がかなり均一になります。Tone, pitch, prosody is much more uniform compared to other types of speech.
style="cheerful" 高いピッチと音声エネルギーにより、陽気で熱狂的な語調を表しますExpresses an upbeat and enthusiastic tone, with higher pitch and vocal energy
style="sad" 高いピッチ、低い強度、低い音声エネルギーにより、悲しそうな語調を表します。Expresses a sorrowful tone, with higher pitch, less intensity, and lower vocal energy. この感情の一般的な指標は、話し中のすすり泣きや号泣です。Common indicators of this emotion would be whimpers or crying during speech.
style="angry" 低いピッチ、高い強度、高い音声エネルギーにより、怒っていらだっている語調を表します。Expresses an angry and annoyed tone, with lower pitch, higher intensity, and higher vocal energy. 話者は、激怒し、不機嫌で、立腹した状態にあります。The speaker is in a state of being irate, displeased, and offended.
style="fearful" 高いピッチ、高い音声エネルギー、速いスピードにより、おびえた神経質な語調を表します。Expresses a scared and nervous tone, with higher pitch, higher vocal energy, and faster rate. 話者は、緊張して不安な状態にあります。The speaker is in a state of tenseness and uneasiness.
style="disgruntled" 軽蔑的で不満のある語調を表します。Expresses a disdainful and complaining tone. この感情の音声は、不満と軽蔑を表します。Speech of this emotion displays displeasure and contempt.
style="serious" 厳しく威圧するような語調を表します。Expresses a strict and commanding tone. 話者は、多くの場合、安定したリズムで、堅苦しい緊張感の高い話し方をします。Speaker often sounds stiffer and much less relaxed with firm cadence.
style="affectionate" 高いピッチと音声エネルギーにより、温かみのある優しい語調を表します。Expresses a warm and affectionate tone, with higher pitch and vocal energy. 話者は、聞き手の注目を集める状態にあります。The speaker is in a state of attracting the attention of the listener. 多くの場合、話者の「パーソナリティ」が実際に聞き手の心を引きつけています。The “personality” of the speaker is often endearing in nature.
style="gentle" 低いピッチと音声エネルギーにより、穏やかで礼儀正しく心地よい語調を表しますExpresses a mild, polite, and pleasant tone, with lower pitch and vocal energy
style="lyrical" 音楽的でセンチメンタルな方法で感情を表現しますExpresses emotions in a melodic and sentimental way
zh-CN-YunyangNeural style="customerservice" カスタマー サポート向けのフレンドリーでわかりやすい語調を表しますExpresses a friendly and helpful tone for customer support

Example

この SSML スニペットは、<mstts:express-as> 要素を使用して話し方を cheerful に変更する方法を示しています。This SSML snippet illustrates how the <mstts:express-as> element is used to change the speaking style to cheerful.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AriaNeural">
        <mstts:express-as style="cheerful">
            That'd be just amazing!
        </mstts:express-as>
    </voice>
</speak>

この SSML スニペットは、styledegree 属性を使用して XiaoxiaoNeural の話し方の強度を変更する方法を示しています。This SSML snippet illustrates how the styledegree attribute is used to change the intensity of speaking style for XiaoxiaoNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
       xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaoxiaoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧,路上一定要注意安全,早去早回。
        </mstts:express-as>
    </voice>
</speak>

中断/一時停止を追加または削除するAdd or remove a break/pause

break を使用して、単語間に一時停止 (または中断) を挿入したり、テキスト読み上げサービスによって一時停止が自動的に追加されないようにしたりします。Use the break element to insert pauses (or breaks) between words, or prevent pauses automatically added by the text-to-speech service.

注意

この要素を使用して、単語または語句の合成された音声が不自然に聞こえる場合に、その単語または語句のテキスト読み上げ (TTS) の既定の動作をオーバーライドします。Use this element to override the default behavior of text-to-speech (TTS) for a word or phrase if the synthesized speech for that word or phrase sounds unnatural. strengthnone に設定して、テキスト読み上げサービスによって自動的に挿入される韻律的な中断を防ぎます。Set strength to none to prevent a prosodic break, which is automatically inserted by the text-to-speech service.

構文Syntax

<break strength="string" />
<break time="string" />

属性Attributes

属性Attribute 説明Description 必須/省略可能Required / Optional
strength 次のいずれかの値を使用して、一時停止の相対的な時間を指定します。Specifies the relative duration of a pause using one of the following values:
  • なしnone
  • x-weakx-weak
  • weakweak
  • medium (既定値)medium (default)
  • strongstrong
  • x-strongx-strong
省略可能Optional
time 一時停止の絶対時間を秒またはミリ秒で指定します。Specifies the absolute duration of a pause in seconds or milliseconds. 2s500 は有効な値の例ですExamples of valid values are 2s and 500 省略可能Optional
StrengthStrength 説明Description
なし、または値が指定されていない場合None, or if no value provided 0 ミリ秒0 ms
x-weakx-weak 250 ミリ秒250 ms
weakweak 500 ミリ秒500 ms
medium 750 ミリ秒750 ms
strongstrong 1000 ミリ秒1000 ms
x-strongx-strong 1250 ミリ秒1250 ms

Example

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaNeural">
        Welcome to Microsoft Cognitive Services <break time="100ms" /> Text-to-Speech API.
    </voice>
</speak>

段落や文を指定するSpecify paragraphs and sentences

p 要素と s 要素は、それぞれ段落と文を表すために使用します。p and s elements are used to denote paragraphs and sentences, respectively. これらの要素がない場合は、テキスト読み上げサービスで SSML ドキュメントの構造が自動的に決定されます。In the absence of these elements, the text-to-speech service automatically determines the structure of the SSML document.

p 要素には、テキストと、要素 audiobreakphonemeprosodysay-assubmstts:express-as、および s を含めることができます。The p element may contain text and the following elements: audio, break, phoneme, prosody, say-as, sub, mstts:express-as, and s.

s 要素には、テキストと、要素 audiobreakphonemeprosodysay-asmstts:express-as、および sub を含めることができます。The s element may contain text and the following elements: audio, break, phoneme, prosody, say-as, mstts:express-as, and sub.

構文Syntax

<p></p>
<s></s>

Example

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaRUS">
        <p>
            <s>Introducing the sentence element.</s>
            <s>Used to mark individual sentences.</s>
        </p>
        <p>
            Another simple paragraph.
            Sentence structure in this paragraph is not explicitly marked.
        </p>
    </voice>
</speak>

音素を使用して発音を向上させるUse phonemes to improve pronunciation

ph 要素は、SSML ドキュメントの発音のために使用します。The ph element is used to for phonetic pronunciation in SSML documents. ph 要素に含めることができるのはテキストのみで、その他の要素を含めることはできません。The ph element can only contain text, no other elements. 常に人間が判読できる音声をフォールバックとして提供します。Always provide human-readable speech as a fallback.

音標文字は音素で構成され、英字、数字、または文字から成り、場合によってはその組み合わせで構成されます。Phonetic alphabets are composed of phones, which are made up of letters, numbers, or characters, sometimes in combination. それぞれの音素は、音声の一意の音を示します。Each phone describes a unique sound of speech. これは、文字が複数の話された音を表す場合があるラテン文字とは対照的です。This is in contrast to the Latin alphabet, where any letter may represent multiple spoken sounds. "candy" と "cease" という単語の文字 "c" の異なる発音や、"thing" と "those" の文字の組み合わせ "th" の異なる発音を考えてみてください。Consider the different pronunciations of the letter "c" in the words "candy" and "cease", or the different pronunciations of the letter combination "th" in the words "thing" and "those".

構文Syntax

<phoneme alphabet="string" ph="string"></phoneme>

属性Attributes

属性Attribute 説明Description 必須/省略可能Required / Optional
alphabet ph 属性の文字列の発音を合成するときに使用する音標文字を指定します。Specifies the phonetic alphabet to use when synthesizing the pronunciation of the string in the ph attribute. アルファベット順を指定する文字列は、小文字で指定する必要があります。The string specifying the alphabet must be specified in lowercase letters. 指定できる可能性のあるアルファベットは次のとおりです。The following are the possible alphabets that you may specify.
アルファベットは、要素内の phoneme にのみ適用されます。The alphabet applies only to the phoneme in the element..
省略可能Optional
ph phoneme 要素内の単語の発音を指定する音素を含む文字列。A string containing phones that specify the pronunciation of the word in the phoneme element. 指定した文字列に認識されない音素が含まれている場合、テキスト読み上げ (TTS) サービスは SSML ドキュメント全体を拒否し、ドキュメントに指定されている音声出力を生成しません。If the specified string contains unrecognized phones, the text-to-speech (TTS) service rejects the entire SSML document and produces none of the speech output specified in the document. 音素を使用する場合は必須です。Required if using phonemes.

使用例Examples

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaRUS">
        <phoneme alphabet="ipa" ph="t&#x259;mei&#x325;&#x27E;ou&#x325;"> tomato </phoneme>
    </voice>
</speak>
<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaRUS">
        <phoneme alphabet="sapi" ph="iy eh n y uw eh s"> en-US </phoneme>
    </voice>
</speak>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaRUS">
        <s>His name is Mike <phoneme alphabet="ups" ph="JH AU"> Zhou </phoneme></s>
    </voice>
</speak>

カスタム辞書を使用して発音を改善するUse custom lexicon to improve pronunciation

テキスト読み上げサービスでは、単語を正確に発音できない場合があります。Sometimes the text-to-speech service cannot accurately pronounce a word. たとえば、会社名や医学用語などです。For example, the name of a company, or a medical term. 開発者は、phoneme および sub タグを使用して、SSML で 1 つのエンティティの読み方を定義できます。Developers can define how single entities are read in SSML using the phoneme and sub tags. 一方、複数のエンティティの読み方を定義する必要がある場合は、lexicon タグを使用してカスタム辞書を作成できます。However, if you need to define how multiple entities are read, you can create a custom lexicon using the lexicon tag.

注意

現在、カスタム辞書では UTF-8 エンコードがサポートされています。Custom lexicon currently supports UTF-8 encoding.

構文Syntax

<lexicon uri="string"/>

属性Attributes

属性Attribute 説明Description 必須/省略可能Required / Optional
uri 外部 PLS ドキュメントのアドレス。The address of the external PLS document. 必須。Required.

使用方法Usage

複数のエンティティの読み方を定義するには、.xml ファイルまたは .pls ファイルとして保存されるカスタム辞書を作成します。To define how multiple entities are read, you can create a custom lexicon, which is stored as an .xml or .pls file. 次に、サンプルの .xml ファイルを示します。The following is a sample .xml file.

<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0" 
      xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
      xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon 
        http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
      alphabet="ipa" xml:lang="en-US">
  <lexeme>
    <grapheme>BTW</grapheme> 
    <alias>By the way</alias> 
  </lexeme>
  <lexeme>
    <grapheme> Benigni </grapheme> 
    <phoneme> bɛˈniːnji</phoneme>
  </lexeme>
</lexicon>

lexicon 要素には、少なくとも 1 つの lexeme 要素が含まれています。The lexicon element contains at least one lexeme element. lexeme 要素には、少なくとも 1 つの grapheme 要素と、1 つ以上の graphemealias、および phoneme 要素が含まれています。Each lexeme element contains at least one grapheme element and one or more grapheme, alias, and phoneme elements. grapheme 要素には、正書法 を説明するテキストが含まれています。The grapheme element contains text describing the orthography . alias 要素は、頭字語または短縮語の発音を示すために使用されます。The alias elements are used to indicate the pronunciation of an acronym or an abbreviated term. phoneme 要素には、lexeme の発音方法を説明するテキストを指定します。The phoneme element provides text describing how the lexeme is pronounced.

カスタム辞書を使用して単語の発音を直接設定することはできない点に注意してください。It's important to note, that you cannot directly set the pronunciation of a word using the custom lexicon. 頭字語または短縮語の発音を設定する必要がある場合は、まず alias を指定し、次に phoneme をその alias に関連付けます。If you need to set the pronunciation for an acronym or an abbreviated term, first provide an alias, then associate the phoneme with that alias. 次に例を示します。For example:

  <lexeme>
    <grapheme>Scotland MV</grapheme> 
    <alias>ScotlandMV</alias> 
  </lexeme>
  <lexeme>
    <grapheme>ScotlandMV</grapheme> 
    <phoneme>ˈskɒtlənd.ˈmiːdiəm.weɪv</phoneme>
  </lexeme>

重要

IPA を使用する場合、phoneme 要素に空白を含めることはできません。The phoneme element cannot contain white spaces when using IPA.

カスタム辞書ファイルの詳細については、「Pronunciation Lexicon Specification (PLS) Version 1.0 (発音辞書仕様 (PLS) バージョン 1.0)」を参照してください。For more information about custom lexicon file, see Pronunciation Lexicon Specification (PLS) Version 1.0.

次に、カスタム辞書ファイルを発行します。Next, publish your custom lexicon file. このファイルの格納場所に関する制限はありませんが、Azure Blob Storage を使用することをお勧めします。While we don't have restrictions on where this file can be stored, we do recommend using Azure Blob Storage.

カスタム辞書を発行した後は、SSML から参照できます。After you've published your custom lexicon, you can reference it from your SSML.

注意

lexicon 要素は voice 要素内に指定する必要があります。The lexicon element must be inside the voice element.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
          xmlns:mstts="http://www.w3.org/2001/mstts" 
          xml:lang="en-US">
    <voice name="en-US-AriaRUS">
        <lexicon uri="http://www.example.com/customlexicon.xml"/>
        BTW, we will be there probably at 8:00 tomorrow morning.
        Could you help leave a message to Robert Benigni for me?
    </voice>
</speak>

このカスタム辞書を使用すると、"BTW" は "By the way" と読まれます。When using this custom lexicon, "BTW" will be read as "By the way". "Benigni" は、IPA の指定により、"bɛˈniːnji" と読まれます。"Benigni" will be read with the provided IPA "bɛˈniːnji".

制限事項Limitations

  • ファイル サイズ: カスタム辞書ファイル サイズの上限は 100 KB です。このサイズを超えると、合成要求は失敗します。File size: custom lexicon file size maximum limit is 100KB, if beyond this size, synthesis request will fail.
  • 辞書キャッシュの更新: カスタム辞書は、最初に読み込まれたときに TTS サービスのキーとして URI と共にキャッシュされます。Lexicon cache refresh: custom lexicon will be cached with URI as key on TTS Service when it's first loaded. 15 分間は同じ URI の辞書が再読み込みされないため、カスタム辞書の変更が反映されるまでに最大 15 分間待つ必要があります。Lexicon with same URI won't be reloaded within 15 mins, so custom lexicon change needs to wait at most 15 mins to take effect.

Speech サービス発音設定Speech service phonetic sets

上記のサンプルでは、国際音標アルファベット(IPA 音素セットとも呼ばれます) を使用しています。In the sample above, we're using the International Phonetic Alphabet, also known as the IPA phone set. IPA は国際標準であるため、開発者は IPA を使用することをお勧めします。We suggest developers use the IPA, because it is the international standard. 一部の IPA 文字には、Unicode で表現したときに "事前構成される" バージョンと "分解される" バージョンがあります。For some IPA characters, they have the 'precomposed' and 'decomposed' version when being represented with Unicode. カスタム辞書では、分解される unicode のみがサポートされます。Custom lexicon only support the decomposed unicodes.

IPA は覚えにくいため、Speech サービスでは、7 つの言語 (en-USfr-FRde-DEes-ESja-JPzh-CNzh-TW) の発音セットが定義されています。Considering that the IPA is not easy to remember, the Speech service defines a phonetic set for seven languages (en-US, fr-FR, de-DE, es-ES, ja-JP, zh-CN, and zh-TW).

次に示すように、カスタム辞書では alphabet 属性の谷として sapi を使用できます。You can use the sapi as the vale for the alphabet attribute with custom lexicons as demonstrated below:

<?xml version="1.0" encoding="UTF-8"?>
<lexicon version="1.0" 
      xmlns="http://www.w3.org/2005/01/pronunciation-lexicon"
      xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
      xsi:schemaLocation="http://www.w3.org/2005/01/pronunciation-lexicon
        http://www.w3.org/TR/2007/CR-pronunciation-lexicon-20071212/pls.xsd"
      alphabet="sapi" xml:lang="en-US">
  <lexeme>
    <grapheme>BTW</grapheme>
    <alias> By the way </alias>
  </lexeme>
  <lexeme>
    <grapheme> Benigni </grapheme>
    <phoneme> b eh 1 - n iy - n y iy </phoneme>
  </lexeme>
</lexicon>

詳細な Speech サービスの発音記号については、「Speech サービス発音設定」を参照してください。For more information on the detailed Speech service phonetic alphabet, see the Speech service phonetic sets.

韻律を調整するAdjust prosody

prosody 要素を使用して、テキスト読み上げ出力のピッチ、音調、範囲、速度、期間、および音量に対する変更を指定します。The prosody element is used to specify changes to pitch, contour, range, rate, duration, and volume for the text-to-speech output. prosody 要素には、テキストと、要素 audiobreakpphonemeprosodysay-assub、および s を含めることができます。The prosody element may contain text and the following elements: audio, break, p, phoneme, prosody, say-as, sub, and s.

韻律属性値は広範囲にわたって変化する可能性があるため、音声認識エンジンは、割り当てられた値を、選択された音声の実際の韻律値を連想するものとして解釈します。Because prosodic attribute values can vary over a wide range, the speech recognizer interprets the assigned values as a suggestion of what the actual prosodic values of the selected voice should be. テキスト読み上げサービスは、サポートされていない値を制限するか、置き換えます。The text-to-speech service limits or substitutes values that are not supported. サポートされていない値の例として、1 MHz のピッチまたは 120 の音量があります。Examples of unsupported values are a pitch of 1 MHz or a volume of 120.

構文Syntax

<prosody pitch="value" contour="value" range="value" rate="value" duration="value" volume="value"></prosody>

属性Attributes

属性Attribute 説明Description 必須/省略可能Required / Optional
pitch テキストのベースラインのピッチを示します。Indicates the baseline pitch for the text. ピッチは次のように表されます。You may express the pitch as:
  • 絶対値。数字の後に "Hz" (ヘルツ) が付いて表されます。An absolute value, expressed as a number followed by "Hz" (Hertz). たとえば、600 Hz。For example, 600 Hz.
  • 相対値。前に "+" または "-" が付き、後にピッチの変更量を指定する "Hz" または "st" が付いた数字として表されます。A relative value, expressed as a number preceded by "+" or "-" and followed by "Hz" or "st", that specifies an amount to change the pitch. たとえば、+80 Hz、-2st。For example: +80 Hz or -2st. "st" は、変更単位が半音 (標準の全音階での全音の半分) であることを示します。The "st" indicates the change unit is semitone, which is half of a tone (a half step) on the standard diatonic scale.
  • 定数値:A constant value:
    • x-lowx-low
    • lowlow
    • medium
    • highhigh
    • x-highx-high
    • defaultdefault
..
省略可能Optional
contour ニューラル音声と標準音声の両方で音調がサポートされるようになりました。Contour now supports both neural and standard voices. 音調とは音の高さの変化です。Contour represents changes in pitch. この変化は、音声出力において指定の時間位置にあるターゲットの配列として表わされます。These changes are represented as an array of targets at specified time positions in the speech output. 各ターゲットは、パラメーターのペアのセットによって定義されます。Each target is defined by sets of parameter pairs. 次に例を示します。For example:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

パラメーターの各セットの最初の値は、ピッチの変更位置をテキストの継続時間の割合として指定します。The first value in each set of parameters specifies the location of the pitch change as a percentage of the duration of the text. 2 番目の値は、ピッチの相対値または列挙値を使用して、ピッチを増減する量を指定します (pitch を参照)。The second value specifies the amount to raise or lower the pitch, using a relative value or an enumeration value for pitch (see pitch).
省略可能Optional
range テキストのピッチの範囲を表す値。A value that represents the range of pitch for the text. range は、pitch の記述に使用されるものと同じ絶対値、相対値、または列挙値を使用して表すことができます。You may express range using the same absolute values, relative values, or enumeration values used to describe pitch. 省略可能Optional
rate テキストの読み上げ速度を示します。Indicates the speaking rate of the text. rate は次のように表されます。You may express rate as:
  • 相対値。既定値の乗数として機能する数字で表されます。A relative value, expressed as a number that acts as a multiplier of the default. たとえば、値 1 では速度は変更されません。For example, a value of 1 results in no change in the rate. 0.5 では、速度が半分になります。A value of 0.5 results in a halving of the rate. 3 では、速度が 3 倍になります。A value of 3 results in a tripling of the rate.
  • 定数値:A constant value:
    • x-slowx-slow
    • slowslow
    • medium
    • fastfast
    • x-fastx-fast
    • defaultdefault
省略可能Optional
duration 音声合成 (TTS) サービスがテキストを読んでいる間に経過する時間 (秒またはミリ秒)。The period of time that should elapse while the speech synthesis (TTS) service reads the text, in seconds or milliseconds. たとえば、2s または 1800ms です。For example, 2s or 1800ms. 省略可能Optional
volume 読み上げている音声の音量レベルを示します。Indicates the volume level of the speaking voice. 音量は次のように表されます。You may express the volume as:
  • 絶対値。0.0 から 100.0 (quietest から loudest まで) の範囲の数字として表されます。An absolute value, expressed as a number in the range of 0.0 to 100.0, from quietest to loudest. たとえば、75 です。For example, 75. 既定値は 100.0 です。The default is 100.0.
  • 相対値。音量の変更量を指定する、前に "+" または "-" が付いた数字として表されます。A relative value, expressed as a number preceded by "+" or "-" that specifies an amount to change the volume. たとえば、+10、-5.5。For example, +10 or -5.5.
  • 定数値:A constant value:
    • silentsilent
    • x-softx-soft
    • softsoft
    • medium
    • loudloud
    • x-loudx-loud
    • defaultdefault
省略可能Optional

読み上げ速度を変更するChange speaking rate

読み上げ速度は、ニューラル音声と標準音声に対して単語または文章レベルで適用できます。Speaking rate can be applied to Neural voices and standard voices at the word or sentence-level.

Example

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-GuyNeural">
        <prosody rate="+30.00%">
            Welcome to Microsoft Cognitive Services Text-to-Speech API.
        </prosody>
    </voice>
</speak>

音量を変更するChange volume

音量変更は、標準の音声に対して単語または文章レベルで適用できます。Volume changes can be applied to standard voices at the word or sentence-level. ただし、ニューラル音声の場合、音量変更は文章レベルでのみ適用できます。Whereas volume changes can only be applied to neural voices at the sentence level.

Example

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaRUS">
        <prosody volume="+20.00%">
            Welcome to Microsoft Cognitive Services Text-to-Speech API.
        </prosody>
    </voice>
</speak>

ピッチを変更するChange pitch

ピッチ変更は、標準の音声に対して単語または文章レベルで適用できます。Pitch changes can be applied to standard voices at the word or sentence-level. ただし、ニューラル音声の場合、ピッチ変更は文章レベルでのみ適用できます。Whereas pitch changes can only be applied to neural voices at the sentence level.

Example

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-Guy24kRUS">
        Welcome to <prosody pitch="high">Microsoft Cognitive Services Text-to-Speech API.</prosody>
    </voice>
</speak>

ピッチ曲線を変更するChange pitch contour

重要

ピッチ曲線の変更が、ニューラル音声でサポートされるようになりました。Pitch contour changes are now supported with neural voices.

Example

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room? 
        </prosody>
    </voice>
</speak>

say-as 要素say-as element

say-as は、要素のテキストのコンテンツの種類 (数値や日付など) を示す省略可能な要素です。say-as is an optional element that indicates the content type (such as number or date) of the element's text. これにより、音声合成エンジンにテキストを発音する方法に関するガイダンスが提供されます。This provides guidance to the speech synthesis engine about how to pronounce the text.

構文Syntax

<say-as interpret-as="string" format="digit string" detail="string"> <say-as>

属性Attributes

属性Attribute 説明Description 必須/省略可能Required / Optional
interpret-as 要素のテキストのコンテンツの種類を示します。Indicates the content type of element's text. 種類の一覧については、次の表を参照してください。For a list of types, see the table below. 必須Required
format あいまいな形式を持つ可能性のあるコンテンツの種類に対して、要素のテキストの正確な書式設定に関する追加情報を提供します。Provides additional information about the precise formatting of the element's text for content types that may have ambiguous formats. SSML では、それらを使用するコンテンツの種類の形式が定義されます (次の表を参照)。SSML defines formats for content types that use them (see table below). 省略可能Optional
detail 読み上げられる詳細のレベルを示します。Indicates the level of detail to be spoken. たとえば、この属性では、音声合成エンジンが句読点を発音するように要求する場合があります。For example, this attribute might request that the speech synthesis engine pronounce punctuation marks. detail に対して定義されている標準値はありません。There are no standard values defined for detail. 省略可能Optional

interpret-as および format 属性でサポートされているコンテンツの種類は、次のとおりです。The following are the supported content types for the interpret-as and format attributes. interpret-as が日付と時刻に設定されている場合にのみ、format 属性を含めます。Include the format attribute only if interpret-as is set to date and time.

interpret-asinterpret-as formatformat 解釈Interpretation
address テキストはアドレスとして読み上げられます。The text is spoken as an address. 音声合成エンジンでは次のように発音されます。The speech synthesis engine pronounces:

I'm at <say-as interpret-as="address">150th CT NE, Redmond, WA</say-as>

"I'm at 150th court north east redmond washington" (私はワシントン州レドモンド 150th コート ノースイーストにいます)。As "I'm at 150th court north east redmond washington."
cardinal, numbercardinal, number テキストは基数として読み上げられます。The text is spoken as a cardinal number. 音声合成エンジンでは次のように発音されます。The speech synthesis engine pronounces:

There are <say-as interpret-as="cardinal">3</say-as> alternatives

"There are three alternatives" (代替手段は 3 つあります)。As "There are three alternatives."
characters, spell-outcharacters, spell-out テキストは、個別の文字 (綴り) として読み上げられます。The text is spoken as individual letters (spelled out). 音声合成エンジンでは次のように発音されます。The speech synthesis engine pronounces:

<say-as interpret-as="characters">test</say-as>

"T E S T"。As "T E S T."
date dmy、mdy、ymd、ydm、ym、my、md、dm、d、m、ydmy, mdy, ymd, ydm, ym, my, md, dm, d, m, y テキストは日付として読み上げられます。The text is spoken as a date. format 属性では、日付の形式を指定します (d=日、m=月、y=年)。The format attribute specifies the date's format (d=day, m=month, and y=year). 音声合成エンジンでは次のように発音されます。The speech synthesis engine pronounces:

Today is <say-as interpret-as="date" format="mdy">10-19-2016</say-as>

"Today is October nineteenth two thousand sixteen" (今日は 2016 年 10 月 19 日です)。As "Today is October nineteenth two thousand sixteen."
digits, number_digitdigits, number_digit テキストは、個別の数字のシーケンスとして読み上げられます。The text is spoken as a sequence of individual digits. 音声合成エンジンでは次のように発音されます。The speech synthesis engine pronounces:

<say-as interpret-as="number_digit">123456789</say-as>

"1 2 3 4 5 6 7 8 9"。As "1 2 3 4 5 6 7 8 9."
fraction テキストは分数として読み上げられます。The text is spoken as a fractional number. 音声合成エンジンでは次のように発音されます。The speech synthesis engine pronounces:

<say-as interpret-as="fraction">3/8</say-as> of an inch

"three eighths of an inch" (1 インチの 8 分の 3)。As "three eighths of an inch."
ordinal テキストは序数として読み上げられます。The text is spoken as an ordinal number. 音声合成エンジンでは次のように発音されます。The speech synthesis engine pronounces:

Select the <say-as interpret-as="ordinal">3rd</say-as> option

"3 つ目のオプションを選択します"。As "Select the third option".
telephone テキストは電話番号として読み上げられます。The text is spoken as a telephone number. format 属性には、国番号を表す数字を含めることができます。The format attribute may contain digits that represent a country code. たとえば、米国の場合は "1"、イタリアの場合は "39" になります。For example, "1" for the United States or "39" for Italy. 音声合成エンジンでは、この情報を使用して、電話番号の発音するガイドにすることができます。The speech synthesis engine may use this information to guide its pronunciation of a phone number. 電話番号には、国番号を含めることもできます。その場合は、format の国番号よりも優先されます。The phone number may also include the country code, and if so, takes precedence over the country code in the format. 音声合成エンジンでは次のように発音されます。The speech synthesis engine pronounces:

The number is <say-as interpret-as="telephone" format="1">(888) 555-1212</say-as>

"My number is area code eight eight eight five five five one two one two" (私の番号は市外局番 888 555 1212 です)。As "My number is area code eight eight eight five five five one two one two."
time hms12、hms24hms12, hms24 テキストは時刻として読み上げられます。The text is spoken as a time. format 属性では、時刻が 12 時間形式 (hms12) または 24 時間形式 (hms24) のいずれを使用するかを指定します。The format attribute specifies whether the time is specified using a 12-hour clock (hms12) or a 24-hour clock (hms24). 時間、分、秒を表す数字を区切るには、コロンを使用します。Use a colon to separate numbers representing hours, minutes, and seconds. 有効な時刻の例を次に示します。12:35、1:14:32、08:15、02:50:45。The following are valid time examples: 12:35, 1:14:32, 08:15, and 02:50:45. 音声合成エンジンでは次のように発音されます。The speech synthesis engine pronounces:

The train departs at <say-as interpret-as="time" format="hms12">4:00am</say-as>

"The train departs at four A M" (この電車は午前 4 時に発車します)。As "The train departs at four A M."

使用方法Usage

say-as 要素にはテキストのみを含めることができます。The say-as element may contain only text.

Example

音声合成エンジンは、"Your first request was for one room on October nineteenth twenty ten with early arrival at twelve thirty five PM" (最初のリクエストは 2010 年 10 月 19 日に 1 部屋、午後 12 時 35 分にアーリー アライバル、というものでした) という例を読み上げます。The speech synthesis engine speaks the following example as "Your first request was for one room on October nineteenth twenty ten with early arrival at twelve thirty five PM."

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaRUS">
        <p>
        Your <say-as interpret-as="ordinal"> 1st </say-as> request was for <say-as interpret-as="cardinal"> 1 </say-as> room
        on <say-as interpret-as="date" format="mdy"> 10/19/2010 </say-as>, with early arrival at <say-as interpret-as="time" format="hms12"> 12:35pm </say-as>.
        </p>
    </voice>
</speak>

録音されたオーディオを追加するAdd recorded audio

audio は、MP3 オーディオを SSML ドキュメントに挿入できるようにする省略可能な要素です。audio is an optional element that allows you to insert MP3 audio into an SSML document. オーディオ要素の本文には、オーディオ ファイルが使用不可の場合や再生できない場合に読み上げられるプレーン テキストや SSML マークアップが含まれていることがあります。The body of the audio element may contain plain text or SSML markup that's spoken if the audio file is unavailable or unplayable. さらに、audio 要素には、テキストと、要素 audiobreakpsphonemeprosodysay-as、および sub を含めることができます。Additionally, the audio element can contain text and the following elements: audio, break, p, s, phoneme, prosody, say-as, and sub.

SSML ドキュメントに含まれるオーディオは、次の要件を満たしている必要があります。Any audio included in the SSML document must meet these requirements:

  • MP3 は、インターネットからアクセス可能な HTTPS エンドポイントでホストされている必要があります。The MP3 must be hosted on an Internet-accessible HTTPS endpoint. HTTPS は必須であり、MP3 ファイルをホストしているドメインは信頼できる有効な TLS/SSL 証明書を提示する必要があります。HTTPS is required, and the domain hosting the MP3 file must present a valid, trusted TLS/SSL certificate.
  • MP3 は有効な MP3 ファイル (MPEG v2) である必要があります。The MP3 must be a valid MP3 file (MPEG v2).
  • ビット レートは 48 kbps である必要があります。The bit rate must be 48 kbps.
  • サンプル レートは 16,000 Hz である必要があります。The sample rate must be 16,000 Hz.
  • 1つの応答に含まれるすべてのテキスト ファイルとオーディオ ファイルの合計時間は、90 秒以下でなければなりません。The combined total time for all text and audio files in a single response cannot exceed ninety (90) seconds.
  • MP3 には、顧客固有情報またはその他の機密情報を含めることはできません。The MP3 must not contain any customer-specific or other sensitive information.

構文Syntax

<audio src="string"/></audio>

属性Attributes

属性Attribute 説明Description 必須/省略可能Required / Optional
src オーディオ ファイルの場所/URL を指定します。Specifies the location/URL of the audio file. SSML ドキュメントで audio 要素を使用している場合は必須です。Required if using the audio element in your SSML document.

Example

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AriaRUS">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

バックグラウンド オーディオを追加するAdd background audio

mstts:backgroundaudio 要素を使用すると、バックグラウンド オーディオを SSML ドキュメントに追加できます (またはオーディオ ファイルをテキスト読み上げと組み合わせることができます)。The mstts:backgroundaudio element allows you to add background audio to your SSML documents (or mix an audio file with text-to-speech). mstts:backgroundaudio を使用すると、バックグラウンドでオーディオ ファイルをループ処理し、テキスト読み上げの開始時にフェードインし、テキスト読み上げの終了時にフェードアウトできます。With mstts:backgroundaudio you can loop an audio file in the background, fade in at the beginning of text-to-speech, and fade out at the end of text-to-speech.

指定されたバックグラウンド オーディオがテキスト読み上げまたはフェードアウトより短い場合は、ループします。If the background audio provided is shorter than the text-to-speech or the fade out, it will loop. テキスト読み上げより長い場合は、フェードアウトが終了したときに停止します。If it is longer than the text-to-speech, it will stop when the fade out has finished.

1 つの SSML ドキュメントにつき 1 つのバックグラウンド オーディオ ファイルのみが許可されます。Only one background audio file is allowed per SSML document. ただし、voice 要素内に audio タグを配置することで、SSML ドキュメントにオーディオを追加できます。However, you can intersperse audio tags within the voice element to add additional audio to your SSML document.

構文Syntax

<mstts:backgroundaudio src="string" volume="string" fadein="string" fadeout="string"/>

属性Attributes

属性Attribute 説明Description 必須/省略可能Required / Optional
src バックグラウンド オーディオ ファイルの場所/URL を指定します。Specifies the location/URL of the background audio file. SSML ドキュメントでバックグラウンド オーディオを使用している場合は必須です。Required if using background audio in your SSML document.
volume バックグラウンド オーディオ ファイルのボリュームを指定します。Specifies the volume of the background audio file. 指定可能な値: 0 から 100Accepted values: 0 to 100 inclusive. 既定値は 1 です。The default value is 1. 省略可能Optional
fadein バックグラウンド オーディオの "フェードイン" の期間をミリ秒単位で指定します。Specifies the duration of the background audio "fade in" as milliseconds. 既定値は 0 で、"フェードインなし" に相当します。The default value is 0, which is the equivalent to no fade in. 指定可能な値: 0 から 10000Accepted values: 0 to 10000 inclusive. 省略可能Optional
fadeout バックグラウンド オーディオのフェードアウトの期間をミリ秒単位で指定します。Specifies the duration of the background audio fade out in milliseconds. 既定値は 0 で、"フェードアウトなし" に相当します。指定可能な値: 0 から 10000 まで。The default value is 0, which is the equivalent to no fade out. Accepted values: 0 to 10000 inclusive. 省略可能Optional

Example

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="Microsoft Server Speech Text to Speech Voice (en-US, AriaRUS)">
        The text provided in this document will be spoken over the background audio.
    </voice>
</speak>

次のステップNext steps