テキスト読み上げの概要What is text-to-speech?


TLS 1.2 は現在、このサービスへのすべての HTTP 要求に適用されるようになりました。TLS 1.2 is now enforced for all HTTP requests to this service. 詳細については、Azure Cognitive Services のセキュリティに関するページを参照してください。For more information, see Azure Cognitive Services security.

この概要では、お使いのアプリケーション、ツール、デバイスでテキストを人間のような合成音声に変換することを可能にするテキスト読み上げの利点と機能について説明します。In this overview, you learn about the benefits and capabilities of the text-to-speech service, which enables your applications, tools, or devices to convert text into human-like synthesized speech. 音声は、標準音声およびニューラル音声から選択できますが、製品やブランドに固有のカスタム音声を作成することもできます。Choose from standard and neural voices, or create a custom voice unique to your product or brand. 標準音声は、45 を超える言語とロケールで 75 種類以上が用意されています。ニューラル音声は、一部の言語とロケールで 5 種類が用意されています。75+ standard voices are available in more than 45 languages and locales, and 5 neural voices are available in a select number of languages and locales. サポートされている音声、言語、ロケールの一覧については、サポートされている言語に関する記事をご覧ください。For a full list of supported voices, languages, and locales, see supported languages.


Bing Speech は、2019 年 10 月 15 日に使用が停止されました。Bing Speech was decommissioned on October 15, 2019. アプリケーション、ツール、または製品で Bing Speech API または Custom Speech をご使用の方に向けて、Speech Service への移行に役立つガイドを作成しました。If your applications, tools, or products are using the Bing Speech APIs or Custom Speech, we've created guides to help you migrate to the Speech service.

コア機能Core features

  • 音声合成 - Speech SDK または REST API を使用して、標準音声、ニューラル音声、またはカスタム音声を使ってテキストを音声に変換します。Speech synthesis - Use the Speech SDK or REST API to convert text-to-speech using standard, neural, or custom voices.

  • 長い音声の非同期合成 - Long Audio API を使用して、10 分以上のテキスト読み上げファイル (オーディオ ブックや講義など) を非同期に合成します。Asynchronous synthesis of long audio - Use the Long Audio API to asynchronously synthesize text-to-speech files longer than 10 minutes (for example audio books or lectures). Speech SDK または Speech-to-Text REST API を使用して実行される合成とは異なり、応答はリアルタイムで返されません。Unlike synthesis performed using the Speech SDK or speech-to-text REST API, responses aren't returned in real time. 要求が非同期に送信され、応答がポーリングされること、および合成音声がサービスから利用可能になったときにダウンロードされることを想定しています。The expectation is that requests are sent asynchronously, responses are polled for, and that the synthesized audio is downloaded when made available from the service. カスタム ニューラル音声のみがサポートされています。Only custom neural voices are supported.

  • 標準音声 - 統計的パラメトリック音声合成手法や連結音声合成手法を使用して作成されます。Standard voices - Created using Statistical Parametric Synthesis and/or Concatenation Synthesis techniques. このような音声は非常にわかりやすく、自然に聞こえます。These voices are highly intelligible and sound natural. さまざまな音声オプションを使用して、アプリケーションが 45 を超える言語で簡単に話せるようにすることができます。You can easily enable your applications to speak in more than 45 languages, with a wide range of voice options. これらの音声は、略語、頭字語の展開、日付/時刻の解釈、多音字などのサポートを含め、高度な発音精度を実現しています。These voices provide high pronunciation accuracy, including support for abbreviations, acronym expansions, date/time interpretations, polyphones, and more. 標準音声の一覧については、サポートされている言語に関する記事をご覧ください。For a full list of standard voices, see supported languages.

  • ニューラル音声 - ディープ ニューラル ネットワークを使用して、話し言葉のアクセントとイントネーションに関する従来の音声合成の限界を克服します。Neural voices - Deep neural networks are used to overcome the limits of traditional speech synthesis with regard to stress and intonation in spoken language. 韻律予測と音声合成が同時に行われるため、より滑らかで自然な音声出力が得られます。Prosody prediction and voice synthesis are performed simultaneously, which results in more fluid and natural-sounding outputs. ニューラル音声を使用すると、チャットボットや音声アシスタントとの対話をより自然で魅力的なものにすることができます。また、電子書籍などのデジタル テキストをオーディオブックに変換したり、カーナビゲーション システムを強化したりすることもできます。Neural voices can be used to make interactions with chatbots and voice assistants more natural and engaging, convert digital texts such as e-books into audiobooks, and enhance in-car navigation systems. ニューラル音声では、人間のような自然な韻律と明瞭な発音により、ユーザーが AI システムとやりとりする際のリスニング疲労が大幅に軽減されます。With the human-like natural prosody and clear articulation of words, neural voices significantly reduce listening fatigue when you interact with AI systems. ニューラル音声の一覧については、サポートされている言語に関する記事をご覧ください。For a full list of neural voices, see supported languages.

  • SSML で話し方を調整する - 音声合成マークアップ言語 (SSML) は、音声テキスト変換の出力をカスタマイズするために使用される XML ベースのマークアップ言語です。Adjust speaking styles with SSML - Speech Synthesis Markup Language (SSML) is an XML-based markup language used to customize speech-to-text outputs. SSML を使用して、ピッチの調整、一時停止の追加、発音の改善、読み上げ速度の調整、音量の上げ下げ、単一のドキュメントへの複数の音声の割り当てを行うことができます。With SSML, you can adjust pitch, add pauses, improve pronunciation, speed up or slow down speaking rate, increase or decrease volume, and attribute multiple voices to a single document. 話し方の調整については、方法に関するページを参照してください。See the how-to for adjusting speaking styles.

  • 口形素 - 口形素は、特定の音素を生成するときの唇、顎、舌の位置などの観察されたスピーチにおける主要な姿勢です。Visemes - Visemes are the key poses in observed speech, including the position of the lips, jaw and tongue when producing a particular phoneme. 口形素は、音声と音素との強い相関関係を持っています。Visemes have a strong correlation with voices and phonemes. Speech SDK で口形素イベントを使用すると、顔のアニメーション データを生成できます。これは、読唇時のコミュニケーション、教育、エンターテイメント、カスタマー サービスの顔をアニメーションで表現するために使用できます。Using viseme events in Speech SDK, you can generate facial animation data, which can be used to animate faces in lip-reading communication, education, entertainment, and customer service.


現在口形素は米国西部 (westus) リージョンの en-US-AriaNeural 音声に対してのみ機能し、2021 年 4 月末までにすべての en-US 音声で利用できるようになります。Viseme only works for en-US-AriaNeural voice in West US (westus) region for now, and will be available for all en-US voices by the end of April, 2021.

はじめにGet started

テキスト読み上げの使用を開始するには、クイックスタートを参照してください。See the quickstart to get started with text-to-speech. テキスト読み上げサービスは、Speech SDKREST API、および Speech CLI を介して利用できます。The text-to-speech service is available via the Speech SDK, the REST API, and the Speech CLI

サンプル コードSample code

テキスト読み上げのサンプル コードは、GitHub 上で入手できます。Sample code for text-to-speech is available on GitHub. これらのサンプルに含まれるテキスト読み上げ会話は、人気の高いプログラミング言語で作成されています。These samples cover text-to-speech conversion in most popular programming languages.


標準音声とニューラル音声に加え、製品またはブランドに固有のカスタム音声を作成し、微調整できます。In addition to standard and neural voices, you can create and fine-tune custom voices unique to your product or brand. 作業を始めるにあたって必要なのは、少数のオーディオ ファイルと関連する文字起こしだけです。All it takes to get started are a handful of audio files and the associated transcriptions. 詳細については、「Get started with Custom Voice (カスタム音声の概要)」をご覧ください。For more information, see Get started with Custom Voice

価格に関する注意Pricing note

テキスト読み上げサービスを使用している場合、句読点を含めて、文字が音声に変換されるごとに課金されます。When using the text-to-speech service, you are billed for each character that is converted to speech, including punctuation. SSML ドキュメント自体は課金対象外ですが、テキストが音声に変換される方法を調整するために使用される省略可能な要素 (音素やピッチなど) は、課金対象の文字としてカウントされます。While the SSML document itself is not billable, optional elements that are used to adjust how the text is converted to speech, like phonemes and pitch, are counted as billable characters. 課金対象の一覧を次に示します。Here's a list of what's billable:

  • 要求の SSML 本文でテキスト読み上げサービスに渡されたテキストText passed to the text-to-speech service in the SSML body of the request
  • <speak><voice> タグを除く、SSML 形式の要求本文のテキスト フィールド内のすべてのアークアップAll markup within the text field of the request body in the SSML format, except for <speak> and <voice> tags
  • 文字、句読点、スペース、タブ、マークアップ、すべての空白文字Letters, punctuation, spaces, tabs, markup, and all white-space characters
  • Unicode で定義されているすべてのコード ポイントEvery code point defined in Unicode

詳細については、価格に関するページを参照してください。For detailed information, see Pricing.


中国語、日本語、韓国語の言語文字はそれぞれ、2 文字としてカウントされ課金されます。Each Chinese, Japanese, and Korean language character is counted as two characters for billing.

リファレンス ドキュメントReference docs

次のステップNext steps