テキスト読み上げの概要What is text-to-speech?

Azure Speech Services のテキスト読み上げは、アプリケーション、ツール、デバイスは、テキストを人間のような自然な合成音声に変換できるサービスです。Text-to-speech from Azure Speech Services is a service that enables your applications, tools, or devices to convert text into natural human-like synthesized speech. 音声は、標準音声およびニューラル音声から選択できますが、製品やブランドに固有のカスタム音声を独自に作成することもできます。Choose from standard and neural voices, or create your own custom voice unique to your product or brand. 標準音声は、45 を超える言語およびロケールで 75 種類以上が用意されています。ニューラル音声は、4 つの言語およびロケールで 5 種類が用意されています。75+ standard voices are available in more than 45 languages and locales, and 5 neural voices are available in 4 languages and locales. 詳細については、サポートされる言語に関するページを参照してください。For a full list, see supported languages.

テキスト読み上げテクノロジを使用すると、コンテンツ作成者は、ユーザーとさまざまな方法で対話できます。Text-to-speech technology allows content creators to interact with their users in different ways. テキスト読み上げでは、ユーザーが音声を使ってコンテンツと対話できるため、アクセシビリティが向上します。Text-to-speech can improve accessibility by providing users with an option to interact with content audibly. 視覚障碍や学習障碍をお持ちの方も、車の運転中にナビゲーション情報が必要な方も、テキスト読み上げを使用することにより、これまでのエクスペリエンスを向上させることができます。Whether the user has a visual impairment, a learning disability, or requires navigation information while driving, text-to-speech can improve an existing experience. テキスト読み上げは、音声ボットや仮想アシスタントにも役立つアドオンです。Text-to-speech is also a valuable add-on for voice bots and virtual assistants.

音声合成マークアップ言語 (SSML) (XML ベースのマークアップ言語) を活用することにより、テキスト読み上げサービスを使用する開発者は、入力テキストを合成音声に変換する方法を指定できます。By leveraging Speech Synthesis Markup Language (SSML), an XML-based markup language, developers using the text-to-speech service can specify how input text is converted into synthesized speech. SSML では、ピッチ、読み方、読み上げ速度、音量などを調整できます。With SSML, you can adjust pitch, pronunciation, speaking rate, volume, and more. 詳細については、SSML に関する記事を参照してください。For more information, see SSML.

標準音声Standard voices

標準音声は、統計的パラメトリック音声合成手法や連結音声合成手法を使用して作成されます。Standard voices are created using Statistical Parametric Synthesis and/or Concatenation Synthesis techniques. このような音声は非常にわかりやすく、自然に聞こえます。These voices are highly intelligible and sound natural. さまざまな音声オプションを使用して、アプリケーションが 45 を超える言語で簡単に話せるようにすることができます。You can easily enable your applications to speak in more than 45 languages, with a wide range of voice options. これらの音声は、略語、頭字語の展開、日付/時刻の解釈、多音字などのサポートを含め、高度な発音精度を実現しています。These voices provide high pronunciation accuracy, including support for abbreviations, acronym expansions, date/time interpretations, polyphones, and more. 標準音声を使用して、ユーザーが音声でコンテンツとやり取りできるようにすることで、アプリケーションとサービスのアクセシビリティを向上できます。Use standard voice to improve accessibility for your applications and services by allowing users to interact with your content audibly.

ニューラル音声Neural voices

ニューラル音声は、話し言葉のアクセントとイントネーションのパターンを照合し、音声の単位をコンピューターの音声に合成する際に、ディープ ニューラル ネットワークを使用して従来のテキスト読み上げシステムの限界を克服しています。Neural voices use deep neural networks to overcome the limits of traditional text-to-speech systems in matching the patterns of stress and intonation in spoken language, and in synthesizing the units of speech into a computer voice. 標準のテキスト読み上げでは、独立したモデルによって管理される別々の言語分析と音響予測の手順に韻律が分解されます。これにより、こもった音声合成になることがあります。Standard text-to-speech breaks down prosody into separate linguistic analysis and acoustic prediction steps that are governed by independent models, which can result in muffled voice synthesis. ニューラル機能では韻律予測と音声合成が同時に行われ、その結果、より滑らかで自然に聞こえる音声になります。Our neural capability does prosody prediction and voice synthesis simultaneously, which results in a more fluid and natural-sounding voice.

ニューラル音声を使用すると、チャットボットや仮想アシスタントとの対話をより自然で魅力的なものにできます。また、電子書籍などのデジタル テキストをオーディオブックに変換したり、カーナビゲーション システムを強化したりすることもできます。Neural voices can be used to make interactions with chatbots and virtual assistants more natural and engaging, convert digital texts such as e-books into audiobooks and enhance in-car navigation systems. ニューラル音声では、人間のような自然な韻律と明瞭な発音により、ユーザーが AI システムとやりとりする際のリスニング疲労が大幅に軽減されます。With the human-like natural prosody and clear articulation of words, neural voices significantly reduce listening fatigue when you interact with AI systems.

ニューラル音声は、ニュートラルや陽気な雰囲気など、さまざまなスタイルをサポートしています。Neural voices support different styles, such as neutral and cheerful. たとえば、Jessa (en-US) の声は陽気な雰囲気を表現でき、温かみのある楽しい会話に最適化されています。For example, the Jessa (en-US) voice can speak cheerfully, which is optimized for warm, happy conversation. トーン、ピッチ、速度などの音声出力は、音声合成マークアップ言語を使用して調整できます。You can adjust the voice output, like tone, pitch, and speed using Speech Synthesis Markup Language. 利用可能なすべての音声の一覧については、サポートされている言語に関するページを参照してください。For a full list of available voices, see supported languages.

ニューラル音声の利点の詳細については、「Microsoft's new neural text-to-speech service helps machines speak like people (Microsoft の新しいニューラル テキスト読み上げサービスを利用してマシンが人間のように話せるようにする)」を参照してください。To learn more about the benefits of neural voices, see Microsoft’s new neural text-to-speech service helps machines speak like people.

カスタム音声Custom voices

音声をカスタマイズすることで、ブランド独自の認識性の高い音声を作成できます。Voice customization lets you create a recognizable, one-of-a-kind voice for your brand. カスタム音声フォントを作成するには、スタジオで録音を行い、関連するスクリプトをトレーニング データとしてアップロードします。To create your custom voice font, you make a studio recording and upload the associated scripts as the training data. サービスは、録音に合わせて調整された一意の音声モデルを作成します。The service then creates a unique voice model tuned to your recording. このカスタム音声フォントを使用して、音声を合成できます。You can use this custom voice font to synthesize speech. 詳細については、カスタム音声に関するページを参照してください。For more information, see custom voices.

音声合成マークアップ言語 (SSML)Speech Synthesis Markup Language (SSML)

音声合成マークアップ言語 (SSML) は、XML ベースのマークアップ言語であり、これにより、開発者はテキスト読み上げサービスを使用して、入力テキストを合成音声に変換する方法を指定することができます。Speech Synthesis Markup Language (SSML) is an XML-based markup language that lets developers specify how input text is converted into synthesized speech using the text-to-speech service. プレーンテキストと比較して、SSML では、開発者が音声合成出力のピッチ、読み方、読み上げ速度、音量などを微調整できます。Compared to plain text, SSML allows developers to fine-tune the pitch, pronunciation, speaking rate, volume, and more of the text-to-speech output. 通常の句読点は、ピリオドの後の一時停止、または文が疑問符で終わるときの正しいイントネーションの使用など、自動的に処理されます。Normal punctuation, such as pausing after a period, or using the correct intonation when a sentence ends with a question mark are automatically handled.

テキスト読み上げサービスに送信されたテキスト入力はすべて、SSML として構造化される必要があります。All text inputs sent to the text-to-speech service must be structured as SSML. 詳細については、「音声合成マークアップ言語 (SSML)」を参照してください。For more information, see Speech Synthesis Markup Language.

価格に関する注意Pricing note

テキスト読み上げサービスを使用している場合、句読点を含めて、文字が音声に変換されるごとに課金されます。When using the text-to-speech service, you are billed for each character that is converted to speech, including punctuation. SSML ドキュメント自体は課金対象外ですが、テキストが音声に変換される方法を調整するために使用される省略可能な要素 (音素やピッチなど) は、課金対象の文字としてカウントされます。While the SSML document itself is not billable, optional elements that are used to adjust how the text is converted to speech, like phonemes and pitch, are counted as billable characters. 課金対象の一覧を次に示します。Here's a list of what's billable:

  • 要求の SSML 本文でテキスト読み上げサービスに渡されたテキストText passed to the text-to-speech service in the SSML body of the request
  • <speak><voice> タグを除く、SSML 形式の要求本文のテキスト フィールド内のすべてのアークアップAll markup within the text field of the request body in the SSML format, except for <speak> and <voice> tags
  • 文字、句読点、スペース、タブ、マークアップ、すべての空白文字Letters, punctuation, spaces, tabs, markup, and all white-space characters
  • Unicode で定義されているすべてのコード ポイントEvery code point defined in Unicode

詳細については、価格に関するページを参照してください。For detailed information, see Pricing.

重要

中国語、日本語、韓国語の言語文字はそれぞれ、2 文字としてカウントされ課金されます。Each Chinese, Japanese, and Korean language character is counted as two characters for billing.

コア機能Core features

以下の表は、テキスト読み上げのコア機能を示しています。This table lists the core features for text-to-speech:

ユース ケースUse case SDKSDK RESTREST
テキストを音声に変換する。Convert text to speech. はいYes はいYes
音声適応のためのデータセットをアップロードする。Upload datasets for voice adaptation. いいえNo はい*Yes*
音声フォント モデルを作成および管理する。Create and manage voice font models. いいえNo はい*Yes*
デプロイする音声フォントを作成および管理する。Create and manage voice font deployments. いいえNo はい*Yes*
音声フォント テストを作成および管理する。Create and manage voice font tests. いいえNo はい*Yes*
サブスクリプションを管理する。Manage subscriptions. いいえNo はい*Yes*

*これらのサービスは、cris.ai エンドポイントを使用して提供されます。Swagger リファレンスに関するページを参照してください。このようなカスタム音声トレーニングおよび管理の API では、要求を 5 秒間あたり 25 個に制限する調整が実装されます。一方、音声合成 API 自体では、最高値として 1 秒あたり 200 個の要求を許容する調整が実装されます。スロットリングが実行されると、その旨がメッセージ ヘッダーを介して通知されます。* These services are available using the cris.ai endpoint. See Swagger reference. These custom voice training and management APIs implement throttling that limits requests to 25 per 5 seconds, while the speech synthesis API itself implements throttling that allows 200 requests per second as the highest. When throttling occurs, you'll be notified via message headers.

テキスト読み上げを使ってみるGet started with text to speech

10 分もかからずにコードを実行できるように設計されたクイック スタートが用意されています。We offer quickstarts designed to have you running code in less than 10 minutes. 以下の表は、テキスト読み上げのクイック スタートを言語別に整理して示したものです。This table includes a list of text-to-speech quickstarts organized by language.

SDK のクイック スタートSDK quickstarts

クイック スタート (SDK)Quickstart (SDK) プラットフォームPlatform API リファレンスAPI reference
C#、.NET CoreC#, .NET Core WindowsWindows BrowseBrowse
C#、.NET FrameworkC#, .NET Framework WindowsWindows BrowseBrowse
C#、UWPC#, UWP WindowsWindows BrowseBrowse
C#、UnityC#, Unity Windows、AndroidWindows, Android BrowseBrowse
C++C++ WindowsWindows BrowseBrowse
C++C++ LinuxLinux BrowseBrowse

REST クイック スタートREST quickstarts

クイック スタート (REST)Quickstart (REST) プラットフォームPlatform API リファレンスAPI reference
C#、.NET CoreC#, .NET Core Windows、macOS、LinuxWindows, macOS, Linux BrowseBrowse
Node.JSNode.js Window、macOS、LinuxWindow, macOS, Linux BrowseBrowse
PythonPython Window、macOS、LinuxWindow, macOS, Linux BrowseBrowse

サンプル コードSample code

テキスト読み上げのサンプル コードは、GitHub 上で入手できます。Sample code for text-to-speech is available on GitHub. これらのサンプルに含まれるテキスト読み上げ会話は、人気の高いプログラミング言語で作成されています。These samples cover text-to-speech conversion in most popular programming languages.

リファレンス ドキュメントReference docs

次の手順Next steps