テキスト読み上げの概要
この概要では、Azure Cognitive Services に含まれる音声サービスのテキスト読み上げの利点と機能について説明します。
テキスト読み上げを使用すると、アプリケーション、ツール、またはデバイスで、テキストを人間のような合成音声に変換できます。 テキスト読み上げ機能は音声合成とも呼ばれます。 人間のような事前構築済みのニューラル音声をすぐに使用するか、製品やブランドに固有のカスタム ニューラル音声を作成します。 サポートされている音声、言語、ロケールの完全なリストについては、「音声サービスの言語と音声のサポート」を参照してください。
コア機能
テキスト読み上げには、次の機能が含まれています。
機能 | まとめ | デモ |
---|---|---|
事前構築済みのニューラル音声 (価格ページでは "ニューラル" と表記) | 非常に自然で、すぐに使用できる音声です。 Azure アカウントと Speech Service のサブスクリプションを作成します。次に、Speech SDK を使用するか、Speech Studio ポータルにアクセスし、事前構築済みのニューラル音声を選択すると作業を開始できます。 価格の詳細に関するページを確認してください。 | 音声のサンプルを確認して、ビジネスのニーズに合った適切な音声を決定してください。 |
カスタム ニューラル音声 (価格ページでは "カスタム ニューラル" と表記) | 自然な音声を作成するための使いやすいセルフ サービス。責任を持って使用していただくためアクセスが制限されています。 (S0 層を使用して) Azure アカウントと音声サービスのサブスクリプションを作成し、カスタム ニューラル機能を使用するように適用します。 アクセスが許可されたら、Speech Studio ポータルにアクセスし、[Custom Voice] を選択して開始します。 価格の詳細に関するページを確認してください。 | 音声のサンプルを確認してください。 |
ニューラル テキスト読み上げ機能についての詳細情報
Azure の音声サービスのテキスト読み上げ機能はニューラル テキスト読み上げエンジンに完全にアップグレードされました。 このエンジンでは、ディープ ニューラル ネットワークを使用することで、コンピューターの音声が人間の音声録音とほぼ区別がつかなくなります。 ニューラル テキスト読み上げでは、明瞭な発音により、ユーザーが AI システムと対話する際のリスニング疲労が大幅に軽減されます。
話し言葉のアクセントとイントネーションのパターンを、"韻律" と呼びます。 従来のテキスト読み上げシステムでは、韻律を独立したモデルによって管理される別々の言語分析と音響予測の手順に分解します。 その結果、こもったような耳障りな音声合成になる可能性があります。
音声サービスのニューラル テキスト読み上げ機能と、従来のテキスト読み上げシステムの制限を克服する方法の詳細を次に示します。
リアルタイム音声合成: Speech SDK または REST API を使用して、あらかじめ構築されたニューラル音声またはカスタム ニューラル音声を使ってテキスト読み上げを行います。
長い音声の非同期合成: Long Audio API を使用して、10 分以上のテキスト読み上げファイル (オーディオ ブックや講義など) を非同期に合成します。 Speech SDK または Speech-to-Text REST API を使用して実行される合成とは異なり、応答はリアルタイムで返されません。 要求が非同期に送信され、応答がポーリングされること、および合成音声がサービスから利用可能になったときにダウンロードされることを想定しています。
あらかじめ構築されたニューラル音声: Microsoft Neural Text-to-speech 機能では、ディープ ニューラル ネットワークを使用して、話し言葉のアクセントとイントネーションに関する従来の音声合成の限界を克服します。 韻律予測と音声合成が同時に行われるため、より滑らかで自然な音声出力が得られます。 ニューラル音声を使用すると、次のことができます。
- チャットボットや音声アシスタントとの対話をより自然で魅力的なものにします。
- 電子書籍などのデジタル テキストをオーディオ ブックに変換します。
- 車内ナビゲーション システムを強化します。
プラットフォーム ニューラル音声の完全な一覧については、「音声サービスの言語と音声のサポート」を参照してください。
SSML でテキスト読み上げの出力を微調整する: 音声合成マークアップ言語 (SSML) は、テキスト読み上げの出力をカスタマイズするために使用される XML ベースのマークアップ言語です。 SSML を使用して、ピッチの調整、一時停止の追加、発音の改善、話す速度の変更、音量の調整、単一のドキュメントへの複数の音声の割り当てを行うことができます。
SSML を使用して、独自の辞書を定義したり、さまざまな話し方に切り替えたりできます。 多言語の音声では、SSML を介して話されている言語を調整することもできます。 シナリオの音声出力を微調整するには、「音声合成マークアップ言語 (SSML) を使用して合成を改善する」を参照してください。
口形素: 口形素は、特定の音素を生成するときの唇、顎、舌の位置などの観察されたスピーチにおける主要な姿勢です。 口形素は、音声と音素との強い相関関係を持っています。
Speech SDK で口形素イベントを使用すると、顔のアニメーション データを生成できます。 このデータは、読唇時のコミュニケーション、教育、エンターテイメント、カスタマー サービスでの顔をアニメーションで表現するために使用できます。 口形素は現在、
en-US
英語 (米国) のニューラル音声でのみサポートされています。
注意
2024 年に従来型/標準型音声とニューラル以外のカスタム音声は廃止される予定です。 その後、サポートは終了します。
アプリケーション、ツール、または製品が標準型音声とカスタム音声のいずれかを使用している場合は、ニューラル バージョンに移行する必要があります。 詳細については、ニューラル音声への移行に関するページを参照してください。
作業の開始
テキスト読み上げの使用を開始するには、クイックスタートを参照してください。 テキスト読み上げは、Speech SDK、REST API、および Speech CLI を介して利用できます。
サンプル コード
テキスト読み上げのサンプル コードは、GitHub 上で入手できます。 これらのサンプルに含まれるテキスト読み上げ会話は、人気の高いプログラミング言語で作成されています。
カスタム ニューラル音声
あらかじめ構築されたニューラル音声に加え、製品またはブランドに固有のカスタム ニューラル音声を作成し、微調整できます。 作業を始めるにあたって必要なのは、少数のオーディオ ファイルと関連する文字起こしだけです。 詳細については、「カスタム ニューラル音声の概要」を参照してください。
価格に関する注意
テキスト読み上げ機能を使用している場合、句読点を含めて、文字が音声に変換されるごとに課金されます。 SSML ドキュメント自体は課金対象外ですが、テキストが音声に変換される方法を調整するために使用される省略可能な要素 (音素やピッチなど) は、課金対象の文字としてカウントされます。 課金対象の一覧を次に示します。
- 要求の SSML 本文でテキスト読み上げ機能に渡されたテキスト
<speak>
と<voice>
タグを除く、SSML 形式の要求本文のテキスト フィールド内のすべてのアークアップ- 文字、句読点、スペース、タブ、マークアップ、すべての空白文字
- Unicode で定義されているすべてのコード ポイント
詳細については、「Speech Services の価格」を参照してください。
重要
日本語で使用される漢字、韓国語で使用される漢字、その他の言語で使用される繁体字を含め、中国語の各文字は、課金では 2 文字としてカウントされます。