音声アシスタントとは

音声アシスタントを音声サービスと共に使用すると、開発者は、それらのアプリケーションとエクスペリエンスのために、自然で人間のような会話型インターフェイスを作成できます。 音声アシスタント サービスは、デバイスとアシスタントの実装の間で高速かつ信頼性の高い対話機能を提供します。

アシスタント ソリューションを選択する

音声アシスタントを作成する最初の手順は、アシスタントで何を行いたいかを決めることです。 音声サービスには、アシスタントの対話を精巧に作り上げるための多様な補完的ソリューションが用意されています。 アプリケーションで、"シアトルに行きたい" や "どんなピザを注文できるか" といったフレーズを含むオープン エンドな会話をサポートしたい場合もあるでしょう。柔軟性と汎用性のために、Azure AI Bot Service を Direct Line Speech チャネルで使用することで、ボットに音声入力機能と音声出力機能を追加することができます。

アシスタントで何を行いたいかまだ不明な場合は、最適なオプションとして Direct Line Speech をお勧めします。 これは、一般的なパターンに基づく構築や既存のナレッジ ソースの利用のために、Virtual Assistant ソリューションとエンタープライズ テンプレートや、QnA Maker サービスなどの豊富なツール セットおよび作成支援機能と統合されています。

Speech SDK を使用して音声アシスタントを構築するための参照アーキテクチャ

Conceptual diagram of the voice assistant orchestration service flow.

コア機能

アシスタントの対話を作成する手段として Direct Line Speech と他のソリューションのどちらを選んだとしても、その豊富なカスタマイズ機能を使用して、ブランド、製品、パーソナリティに合わせてアシスタントをカスタマイズできます。

カテゴリ 特徴
カスタム キーワード ユーザーは、"Hey Contoso" のようなカスタム キーワードを使用してアシスタントとの会話を開始できます。アプリではこれを、Speech SDK のカスタム キーワード エンジンで行います。それについては、カスタム キーワードの使用を開始することに関するページを参照することで構成できます。 音声アシスタントでは、サービス側のキーワード検証を使用して、(デバイス単体の場合と比べて) キーワード アクティブ化の正確性を高めることができます。
音声テキスト変換 音声アシスタントでは、音声サービスの音声テキスト変換を使用して、リアルタイム オーディオを認識されたテキストに変換します。 このテキストは文字起こしされているため、アシスタントの実装とクライアント アプリケーションのどちらからでも利用できます。
テキスト読み上げ アシスタントからのテキスト応答は、音声サービスのテキスト読み上げによって合成されます。 この合成は、クライアント アプリケーションでオーディオ ストリームとして利用できるようになります。 Microsoft では、独自のカスタム高品質ニューラル テキスト読み上げ (TTS 音声) を構築してブランドに音声を加える機能を提供しています。

音声アシスタントの使用を開始する

クイック スタート: Direct Line Speech を使用してカスタム音声アシスタントを作成するの記事では、10 分以内にコードを実行できるように設計されたクイックスタートをご紹介しています

サンプル コードとチュートリアル

音声アシスタントを作成するためのサンプル コードは GitHub から入手できます。 サンプルでは、人気のあるいくつかのプログラミング言語で、アシスタントに接続するためのクライアント アプリケーションを扱っています。

カスタマイズ

音声サービスを使用して作成した音声アシスタントでは、さまざまなカスタマイズ オプションを使用できます。

Note

カスタマイズ オプションは言語やロケールによって異なります。 詳細については、サポートされている言語に関するページを参照してください。

次の手順