音声サービスとは

音声サービスは、音声テキスト変換、テキスト読み上げ、音声翻訳が 1 つの Azure サブスクリプションにまとめられたものです。 Speech CLISpeech SDKSpeech Devices SDKSpeech Studio、または REST API を使用して、アプリケーション、ツール、デバイスを簡単に音声対応にできます。

重要

Speech Service は、Bing Speech API と Translator Speech に代わるものです。 移行の手順については、"移行" に関するセクションを参照してください。

以下の機能は、Speech Service に属しています。 各機能の一般的なユース ケースの詳細を学習したり、API リファレンスを参照したりするには、次の表のリンクを使用してください。

サービス 機能 説明 SDK REST
音声テキスト変換 リアルタイムの音声テキスト変換 音声テキスト変換では、オーディオ ストリームまたはローカル ファイルからテキストへの文字起こしまたは翻訳がリアルタイムで行われ、結果のテキストをアプリケーション、ツール、またはデバイスで使用したり表示したりできます。 音声テキスト変換を Language Understanding (LUIS) で使用し、文字起こしされた音声からユーザーの意図を抽出して、音声コマンドで対応します。 はい はい
一括音声テキスト変換 一括音声テキスト変換では、Azure Blob Storage に格納された大量の音声データを対象に、音声からテキストへの文字起こしを非同期で行うことができます。 音声からテキストへの変換に加え、一括音声テキスト変換は、ダイアライゼーションや感情分析にも対応します。 いいえ はい
マルチデバイスの会話 会話の中で複数のデバイスまたはクライアントを接続して、音声ベースまたはテキストベースのメッセージを送信し、文字起こしや翻訳を容易に実現します。 はい いいえ
会話の文字起こし リアルタイムの音声認識、話者識別、およびダイアライゼーションが有効になります。 話者を区別することができるため、対面会議の文字起こしに最適です。 はい いいえ
カスタム音声モデルの作成 独自環境での認識と文字起こしに音声テキスト変換を使用している場合は、カスタムの音響、言語、発音モデルを作成してトレーニングし、周囲の雑音や業界固有の語彙に対応できます。 いいえ あり
発音評価 発音評価ではスピーチの発音を評価し、話された音声の正確性と流暢性に関するフィードバックを話者に提供します。 言語学習者は、発音評価を使用して練習を行い、即座にフィードバックを得て、発音を改善することができます。そのため、自信を持って話し、発表することができます。 あり はい
音声合成 テキスト読み上げ テキスト読み上げでは、音声合成マークアップ言語 (SSML) が使用され、入力テキストが人間のような合成音声に変換されます。 ディープ ニューラル ネットワークを利用した、人間に似た音声であるニューラル音声を使用します。 言語のサポートに関するページを参照してください。 あり はい
Custom Voice の作成 ブランドや製品に固有のカスタム音声フォントを作成します。 いいえ はい
音声翻訳 音声翻訳 音声翻訳を使用すると、音声のリアルタイムの多言語翻訳がアプリケーション、ツール、デバイスで可能になります。 音声間翻訳や音声テキスト翻訳にはこのサービスを使用します。 はい いいえ
音声アシスタント 音声アシスタント Speech Service を使用した音声アシスタントにより、開発者は、そのアプリケーションとエクスペリエンスのための自然で人間のような会話型インターフェイスを作成できます。 音声アシスタント サービスは、Bot Framework の Direct Line Speech チャネルまたは統合カスタム コマンド サービスを使用してタスクを遂行するアシスタントの実装とデバイスとの間に、高速で信頼性の高い対話を実現します。 はい いいえ
Speaker Recognition 話者の検証と識別 Speaker Recognition サービスは、固有の音声特性によって話者を検証および識別するアルゴリズムを提供します。 Speaker Recognition は、"だれが話しているのか" という質問に回答するために使用されます。 はい はい

Speech Service を無料で試す

次の手順では、Microsoft アカウントと Azure アカウントの両方が必要です。 Microsoft アカウントがない場合は、Microsoft アカウント ポータルで無料のものにサインアップすることができます。 [Microsoft アカウントでサインイン] を選択し、サインインを求められたら [Microsoft アカウントの作成] を選択します。 新しい Microsoft アカウントを作成して確認する手順に従います。

Azure アカウントを作成したら、Azure サインアップ ページに移動し、 [無料で始める] を選択し、Microsoft アカウントを使用して新しい Azure アカウントを作成します。 Azure 無料アカウントにサインアップする方法については、こちらの動画をご覧ください。

注意

無料の Azure アカウントにサインアップすると、最大 30 日間有効な、有料の音声サービス サブスクリプションに充当できる 200 ドルのサービス クレジットが付属しています。 クレジットの残高がなくなるか、30 日が経過して有効期限が切れると、ご利用の Azure サービスは無効になります。 Azure サービスを引き続き使用するには、アカウントをアップグレードする必要があります。 詳細については、Azure 無料アカウントのアップグレード方法に関するページを参照してください。

音声サービスには、無料 (f0) とサブスクリプション (s0) の 2 つのサービス レベルがあります。これには、異なる制限事項と特典があります。 無料の小規模の音声サービス レベルを使用する場合は、無料試用版またはサービス クレジットの有効期限が切れた後でも、この無料のサブスクリプションを保持できます。 詳細については、「Cognitive Services の価格 - Speech Services」を参照してください。

Azure リソースを作成する

Speech Service リソース (無料または有料レベル) を Azure アカウントに追加するには:

  1. お使いの Microsoft アカウントを使用して Azure portal にサインインします。

  2. ポータルの左上にある [Create a resource](リソースの作成) を選択します。 [リソースの作成] が表示されない場合は、画面左上の折りたたまれたメニューを選択することで、いつでも見つけることができます。

  3. 新規 ウィンドウで、検索ボックスに「speech」と入力し、Enter キーを押します。

  4. 検索結果で、 [Speech] を選択します。

    Azure portal で Speech リソースを作成します。

  5. [作成] を選択して、次のことを行います。

    • 新しいリソースに一意の名前を指定します。 この名前は、同じサービスに関連付けられた複数のサブスクリプションを区別するのに役立ちます。
    • 新しいリソースが関連付けられている Azure サブスクリプションを選択して、料金の課金方法を決定します。 Azure portal で Azure サブスクリプションを作成する方法の概要はこちらにあります。
    • リソースが使用されるリージョンを選択します。 Azure は、世界中のさまざまな地域で一般的に利用できるグローバル クラウド プラットフォームです。 パフォーマンスを最適にするには、ユーザーまたはアプリケーションが実行されている場所に最も近いリージョンを選択します。 音声サービスの可用性は、リージョンによって異なります。 サポートされているリージョンにリソースが作成されていることを確認してください。 音声サービスがサポートされているリージョンに関するページを参照してください。
    • 無料 (F0) または有料 (S0) の価格レベルのどちらかを選択します。 各レベルの価格と使用量クォータの完全な情報については、 [価格の詳細を表示] を選択するか、音声サービスの価格に関するページを参照してください。 リソースの制限については、「Azure Cognitive Services の制限」を参照してください。
    • この Speech サブスクリプションの新しいリソース グループを作成するか、既存のリソース グループにサブスクリプションを割り当てます。 リソース グループは、さまざまな Azure サブスクリプションを整理しておくのに役立ちます。
    • [作成] を選択します これでデプロイの概要に移動し、デプロイの進行状況を示すメッセージが表示されます。

新しい音声リソースを展開するまでに少し時間がかかります。

キーと場所/リージョンを見つける

完成したデプロイのキーと場所/リージョンを見つけるには、次の手順に従います。

  1. お使いの Microsoft アカウントを使用して Azure portal にサインインします。

  2. [すべてのリソース] を選択し、Cognitive Services リソースの名前を選択します。

  3. 左ペインの [リソース管理] から [Keys and Endpoint](キーとエンドポイント) を選択します。

各サブスクリプションには 2 つのキーがあります。アプリケーションでどちらのキーを使用しても構いません。 キーをコード エディターやその他の場所にコピーして貼り付けるには、各キーの横にあるコピー ボタンを選択し、ウィンドウを切り替えてクリップボードの内容を目的の場所に貼り付けます。

さらに、SDK 呼び出しのリージョン ID (、 など) である 値をコピーします。 SDK 呼び出しのリージョン ID (westuswesteurope など) です。

重要

これらのサブスクリプション キーは、Cognitive Service API にアクセスするために使用されます。 キーを共有しないでください。 Azure Key Vault を使用するなどして、安全に保管してください。 これらのキーを定期的に再生成することもお勧めします。 API 呼び出しを行うために必要なキーは 1 つだけです。 最初のキーを再生成するときに、2 番目のキーを使用してサービスに継続的にアクセスすることができます。

クイックスタートに取り組む

ほとんどの一般的なプログラミング言語向けのクイックスタートが提供されています。それぞれ基本的な設計パターンを学び、いずれも 10 分もかからずにコードを実行できるように作られています。 それぞれの機能のクイックスタートについては、次の各記事を参照してください。

Speech Service を使用する機会が得られたら、さまざまなシナリオを解決する方法を説明するチュートリアルを試してみてください。

サンプル コードを取得する

Speech Service のサンプル コードは、GitHub 上で入手できます。 これらのサンプルでは、ファイルやストリームからの音声の読み取り、連続的な認識と開始時の認識、カスタム モデルの使用など、一般的なシナリオについて説明されています。 SDK と REST のサンプルを見るには、次のリンクを使用してください。

音声エクスペリエンスをカスタマイズする

Speech Service は組み込みのモデルで問題なく動作しますが、製品や環境に合わせてエクスペリエンスをさらにカスタマイズおよび調整したいことがあります。 カスタマイズ オプションは、音響モデルのチューニングから、独自ブランドに固有の音声フォントにまで及びます。

その他の製品では、医療や保険など特定の目的に合わせてチューニングされた音声モデルが用意されていますが、それらは、すべてのユーザーに対して一律に提供されるものです。 Azure Speech のカスタマイズは、他のユーザーやカスタマーが手にすることのできない "独自" の競争優位をもたらします。 つまり、カスタマイズしたモデルは自分だけのものであり、ユースケースに合わせて独自にチューニングされています。

Speech Service プラットフォーム 説明
音声テキスト変換 カスタム音声 音声認識モデルをニーズと使用可能なデータに合わせてカスタマイズします。 話し方、ボキャブラリ、背景ノイズといった音声認識の障壁を克服可能です。
テキスト読み上げ Custom Voice お客様のスピーチ データを使用して、テキスト読み上げアプリ用の認識可能な独自の音声を作成します。 音声パラメーターのセットを調整することで、音声出力をさらに細かく調整できます。

Docker コンテナーを使用してオンプレミスにデプロイする

Speech サービス コンテナーを使用して、API 機能をオンプレミスにデプロイします。 これらの Docker コンテナーを使用すると、コンプライアンス、セキュリティ、またはその他の運用上の理由により、データにより近いところでサービスを使用できます。 Speech サービスには、次のコンテナーが用意されています。

  • 標準音声変換
  • カスタム音声変換
  • 標準テキスト読み上げ
  • ニューラル テキスト読み上げ
  • カスタム テキスト読み上げ (プレビュー)
  • 音声言語識別 (プレビュー)

リファレンス ドキュメント

次のステップ