Microsoft Speech API の概要Microsoft Speech API overview

クラウドベースの Microsoft Speech API は、音声コマンド制御、自然な言葉での会話を使用したユーザー ダイアログ、文字起こしやディクテーションなど、強力な音声認識機能をアプリケーションで実現する簡単な方法を開発者に提供します。The cloud-based Microsoft Speech API provides developers an easy way to create powerful speech-enabled features in their applications, like voice command control, user dialog using natural speech conversation, and speech transcription and dictation. Microsoft Speech API は、Speech to TextText to Speech の両方の変換をサポートします。The Microsoft Speech API supports both Speech to Text and Text to Speech conversion.

  • Speech to Text API は、人間の音声を、アプリケーションを制御する入力またはコマンドとして使用できるテキストに変換します。Speech to Text API converts human speech to text that can be used as input or commands to control your application.
  • Text to Speech API は、テキストを、アプリケーションのユーザーが再生できるオーディオ ストリームに変換します。Text to Speech API converts text to audio streams that can be played back to the user of your application.

Speech to Text (音声認識)Speech to text (speech recognition)

Microsoft Speech Recognition API は、オーディオ ストリームを、アプリケーションでユーザーに表示できるテキストまたはコマンド入力として操作できるテキストに "書き起こします"。Microsoft speech recognition API transcribes audio streams into text that your application can display to the user or act upon as command input. Speech は、REST API または Websocket ベースのクライアント ライブラリを使用してアプリに追加できます。It provides two ways for developers to add Speech to their apps: REST APIs or Websocket-based client libraries.

  • REST API: アプリからサービスへの HTTP 呼び出しを使用して音声認識を行います。REST APIs: Developers can use HTTP calls from their apps to the service for speech recognition.
  • クライアント ライブラリ: 高度な機能を使用するには、Microsoft Speech クライアント ライブラリをダウンロードして、アプリにリンクします。Client libraries: For advanced features, developers can download Microsoft Speech client libraries, and link into their apps. クライアント ライブラリは、各種言語 (C#、Java、JavaScript、ObjectiveC) を使用してさまざまなプラットフォーム (Windows、Android、iOS) で使用できます。The client libraries are available on various platforms (Windows, Android, iOS) using different languages (C#, Java, JavaScript, ObjectiveC). REST API とは異なり、クライアント ライブラリは、Websocket ベースのプロトコルを利用します。Unlike the REST APIs, the client libraries utilize Websocket-based procotol.
ユース ケースUse cases REST APIREST APIs クライアント ライブラリClient Libraries
15 秒より短い音声のオーディオ (コマンドなど) を中間結果なしに変換するConvert a short spoken audio, for example, commands (audio length < 15 s) without interim results [はい]Yes [はい]Yes
15 秒以上の長いオーディオを変換するConvert a long audio (> 15 s) いいえ No [はい]Yes
中間結果が必要なオーディオをストリームするStream audio with interim results desired いいえ No [はい]Yes
LUIS を使用してオーディオから変換されたテキストを理解するUnderstand the text converted from audio using LUIS いいえ No [はい]Yes

いずれの手法 (REST API とクライアント ライブラリ) を使用する場合でも、Microsoft Speech Service は次をサポートします。Whichever approach developers choose (REST APIs or client libraries), Microsoft speech service supports the following:

  • Microsoft の高度な音声認識テクノロジ。Cortana、Office Dictation、Office Translator、およびその他の Microsoft 製品で使用されているものと同じです。Advanced speech recognition technologies from Microsoft that are used by Cortana, Office Dictation, Office Translator, and other Microsoft products.
  • リアルタイムの連続的認識。Real-time continuous recognition. Speech Recognition API は、リアルタイムでオーディオをテキストに起こし、途中までに認識されている中間結果の言葉を受け取ります。The speech recognition API enables users to transcribe audio into text in real time, and supports to receive the intermediate results of the words that have been recognized so far. Speech Service は、発話の終了の検出もサポートします。The speech service also supports end-of-speech detection. また、大文字/小文字の設定、句読点、不適切な表現のマスキング、テキストの正規化など、追加の書式設定機能を選択することができます。In addition, users can choose additional formatting capabilities, like capitalization and punctuation, masking profanity, and text normalization.
  • 対話会話、およびディクテーションのシナリオでの音声認識結果の最適化をサポート。Supports optimized speech recognition results for interactive, conversation, and dictation scenarios. カスタマイズされた言語モデルと音響モデルを必要とするユーザー シナリオにおいて、Custom Speech Service を使用すると、お使いのアプリケーションやそのユーザー向けにカスタマイズされた音声モデルを作成できます。For user scenarios which require customized language models and acoustic models, Custom Speech Service allows you to create speech models that tailored to your application and your users.
  • 複数の方言で話される多くの言語をサポート。Support many spoken languages in multiple dialects. 各認識モードでサポートされている言語の完全な一覧については、認識言語に関するページをご覧ください。For the full list of supported languages in each recognition mode, see recognition languages.
  • Language Understanding との統合。Integration with language understanding. 入力オーディオをテキストに変換する以外に、Speech to Text はアプリケーションにテキストの意味を理解するための追加機能を提供します。Besides converting the input audio into text, the Speech to Text provides applications an additional capability to understand what the text means. Language Understanding Intelligent Service (LUIS) を使用して認識されたテキストから意図やエンティティを抽出します。It uses the Language Understanding Intelligent Service(LUIS) to extract intents and entities from the recognized text.

次の手順Next steps

Text to Speech (音声合成)Text to speech (speech synthesis)

Text to Speech API は、REST を使用して構造化されたテキストをオーディオ ストリームに変換します。Text to Speech APIs use REST to convert structured text to an audio stream. この API は、テキストをさまざまな音声や言語にすばやく変換します。The APIs provide fast text to speech conversion in various voices and languages. さらに、SSML タグを使用して、発音、音量、ピッチなどの音声の特徴をIn addition users also have the ability to change audio characteristics like pronunciation, volume, pitch etc. 変更できます。using SSML tags.

次の手順Next steps