Speech Service (プレビュー) とはWhat is the Speech service (preview)?

Microsoft の Cognitive Services の一部である Speech Service では、これまで別々に提供されていた複数の Azure 音声サービス (Bing Speech (音声認識とテキスト読み上げで構成)、Custom Speech、Speech Translation) が統合されています。The Speech service, part of Microsoft's Cognitive Services, unites several Azure speech services that were previously available separately: Bing Speech (comprising speech recognition and text to speech), Custom Speech, and Speech Translation. 前身サービスと同様に、Speech Service は、Cortana や Microsoft Office などの他の Microsoft 製品で使用されているテクノロジを備えています。Like its precursors, the Speech service is powered by the technologies used in other Microsoft products, including Cortana and Microsoft Office.

注意

現在、Speech Service はパブリック プレビュー段階にあります。The Speech service is currently in public preview. このページを定期的に参照して、ドキュメント、追加コード サンプルなどの最新情報を確認してください。Return here regularly for updates to documentation, additional code samples, and more.

1 つのサブスクリプションで利用できる統合 Speech Service により、開発者はアプリケーションに強力な音声認識機能を簡単に提供できます。With one subscription, the unified Speech service gives developers an easy way to give their applications powerful speech-enabled features. アプリでは、音声コマンド、文字起こし、ディクテーション、音声合成、翻訳の各機能を備えることができるようになります。Your apps can now feature voice command, transcription, dictation, speech synthesis, and translation.

関数Function 説明Description
音声テキスト変換Speech to Text 人間の連続音声を、アプリケーションへの入力として使用できるテキストに変換します。Converts continuous human speech to text that can be used as input to your application. Language Understanding Service (LUIS) と統合すると、発話からユーザーの意図を導き出すことができます。Can integrate with the Language Understanding service (LUIS) to derive user intent from utterances.
テキストから音声へText to Speech テキストを自然な合成音声のオーディオ ファイルに変換します。Converts text to audio files of natural-sounding synthesized speech.
音声 翻訳Speech Translation 音声を他の言語に翻訳し、テキストまたは音声で出力します。Provide translations of speech to other languages, with text or speech output.

Speech Service の使用Using the Speech service

Speech Service は 2 つの方法で利用できます。The Speech service is made available in two ways. SDK は、ネットワーク プロトコルの詳細を抽象化します。The SDK abstracts away the details of the network protocols. REST API は、どのプログラミング言語でも動作しますが、SDK が提供するすべての機能を提供するわけではありません。The REST API works with any programming language but does not offer all the functions offered by the SDK.


方法Method
音声Speech
テキスト変換to Text
テキストからText to
音声Speech
音声Speech
翻訳Translation

説明Description
SDKSDKs [はい]Yes いいえ No [はい]Yes 開発を簡素化する、特定のプログラミング言語用のライブラリ。Libraries for specific programming languages that simplify development.
RESTREST [はい]Yes [はい]Yes いいえ No アプリケーションに音声を簡単に追加できる HTTP ベースの単純な API。A simple HTTP-based API that makes it easy to add speech to your application.

音声テキスト変換Speech to Text

Speech to Text (STT) (音声認識) API により、オーディオ ストリームが書き起こされ、アプリケーションが入力として受け取ることができるテキストに変換されます。The Speech to Text (STT), or speech recognition, API transcribes audio streams into text that your application can accept as input. アプリケーションでは、そのテキストをドキュメントに入力したり、コマンドとして認識したりできます。Your application can then, for example, enter the text into a document or act upon it as a command.

音声テキスト変換は、対話、会話、ディクテーションの各シナリオ用に個別に最適化されています。Speech to Text has been separately optimized for interactive, conversation, and dictation scenarios. Speech to Text API の一般的なユース ケースを次に示します。The following are common use cases for the Speech to Text API.

  • 中間結果なしで短い発話 (コマンドなど) を認識するRecognize a brief utterance, such as a command, without interim results
  • 以前に録音された長い音声 (ボイスメール メッセージなど) を書き起こすTranscribe a long, previously-recorded utterance, such as a voicemail message
  • ディクテーションを目的として、部分的な結果と共にストリーミング音声をリアルタイムで書き起こすTranscribe streaming speech in real-time, with partial results, for dictation
  • 発声された自然言語の要求に基づいて、ユーザーが実行したいことを判断するDetermine what users want to do based on a spoken natural-language request

Speech to Text API では、リアルタイムの連続認識と中間結果で対話型の音声文字起こしがサポートされています。The Speech to Text API supports interactive speech transcription with real-time continuous recognition and interim results. また、発話の終了の検出、オプションの自動大文字化および句読点挿入、不適切な言葉のマスク、テキストの正規化もサポートされています。It also supports end-of-speech detection, optional automatic capitalization and punctuation, profanity masking, and text normalization.

音声テキスト変換の音響モデルと言語モデルをカスタマイズして、特殊なボキャブラリ、騒がしい環境、さまざまな話し方に対応できます。You can customize Speech to Text acoustic and language models to accommodate specialized vocabulary, noisy environments, and different ways of speaking.

テキストから音声へText to Speech

Text to Speech (TTS) (音声合成) API により、プレーン テキストが自然な音声に変換され、オーディオ ファイルでアプリケーションに提供されます。The Text to Speech (TTS), or speech synthesis, API converts plain text to natural-sounding speech, delivered to your application in an audio file. サポートされている多数の言語で、性別やアクセントが異なる複数の音声を利用できます。Multiple voices, varying in gender or accent, are available for many supported languages.

この API では音声合成マークアップ言語 (SSML) タグがサポートされているため、厄介な単語に対しても正確な発音を指定できます。The API supports Speech Synthesis Markup Language (SSML) tags, so you can specify exact phonetic pronunciation for troublesome words. SSML では、テキストで音声の特徴 (強勢、速度、音量、性別、ピッチなど) を指示することもできます。SSML can also indicate speech characteristics (including emphasis, rate, volume, gender, and pitch) right in the text.

Text to Speech API の一般的なユース ケースを次に示します。The following are common use cases for the Text to Speech API.

  • 視覚に障碍があるユーザー向けの代替画面出力としての音声出力Speech output as an alternative screen output for visually-impaired users
  • ナビゲーションなどの車内アプリケーションの音声指示Voice prompting for in-car applications such as navigation
  • Speech to Text API と連携した会話型ユーザー インターフェイスConversational user interfaces in concert with the Speech to Text API

サポートされていない言語が必要な場合や、単にアプリケーションで固有の音声が必要な場合、Text to Speech API ではカスタム音声モデルがサポートされています。If you need an unsupported dialect or just want a unique voice for your application, the Text to Speech API supports custom voice models.

音声翻訳Speech Translation

Speech Translation API を使用して、ストリーミング オーディオのほぼリアルタイムでの翻訳または録音済みの音声の処理を行うことができます。The Speech Translation API can be used either to translate streaming audio in near-real-time or to process recorded speech. ストリーミング翻訳では、翻訳の進行状況を示すためにユーザーに表示できる中間結果が返されます。In streaming translation, the service returns interim results that can be displayed to the user to indicate translation progress. 結果はテキストと音声のいずれかで返されます。The results may be returned either as text or as voice.

音声翻訳のユース ケースを次に示します。Use cases for Speech Translation include the following.

  • 旅行者向けの "会話" 翻訳モバイル アプリまたはデバイスを実装するImplement a "conversational" translation mobile app or device for travelers
  • 音声録音およびビデオ録画の字幕作成の自動翻訳を提供するProvide automatic translations for subtitling of audio and video recordings

Speech Devices SDKSpeech Devices SDK

統合 Speech Service の導入に伴い、Microsoft とパートナーは、音声認識デバイスの開発に最適化された統合ハードウェア/ソフトウェア プラットフォームである、Speech Devices SDK を提供しています。With the introduction of the unified Speech service, Microsoft and its partners offer an integrated hardware/software platform optimized for developing speech-enabled devices: the Speech Devices SDK. この SDK は、あらゆる種類のアプリケーションに対応するスマート音声デバイスの開発に適しています。This SDK is suitable for developing smart speech devices for all types of applications.

Speech Devices SDK では、ウェイク ワードをカスタマイズして独自のアンビエント デバイスを構築できるため、オーディオ キャプチャをトリガーするキューがブランド固有のものになります。The Speech Devices SDK allows you to build your own ambient devices with a customized wake word, so that the cue that triggers audio capture is unique to your brand. さらに、ノイズの抑制、遠距離の音声、ビームフォーミングなど、マルチチャンネル ソースに対して高度なオーディオ処理が行われ、より正確な音声認識が実現されます。It also provides superior audio processing from multi-channel sources for more accurate speech recognition, including noise suppression, far-field voice, and beamforming.

この SDK は、ポート 443 を使用した Web ソケットに基づいています。The SDK is based on web sockets using port 443.

次の手順Next steps

Speech Service の無料試用版サブスクリプション キーを取得します。Get a free trial subscription key for the Speech service.