音声サービスとはWhat is the Speech service?

他の Azure 音声サービスと同じように、Speech Service は、Cortana や Microsoft Office などの製品で使用されている音声認識テクノロジを利用しています。Like the other Azure speech services, the Speech service is powered by the speech technologies used in products like Cortana and Microsoft Office.

Speech Service では、以前は Bing Speech APITranslator SpeechCustom Speech、および Custom Voice の各サービスで利用可能であった Azure 音声機能が統合されています。The Speech service unites the Azure speech features previously available via the Bing Speech API, Translator Speech, Custom Speech, and Custom Voice services. 現在は、1 つのサブスクリプションで、これらすべての機能にアクセスできます。Now, one subscription provides access to all of these capabilities.

Speech Service の主要機能Main Speech service functions

Speech Service の主要機能には、音声テキスト変換 (音声認識また文字起こしとも呼ばれます)、テキスト読み上げ (音声合成)、および音声翻訳があります。The primary functions of the Speech service are Speech to Text (also called speech recognition or transcription), Text to Speech (speech synthesis), and Speech Translation.

関数Function 機能Features
音声テキスト変換Speech to Text
  • 連続するリアルタイムの音声をテキストに書き起こします。Transcribes continuous real-time speech into text.
  • 音声録音から音声を一括で文字起こしできます。Can batch-transcribe speech from audio recordings.
  • 中間結果、音声の終わりの検出、テキストの自動的な書式設定、および不適切な表現のマスキングをサポートします。Supports intermediate results, end-of-speech detection, automatic text formatting, and profanity masking.
  • Language Understanding (LUIS) を呼び出して、文字起こしされた音声からユーザーの意図を導き出すことができます。*Can call on Language Understanding (LUIS) to derive user intent from transcribed speech.*
  • テキスト読み上げText to Speech
  • テキストを自然な音声に変換します。Converts text to natural-sounding speech.
  • 複数の性別やサポートされている多くの言語の方言が用意されています。Offers multiple genders and/or dialects for many supported languages.
  • プレーンテキストの入力または音声合成マークアップ言語 (SSML) をサポートします。Supports plain text input or Speech Synthesis Markup Language (SSML).
  • 音声翻訳Speech Translation
  • トリーミング オーディオをほぼリアルタイムで翻訳します。Translates streaming audio in near-real-time.
  • 録音された音声も処理できます。Can also process recorded speech.
  • テキストまたは合成された音声として結果を提供します。Provides results as text or synthesized speech.
  • 音声機能のカスタマイズCustomize speech features

    Speech Service の音声テキスト変換機能とテキスト読み上げ機能の基になるモデルを、独自のデータを使用してトレーニングできます。You can use your own data to train the models that underlie the Speech service's Speech-to-Text and Text-to-Speech features.

    機能Feature モデルModel 目的Purpose
    音声テキスト変換Speech to Text 音響モデルAcoustic model 特定の話者や環境 (社内や工場内など) で文字起こしする際に有用です。Helps transcribe particular speakers and environments, such as cars or factories.
    言語モデルLanguage model フィールド固有の語彙や文法 (医療や IT の専門用語など) で文字起こしする際に有用です。Helps transcribe field-specific vocabulary and grammar, such as medical or IT jargon.
    発音モデルPronunciation model 略語と頭字語 (たとえば "IOU" を "I owe you" と発音) を文字起こしする際に有用です。Helps transcribe abbreviations and acronyms, such as "IOU" for "I owe you."
    テキストから音声へText to Speech 音声フォントVoice font 人間の音声サンプルでモデルをトレーニングして、アプリに独自の音声を与えます。Gives your app a voice of its own by training the model on samples of human speech.

    アプリの音声テキスト変換機能またはテキスト読み上げ機能で標準モデルを使用するすべての場所で、カスタム モデルを使用できます。You can use your custom models anywhere you use the standard models in your app's Speech-to-Text or Text-to-Speech functionality.

    Speech Service の使用Use the Speech service

    Microsoft では、音声対応アプリケーションの開発を簡素化するために、Speech Service で使用する Speech SDK を提供しています。To simplify the development of speech-enabled applications, Microsoft provides the Speech SDK for use with the Speech service. Speech SDK には、一貫性のあるネイティブな C#、C++、および Java 用の Speech to Text API と Speech Translation API が提供されています。The Speech SDK provides consistent native Speech-to-Text and Speech Translation APIs for C#, C++, and Java. これらの言語のいずれかで開発する場合、Speech SDK によってネットワークの詳細が処理されるため、開発が容易になります。If you develop with one of these languages, the Speech SDK makes development easier by handling the network details for you.

    Speech Service には、HTTP 要求を実行できるプログラミング言語で動作する REST API も含まれています。The Speech service also has a REST API that works with any programming language that can make HTTP requests. REST インターフェイスでは、SDK のストリーミングのリアルタイム機能は提供されません。The REST interface does not offer the streaming, real-time functionality of the SDK.


    方法Method
    音声Speech
    テキスト変換to Text
    テキストからText to
    音声Speech
    音声Speech
    翻訳Translation

    説明Description
    Speech SDKSpeech SDK [はい]Yes いいえ No [はい]Yes C#、C++、および Java 用のネイティブ API による開発の簡略化。Native APIs for C#, C++, and Java to simplify development.
    RESTREST [はい]Yes [はい]Yes いいえ No アプリケーションに音声を簡単に追加できる HTTP ベースの単純な API。A simple HTTP-based API that makes it easy to add speech to your applications.

    WebSocketWebSockets

    Speech Service には、音声テキスト変換と音声翻訳をストリーミングするための Websocket プロトコルもあります。The Speech service also has WebSocket protocols for streaming Speech to Text and Speech Translation. Speech SDK は、これらのプロトコルを使用して、Speech Service と通信します。The Speech SDKs use these protocols to communicate with the Speech service. Speech Service との独自の Websocket 通信を実装する代わりに、Speech SDK を使用してください。Use the Speech SDK instead of trying to implement your own WebSocket communication with the Speech service.

    Websocket 経由で Bing Speech または Translator Speech を使用するコードが既に存在する場合は、Speech Service を使用するようにコードを更新できます。If you already have code that uses Bing Speech or Translator Speech via WebSockets, you can update it to use the Speech service. WebSocket プロトコルには互換性があります。違うのはエンドポイントだけです。The WebSocket protocols are compatible, only the endpoints are different.

    Speech Devices SDKSpeech Devices SDK

    Speech Devices SDK は、音声対応デバイスの開発者向けのハードウェアとソフトウェアの統合プラットフォームです。The Speech Devices SDK is an integrated hardware and software platform for developers of speech-enabled devices. Microsoft のハードウェア パートナーによって、参照設計と開発ユニットが提供されています。Our hardware partner provides reference designs and development units. Microsoft では、ハードウェアの機能を最大限に活用する、デバイスに最適化された SDK を提供しています。Microsoft provides a device-optimized SDK that takes full advantage of the hardware's capabilities.

    音声のシナリオSpeech scenarios

    Speech Service のユース ケースには、以下が含まれます。Use cases for the Speech service include:

    • 音声によってトリガーされるアプリを作成するCreate voice-triggered apps
    • コール センターの録音を文字起こしするTranscribe call center recordings
    • 音声ボットを実装するImplement voice bots

    音声ユーザー インターフェイスVoice user interface

    音声入力は、アプリを柔軟にハンズフリーですぐに使えるようにするための優れた方法です。Voice input is a great way to make your app flexible, hands-free, and quick to use. 音声対応アプリでは、ユーザーは質問するだけで必要な情報を得ることができます。With a voice-enabled app, users can just ask for the information they want.

    アプリが一般の人を対象にしている場合は、既定の音声認識モデルを使用できます。If your app is intended for use by the general public, you can use the default speech recognition models. 一般的な環境でさまざまな話者を認識します。They recognize a wide variety of speakers in common environments.

    医療や IT などの特定のドメインでアプリが使用される場合、言語モデルを作成できます。If your app is used in a specific domain, for example, medicine or IT, you can create a language model. このモデルを使用して、アプリで使用される特別な用語を Speech Service に教えることができます。You can use this model to teach the Speech service about the special terminology used by your app.

    工場などの雑音が多い環境でアプリを使用する場合、カスタムの音響モデルを作成できます。If your app is used in a noisy environment, such as a factory, you can create a custom acoustic model. このモデルは、Speech Service が雑音と音声を区別するのに役立ちます。This model helps the Speech service to distinguish speech from noise.

    コール センターの文字起こしCall center transcription

    多くの場合、コール センターの録音は、通話で問題が発生した場合にのみ確認されます。Often, call center recordings are consulted only if an issue arises with a call. Speech Service を使用すると、すべての録音をテキストに簡単に書き起こすことができます。With the Speech service, it's easy to transcribe every recording to text. 全文検索用にインデックスを付けることや、Text Analytics を適用して感情、言語、キー フレーズを検出することは簡単です。You can easily index the text for full-text search or apply Text Analytics to detect sentiment, language, and key phrases.

    コール センターの録音に専門用語 (製品名や IT 用語など) が含まれることが多い場合は、言語モデルを作成して Speech Service にそのボキャブラリを学習させることができます。If your call center recordings involve specialized terminology, such as product names or IT jargon, you can create a language model to teach the Speech service the vocabulary. カスタム音響モデルは、電話接続が最善ではなくても Speech Service が解釈できるようにする上で役立ちます。A custom acoustic model can help the Speech service understand less-than-optimal phone connections.

    このシナリオの詳細については、Speech Service での「バッチ文字起こし」を参照してください。For more information about this scenario, read more about batch transcription with the Speech service.

    音声ボットVoice bots

    ボットは、ユーザーを必要な情報に結び付ける方法、また顧客を好みのビジネスに結び付ける方法として普及しています。Bots are a popular way to connect users with the information they want and customers with businesses they like. 会話型ユーザー インターフェイスを Web サイトまたはアプリに追加すると、その機能を簡単に見つけてすばやくアクセスできるようになります。When you add a conversational user interface to your website or app, the functionality is easier to find and quicker to access. Speech Service を使用して、発話された質問を同じやり方で応答すれば、会話は新しい次元の雄弁さを獲得します。With the Speech service, this conversation takes on a new dimension of fluency by responding to spoken queries in kind.

    音声対応ボットに独自性を追加するために、音声を独自のものにできます。To add a unique personality to your voice-enabled bot, you can give it a voice of its own. カスタム音声は 2 段階のプロセスで作成します。Creating a custom voice is a two-step process. まず、使用する音声を録音しますFirst, make recordings of the voice you want to use. 次に、Speech Service の音声カスタマイズ ポータルに (テキスト トランスクリプトと共に) これらの録音を送信します。後の処理はポータルで行われます。Then submit those recordings along with a text transcript to the Speech service's voice customization portal, which does the rest. カスタム音声を作成した後、アプリでそれを使用する手順は簡単です。After you create your custom voice, the steps to use it in your app are straightforward.

    次の手順Next steps

    Speech Service のサブスクリプション キーを取得します。Get a subscription key for the Speech service.