Custom Speech Service とはWhat is Custom Speech Service?

Custom Speech Service は、音声からテキストへの文字起こし用の音声モデルをカスタマイズするための機能をユーザーに提供するクラウドベース サービスです。Custom Speech Service is a cloud-based service that provides users with the ability to customize speech models for Speech-to-Text transcription. Custom Speech Service を使用するには、Custom Speech Service ポータルを参照します。To use the Custom Speech Service, refer to the Custom Speech Service Portal.

Custom Speech Service を使用すると、アプリケーションやユーザー向けに調整されているカスタマイズされた言語モデルと音響モデルを作成できます。The Custom Speech Service enables you to create customized language models and acoustic models tailored to your application and your users. 特定の音声とテキスト データのいずれかまたは両方を Custom Speech Service にアップロードすることで、Microsoft の既存の最先端の音声モデルと組み合わせて使用できる、カスタム モデルを作成できます。By uploading your specific speech and/or text data to the Custom Speech Service, you can create custom models that can be used in conjunction with Microsoft’s existing state-of-the-art speech models.

たとえば、携帯電話、タブレット、PC のアプリに音声対話を追加している場合は、Microsoft の音響モデルと組み合わせ可能なカスタム言語モデルを作成して、アプリ専用に設計した音声テキスト変換のエンドポイントを作成できます。For example, if you’re adding voice interaction to a mobile phone, tablet or PC app, you can create a custom language model that can be combined with Microsoft’s acoustic model to create a speech-to-text endpoint designed especially for your app. 特定の環境や、特定のユーザー層による使用向けにアプリケーションが設計されている場合、このサービスを利用してカスタムの音響モデルを作成およびデプロイすることもできます。If your application is designed for use in a particular environment or by a particular user population, you can also create and deploy a custom acoustic model with this service.

音声認識システムのしくみHow do speech recognition systems work?

音声認識システムは、連動する複数のコンポーネントから構成されています。Speech recognition systems are composed of several components that work together. 最も重要な 2 つのコンポーネントは、音響モデルと言語モデルです。Two of the most important components are the acoustic model and the language model.

音響モデルとは、音声の短い断片を特定の言語のいくつかの音素、つまり音声単位に分類する分類器です。The acoustic model is a classifier that labels short fragments of audio into one of a number of phonemes, or sound units, in a given language. たとえば、“speech” という単語は “s p iy ch” という 4 つの音素で構成されています。For example, the word “speech” is composed of four phonemes “s p iy ch”. こうした分類は、1 秒あたり 100 回程度行われます。These classifications are made on the order of 100 times per second.

言語モデルは、一連の単語における確率分布を表すものです。The language model is a probability distribution over sequences of words. 言語モデルにより、一連の単語の中から、単語系列自体の確率に基づいて音が似ている単語を選択できます。The language model helps the system decide among sequences of words that sound similar, based on the likelihood of the word sequences themselves. たとえば、“recognize speech” と “wreck a nice beach” の音は似ていますが、前者の仮定の発生確率の方がはるかに大きいため、言語モデルが付けるスコアは大きくなります。For example, “recognize speech” and “wreck a nice beach” sound alike but the first hypothesis is far more likely to occur, and therefore will be assigned a higher score by the language model.

音響モデルと言語モデルは両方とも、トレーニング データから学習した統計モデルです。Both the acoustic and language models are statistical models learned from training data. 結果として、アプリケーションでの使用時に遭遇する音声が、トレーニング中に観察されたデータと類似している場合に、最適に動作します。As a result, they perform best when the speech they encounter when used in applications is similar to the data observed during training. Microsoft 音声テキスト変換エンジンの音響モデルと言語モデルは、音声およびテキストの巨大なコレクションでトレーニングされており、スマート フォン、タブレット、または PC 上の Cortana との連携、音声による Web 検索、友人へのテキスト メッセージのディクテーションなど、最も一般的な使用のシナリオに対して最先端のパフォーマンスを提供します。The acoustic and language models in the Microsoft Speech-To-Text engine have been trained on an enormous collection of speech and text and provide state-of-the-art performance for the most common usage scenarios, such as interacting with Cortana on your smart phone, tablet or PC, searching the web by voice or dictating text messages to a friend.

Custom Speech Service を使用する理由Why use the Custom Speech Service?

Microsoft 音声テキスト変換エンジンは国際的レベルのものですが、上記のシナリオを対象としています。While the Microsoft Speech-To-Text engine is world-class, it is targeted toward the scenarios described above. しかし、アプリケーションに対する音声クエリに、通常の音声ではめったに使われない製品名や専門用語などの特定の語彙が含まれると予想される場合は、言語モデルをカスタマイズすることでパフォーマンスの改善を実現できる可能性があります。However, if you expect voice queries to your application to contain particular vocabulary items, such as product names or jargon that rarely occur in typical speech, it is likely that you can obtain improved performance by customizing the language model.

たとえば、音声により MSDN を検索するアプリを作成する場合、通常の音声アプリケーションよりも “オブジェクト指向” や “名前空間”、“Dot Net” などの用語が使われる可能性は高いと考えられます。For example, if you were building an app to search MSDN by voice, it’s likely that terms like “object-oriented” or “namespace” or “dot net” will appear more frequently than in typical voice applications. 言語モデルのカスタマイズにより、システムにこうした状況を学習させることができます。Customizing the language model will enable the system to learn this.

次の手順Next steps

Custom Speech Service の使用方法について詳しくは、Custom Speech Service ポータルhttps://cris.ai)を参照してください。For more information about how to use the Custom Speech Service, see the Custom Speech Service Portal.