音声変換の概要What is speech-to-text?

Speech Service の音声変換 (音声テキスト変換とも呼ばれる) を使用すると、音声ストリームをリアルタイムでテキストに変換できます。アプリケーション、ツール、デバイスでは、そのテキストを利用または表示したり、コマンド入力としてアクションを実行したりできます。Speech-to-text from the Speech service, also known as speech-to-text, enables real-time transcription of audio streams into text that your applications, tools, or devices can consume, display, and take action on as command input. このサービスは、Microsoft が Cortana や Office 製品で使用するのと同じ認識テクノロジが採用されており、翻訳やテキスト読み上げの機能とシームレスに連携します。This service is powered by the same recognition technology that Microsoft uses for Cortana and Office products, and works seamlessly with the translation and text-to-speech. 使用可能な音声変換の言語の詳細については、サポートされる言語に関するページを参照してください。For a full list of available speech-to-text languages, see supported languages.

既定では、音声変換サービスでは、汎用言語モデルが使用されます。By default, the speech-to-text service uses the Universal language model. このモデルは、Microsoft が所有するデータでトレーニングされて、クラウドにデプロイされています。This model was trained using Microsoft-owned data and is deployed in the cloud. このモデルは、会話や口述のシナリオに最適です。It's optimal for conversational and dictation scenarios. 独自環境での認識と文字起こしに音声テキスト変換を使用している場合は、カスタムの音響、言語、発音モデルを作成してトレーニングし、周囲の雑音や業界固有の語彙に対応できます。If you are using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary.

Speech SDK や REST API を使用することにより、マイクからの音声のキャプチャや、ストリームからの読み取り、ストレージからの音声ファイルへのアクセスを簡単行うことができます。You can easily capture audio from a microphone, read from a stream, or access audio files from storage with the Speech SDK and REST APIs. Speech SDK では、音声認識用として、WAV/PCM 16 ビット、16 kHz/8 kHz、単一チャネル オーディオがサポートされています。The Speech SDK supports WAV/PCM 16-bit, 16 kHz/8 kHz, single-channel audio for speech recognition. 音声変換 REST エンドポイントバッチ文字起こしサービスを使用したオーディオ形式もサポートされています。Additional audio formats are supported using the speech-to-text REST endpoint or the batch transcription service.

コア機能Core features

Speech SDK および REST API を通じて使用可能な機能を以下に示します。Here is the features available via the Speech SDK and REST APIs:

ユース ケースUse case SDKSDK RESTREST
短い発話の文字起こし (15 秒未満)。Transcribe short utterances (<15 seconds). 最終的な文字起こしの結果のみがサポートされます。Only supports one final transcription result. はいYes はい*Yes*
長い発話とストリーミング音声の継続的な文字起こし (15 秒超)。Continuous transcription of long utterances and streaming audio (>15 seconds). 中間および最終の文字起こしの結果がサポートされます。Supports interim and final transcription results. はいYes いいえNo
LUIS の使用による認識結果からの意図の抽出。Derive intents from recognition results with LUIS. はいYes いいえ**No**
音声ファイルの非同期での一括文字起こし。Batch transcription of audio files asynchronously. いいえNo はい***Yes***
音声モデルの作成および管理。Create and manage speech models. いいえNo はい***Yes***
カスタム モデル デプロイの作成および管理。Create and manage custom model deployments. いいえNo はい***Yes***
正確性テストを作成し、ベースライン モデルとカスタム モデルの正確性を測定して比較する。Create accuracy tests to measure the accuracy of the baseline model versus custom models. いいえNo はい***Yes***
サブスクリプションを管理する。Manage subscriptions. いいえNo はい***Yes***

*REST 機能を使用すると、最大 60 秒のオーディオを転送でき、最終的な文字起こしの結果が 1 つ表示されます。*Using the REST functionality you can transfer up to 60 seconds of audio and will receive one final transcription result.

**LUIS の意図とエンティティは、個別の LUIS サブスクリプションを使用して派生させることができます。このサブスクリプションでは、SDK で LUIS を自動的に呼び出し、エンティティおよび意図の結果を提供します。REST API の場合は、LUIS を自分で呼び出すことで、LUIS サブスクリプションを使用して意図とエンティティを派生させます。**LUIS intents and entities can be derived using a separate LUIS subscription. With this subscription, the SDK calls LUIS for you and provide entity and intent results. With the REST API, you call LUIS yourself to derive intents and entities with your LUIS subscription.

***これらのサービスは、cris.ai エンドポイントを使用して提供されます。Swagger リファレンスに関するページを参照してください。***These services are available using the cris.ai endpoint. See Swagger reference.

音声変換の概要Get started with speech-to-text

ほとんどの一般的なプログラミング言語向けのクイック スタートが提供されており、いずれも 10 分もかからずにコードを実行できるように作られています。We offer quickstarts in most popular programming languages, each designed to have you running code in less than 10 minutes. 次の表は、プラットフォームと言語別に整理された Speech SDK クイックスタートの完全な一覧です。This table includes a complete list of Speech SDK quickstarts organized by platform and language. こちらで API リファレンスも参照できます。API reference can also be found here.

音声変換 REST サービスを使用する場合は、REST API に関するページを参照してください。If you prefer to use the speech-to-text REST service, see REST APIs.

チュートリアルおよびサンプル コードTutorials and sample code

Speech Service を使ってみた後、Speech SDK と LUIS を使用して音声から意図を認識する方法がわかるチュートリアルを試してください。After you've had a chance to use the Speech service, try our tutorial that teaches you how to recognize intents from speech using the Speech SDK and LUIS.

Speech SDK のサンプル コードは、GitHub 上で入手できます。Sample code for the Speech SDK is available on GitHub. これらのサンプルでは、ファイルやストリームからの音声の読み取り、連続的な認識と単発の認識、カスタム モデルの使用など、一般的なシナリオについて説明されています。These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models.

カスタマイズCustomization

Speech Service で使用される標準のベースライン モデルに加えて、使用可能なデータを使用してニーズに合わせてモデルをカスタマイズしたり、会話のスタイル、語彙、周囲の雑音など、音声認識の障壁となっている課題を解消したりすることができます。「Custom Speech とは」を参照してください。In addition to the standard baseline model used by the Speech service, you can customize models to your needs with available data, to overcome speech recognition barriers such as speaking style, vocabulary and background noise, see Custom Speech

注意

カスタマイズのオプションは、言語やロケールによって異なります (サポートされる言語に関するページを参照してください)。Customization options vary by language/locale (see Supported languages).

移行ガイドMigration guides

警告

Bing Speech は、2019 年 10 月 15 日に使用が停止されました。Bing Speech was decommissioned on October 15, 2019.

アプリケーション、ツール、または製品で Bing Speech API または Custom Speech をご使用の方に向けて、Speech Service への移行に役立つガイドを作成しました。If your applications, tools, or products are using the Bing Speech APIs or Custom Speech, we've created guides to help you migrate to the Speech service.

リファレンス ドキュメントReference docs

次の手順Next steps