Speech Service とはWhat are the Speech Services?

Speech Services は、音声テキスト変換、テキスト読み上げ、音声翻訳が 1 つの Azure サブスクリプションにまとめられたものです。The Speech Services are the unification of speech-to-text, text-to-speech, and speech-translation into a single Azure subscription. Speech SDKSpeech Devices SDK、または REST API を使用して、アプリケーション、ツール、デバイスを簡単に音声対応にできます。It's easy to speech enable your applications, tools, and devices with the Speech SDK, Speech Devices SDK, or REST APIs.

重要

Speech Services は、Bing Speech API、Translator Speech、Custom Speech に代わるものです。Speech Services have replaced Bing Speech API, Translator Speech, and Custom Speech. 移行の手順については、" 「ハウツー ガイド」の「移行」 " をご覧ください。See How-to guides > Migration for migration instructions.

Azure Speech Services は次の機能で構成されています。These features make up the Azure Speech Services. 各機能の一般的なユース ケースの詳細を学習したり、API リファレンスを参照したりするには、次の表のリンクを使用してください。Use the links in this table to learn more about common use cases for each feature or browse the API reference.

ServiceService 機能Feature 説明Description SDKSDK RESTREST
音声テキスト変換Speech-to-Text 音声テキスト変換Speech-to-text 音声テキスト変換では、オーディオ ストリームからテキストへの文字起こしがリアルタイムで行われます。結果のテキストを、アプリケーション、ツール、またはデバイスで使用したり表示したりできます。Speech-to-text transcribes audio streams to text in real time that your applications, tools, or devices can consume or display. 音声テキスト変換を Language Understanding (LUIS) で使用し、文字起こしされた音声からユーザーの意図を抽出して、音声コマンドで対応します。Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. はいYes はいYes
バッチ文字起こしBatch Transcription バッチ文字起こしでは、大量のデータの音声からテキストへの文字起こしを、非同期で行うことができます。Batch transcription enables asynchronous speech-to-text transcription of large volumes of data. これは REST ベースのサービスであり、カスタマイズとモデルの管理と同じエンドポイントを使用します。This is a REST-based service, which uses same endpoint as customization and model management. いいえNo はいYes
会話の文字起こしConversation Transcription リアルタイムの音声認識、話者識別、およびダイアライゼーションが有効になります。Enables real-time speech recognition, speaker identification, and diarization. 話者を区別することができるため、対面会議の文字起こしに最適です。It's perfect for transcribing in-person meetings with the ability to distinguish speakers. はいYes いいえNo
カスタム音声モデルの作成Create Custom Speech Models 独自環境での認識と文字起こしに音声テキスト変換を使用している場合は、カスタムの音響、言語、発音モデルを作成してトレーニングし、周囲の雑音や業界固有の語彙に対応できます。If you are using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. いいえNo はいYes
Text-to-SpeechText-to-Speech テキスト読み上げText-to-speech テキスト読み上げでは、音声合成マークアップ言語 (SSML) が使用され、入力テキストが人間のような合成音声に変換されます。Text-to-speech converts input text into human-like synthesized speech using Speech Synthesis Markup Language (SSML). 標準音声とニューラル音声から選択できます (「言語のサポート」を参照)。Choose from standard voices and neural voices (see Language support). はいYes はいYes
カスタム音声の作成Create Custom Voices ブランドや製品に固有のカスタム音声フォントを作成します。Create custom voice fonts unique to your brand or product. いいえNo はいYes
音声翻訳Speech Translation 音声翻訳Speech translation 音声翻訳を使用すると、音声のリアルタイムの多言語翻訳がアプリケーション、ツール、デバイスで可能になります。Speech translation enables real-time, multi-language translation of speech to your applications, tools, and devices. 音声間翻訳や音声テキスト翻訳にはこのサービスを使用します。Use this service for speech-to-speech and speech-to-text translation. はいYes いいえNo
音声アシスタントVoice assistants 音声アシスタントVoice assistants Azure Speech Services を使用した音声アシスタントにより、開発者は、そのアプリケーションとエクスペリエンスのための自然で人間のような会話型インターフェイスを作成できます。Voice assistants using Azure Speech Services empower developers to create natural, human-like conversational interfaces for their applications and experiences. 音声アシスタント サービスは、Bot Framework の Direct Line Speech チャネルまたは統合カスタム コマンド (プレビュー) サービスを使用してタスクを遂行するアシスタントの実装とデバイスとの間に、高速で信頼性の高い対話を実現します。The voice assistant service provides fast, reliable interaction between a device and an assistant implementation that uses the Bot Framework's Direct Line Speech channel or the integrated Custom Commands (Preview) service for task completion. はいYes いいえNo

新機能と更新News and updates

Azure Speech Services の新機能について説明します。Learn what's new with the Azure Speech Services.

Speech Services を試してみるTry Speech Services

ほとんどの一般的なプログラミング言語向けのクイック スタートが提供されており、いずれも 10 分もかからずにコードを実行できるように作られています。We offer quickstarts in most popular programming languages, each designed to have you running code in less than 10 minutes. 各機能の最も人気のあるクイック スタートを次の表に示します。This table contains the most popular quickstarts for each feature. その他の言語やプラットフォームを調べるには、左側のナビゲーションを使用してください。Use the left-hand navigation to explore additional languages and platforms.

音声テキスト変換 (SDK)Speech-to-text (SDK) テキスト読み上げ (SDK)Text-to-Speech (SDK) 翻訳 (SDK)Translation (SDK)
オーディオ ファイルから音声を認識するRecognize speech from an audio file オーディオ ファイルに音声を合成するSynthesize speech into an audio file 音声をテキストに変換するTranslate speech to text
マイクを使用して音声を認識するRecognize speech with a microphone スピーカーに音声を合成するSynthesize speech to a speaker 音声を複数のターゲット言語に翻訳するTranslate speech to multiple target languages
BLOB ストレージに格納された音声を認識するRecognize speech stored in blob storage 長い形式の音声の非同期合成Async synthesis for long-form audio 音声間翻訳Translate speech-to-speech

注意

音声テキスト変換とテキスト読み上げには、REST エンドポイントとクイックスタートも用意されています。Speech-to-text and text-to-speech also have REST endpoints and associated quickstarts.

Speech Services を使ってみた後、Speech SDK と LUIS を使用して音声から意図を認識する方法がわかるチュートリアルを試してください。After you've had a chance to use the Speech Services, try our tutorial that teaches you how to recognize intents from speech using the Speech SDK and LUIS.

サンプル コードを取得するGet sample code

各 Azure Speech Services のサンプル コードを、GitHub で入手できます。Sample code is available on GitHub for each of the Azure Speech Services. これらのサンプルでは、ファイルやストリームからの音声の読み取り、連続的な認識と単発の認識、カスタム モデルの使用など、一般的なシナリオについて説明されています。These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models. SDK と REST のサンプルを見るには、次のリンクを使用してください。Use these links to view SDK and REST samples:

音声エクスペリエンスをカスタマイズするCustomize your speech experience

Azure Speech Services は組み込みのモデルで問題なく動作しますが、製品や環境に合わせてエクスペリエンスをさらにカスタマイズおよび調整したいことがあります。Azure Speech Services works well with built-in models, however, you may want to further customize and tune the experience for your product or environment. カスタマイズ オプションは、音響モデルのチューニングから、独自ブランドに固有の音声フォントにまで及びます。Customization options range from acoustic model tuning to unique voice fonts for your brand. カスタム モデルを作成した後は、すべての Azure Speech Services でそれを使用できます。After you've built a custom model, you can use it with any of the Azure Speech Services.

Speech ServiceSpeech Service プラットフォームPlatform 説明Description
音声テキスト変換Speech-to-Text カスタム音声Custom Speech 音声認識モデルをニーズと使用可能なデータに合わせてカスタマイズします。Customize speech recognition models to your needs and available data. 話し方、ボキャブラリ、背景ノイズといった音声認識の障壁を克服可能です。Overcome speech recognition barriers such as speaking style, vocabulary and background noise.
テキスト読み上げText-to-Speech Custom VoiceCustom Voice お客様のスピーチ データを使用して、テキスト読み上げアプリ用の認識可能な独自の音声を作成します。Build a recognizable, one-of-a-kind voice for your Text-to-Speech apps with your speaking data available. 音声パラメーターのセットを調整することで、音声出力をさらに細かく調整できます。You can further fine-tune the voice outputs by adjusting a set of voice parameters.

リファレンス ドキュメントReference docs

次の手順Next steps