音声サービスとはWhat is the Speech service?

音声サービスは、音声テキスト変換、テキスト読み上げ、音声翻訳が 1 つの Azure サブスクリプションにまとめられたものです。The Speech service is the unification of speech-to-text, text-to-speech, and speech-translation into a single Azure subscription. Speech CLISpeech SDKSpeech Devices SDKSpeech Studio、または REST API を使用して、アプリケーション、ツール、デバイスを簡単に音声対応にできます。It's easy to speech enable your applications, tools, and devices with the Speech CLI, Speech SDK, Speech Devices SDK, Speech Studio, or REST APIs.

重要

Speech Service は、Bing Speech API と Translator Speech に代わるものです。The Speech service has replaced Bing Speech API and Translator Speech. 移行の手順については、" 「ハウツー ガイド」の「移行」 " をご覧ください。See How-to guides > Migration for migration instructions.

以下の機能は、Speech Service に属しています。The following features are part of the Speech service. 各機能の一般的なユース ケースの詳細を学習したり、API リファレンスを参照したりするには、次の表のリンクを使用してください。Use the links in this table to learn more about common use-cases for each feature, or browse the API reference.

サービスService 機能Feature 説明Description SDKSDK RESTREST
音声テキスト変換Speech-to-Text リアルタイムの音声テキスト変換Real-time Speech-to-text 音声テキスト変換では、オーディオ ストリームまたはローカル ファイルからテキストへの文字起こしまたは翻訳がリアルタイムで行われ、結果のテキストをアプリケーション、ツール、またはデバイスで使用したり表示したりできます。Speech-to-text transcribes or translates audio streams or local files to text in real time that your applications, tools, or devices can consume or display. 音声テキスト変換を Language Understanding (LUIS) で使用し、文字起こしされた音声からユーザーの意図を抽出して、音声コマンドで対応します。Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. はいYes はいYes
一括音声テキスト変換Batch Speech-to-Text 一括音声テキスト変換では、Azure Blob Storage に格納された大量の音声データを対象に、音声からテキストへの文字起こしを非同期で行うことができます。Batch Speech-to-text enables asynchronous speech-to-text transcription of large volumes of speech audio data stored in Azure Blob Storage. 音声からテキストへの変換に加え、一括音声テキスト変換は、ダイアライゼーションや感情分析にも対応します。In addition to converting speech audio to text, Batch Speech-to-text also allows for diarization and sentiment-analysis. いいえNo はいYes
マルチデバイスの会話Multi-device Conversation 会話の中で複数のデバイスまたはクライアントを接続して、音声ベースまたはテキストベースのメッセージを送信し、文字起こしや翻訳を容易に実現します。Connect multiple devices or clients in a conversation to send speech- or text-based messages, with easy support for transcription and translation はいYes いいえNo
会話の文字起こしConversation Transcription リアルタイムの音声認識、話者識別、およびダイアライゼーションが有効になります。Enables real-time speech recognition, speaker identification, and diarization. 話者を区別することができるため、対面会議の文字起こしに最適です。It's perfect for transcribing in-person meetings with the ability to distinguish speakers. はいYes いいえNo
カスタム音声モデルの作成Create Custom Speech Models 独自環境での認識と文字起こしに音声テキスト変換を使用している場合は、カスタムの音響、言語、発音モデルを作成してトレーニングし、周囲の雑音や業界固有の語彙に対応できます。If you are using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. いいえNo はいYes
音声合成Text-to-Speech テキスト読み上げText-to-speech テキスト読み上げでは、音声合成マークアップ言語 (SSML) が使用され、入力テキストが人間のような合成音声に変換されます。Text-to-speech converts input text into human-like synthesized speech using Speech Synthesis Markup Language (SSML). 標準音声とニューラル音声から選択できます (「言語のサポート」を参照)。Choose from standard voices and neural voices (see Language support). はいYes はいYes
Custom Voice の作成Create Custom Voices ブランドや製品に固有のカスタム音声フォントを作成します。Create custom voice fonts unique to your brand or product. いいえNo はいYes
音声翻訳Speech Translation 音声翻訳Speech translation 音声翻訳を使用すると、音声のリアルタイムの多言語翻訳がアプリケーション、ツール、デバイスで可能になります。Speech translation enables real-time, multi-language translation of speech to your applications, tools, and devices. 音声間翻訳や音声テキスト翻訳にはこのサービスを使用します。Use this service for speech-to-speech and speech-to-text translation. はいYes いいえNo
音声アシスタントVoice assistants 音声アシスタントVoice assistants Speech Service を使用した音声アシスタントにより、開発者は、そのアプリケーションとエクスペリエンスのための自然で人間のような会話型インターフェイスを作成できます。Voice assistants using the Speech service empower developers to create natural, human-like conversational interfaces for their applications and experiences. 音声アシスタント サービスは、Bot Framework の Direct Line Speech チャネルまたは統合カスタム コマンド (プレビュー) サービスを使用してタスクを遂行するアシスタントの実装とデバイスとの間に、高速で信頼性の高い対話を実現します。The voice assistant service provides fast, reliable interaction between a device and an assistant implementation that uses the Bot Framework's Direct Line Speech channel or the integrated Custom Commands (Preview) service for task completion. はいYes いいえNo
Speaker RecognitionSpeaker Recognition 話者の検証と識別Speaker verification & identification Speaker Recognition サービスは、固有の音声特性によって話者を検証および識別するアルゴリズムを提供します。The Speaker Recognition service provides algorithms that verify and identify speakers by their unique voice characteristics. Speaker Recognition は、"だれが話しているのか" という質問に回答するために使用されます。Speaker Recognition is used to answer the question “who is speaking?”. はいYes はいYes

重要

TLS 1.2 は現在、このサービスへのすべての HTTP 要求に適用されるようになりました。TLS 1.2 is now enforced for all HTTP requests to this service. 詳細については、Azure Cognitive Services のセキュリティに関するページを参照してください。For more information, see Azure Cognitive Services security.

Speech Service を無料で試すTry the Speech service for free

次の手順では、Microsoft アカウントと Azure アカウントの両方が必要です。For the following steps, you need both a Microsoft account and an Azure account. Microsoft アカウントがない場合は、Microsoft アカウント ポータルで無料のものにサインアップすることができます。If you do not have a Microsoft account, you can sign up for one free of charge at the Microsoft account portal. [Microsoft アカウントでサインイン] を選択し、サインインを求められたら [Microsoft アカウントの作成] を選択します。Select Sign in with Microsoft and then, when asked to sign in, select Create a Microsoft account. 新しい Microsoft アカウントを作成して確認する手順に従います。Follow the steps to create and verify your new Microsoft account.

Azure アカウントを作成したら、Azure サインアップ ページに移動し、 [無料で始める] を選択し、Microsoft アカウントを使用して新しい Azure アカウントを作成します。Once you have a Microsoft account, go to the Azure sign-up page, select Start free, and create a new Azure account using a Microsoft account.

注意

音声サービスには、無料とサブスクリプションの 2 つのサービス レベルがあります。これには、異なる制限事項と特典があります。The Speech service has two service tiers: free and subscription, which have different limitations and benefits. 無料の Azure アカウントにサインアップすると、最大 30 日間有効な、有料の音声サービス サブスクリプションに充当できる 200 ドルのサービス クレジットが付属しています。When you sign up for a free Azure account it comes with $200 in service credit that you can apply toward a paid Speech service subscription, valid for up to 30 days.

無料の小規模の音声サービス レベルを使用する場合は、無料試用版またはサービス クレジットの有効期限が切れた後でも、この無料のサブスクリプションを保持できます。If you use the free, low-volume Speech service tier you can keep this free subscription even after your free trial or service credit expires.

詳細については、「Cognitive Services の価格 - Speech Services」を参照してください。For more information, see Cognitive Services pricing - Speech service.

Azure リソースを作成するCreate the Azure resource

Speech Service リソース (無料または有料レベル) を Azure アカウントに追加するには:To add a Speech service resource (free or paid tier) to your Azure account:

  1. お使いの Microsoft アカウントを使用して Azure portal にサインインします。Sign in to the Azure portal using your Microsoft account.

  2. ポータルの左上にある [Create a resource](リソースの作成) を選択します。Select Create a resource at the top left of the portal. [リソースの作成] が表示されない場合は、画面左上の折りたたまれたメニューを選択することで、いつでも見つけることができます。If you do not see Create a resource, you can always find it by selecting the collapsed menu in the upper left corner of the screen.

  3. 新規ウィンドウで、検索ボックスに「speech」と入力し、Enter キーを押します。In the New window, type "speech" in the search box and press ENTER.

  4. 検索結果で、 [Speech] を選択します。In the search results, select Speech.

    speech の検索結果

  5. [作成] を選択して、次のことを行います。Select Create, then:

    • 新しいリソースに一意の名前を指定します。Give a unique name for your new resource. この名前は、同じサービスに関連付けられた複数のサブスクリプションを区別するのに役立ちます。The name helps you distinguish among multiple subscriptions tied to the same service.
    • 新しいリソースが関連付けられている Azure サブスクリプションを選択して、料金の課金方法を決定します。Choose the Azure subscription that the new resource is associated with to determine how the fees are billed.
    • リソースが使用されるリージョンを選択します。Choose the region where the resource will be used.
    • 無料 (F0) または有料 (S0) の価格レベルのどちらかを選択します。Choose either a free (F0) or paid (S0) pricing tier. 各レベルの価格と使用量クォータの完全な情報については、 [価格の詳細を表示] を選択します。For complete information about pricing and usage quotas for each tier, select View full pricing details. サブスクリプションごとに作成できるリソースの制限については、Azure Cognitive Services の制限に関するページをご覧ください。For limits on resources you can create for each subscription, see Azure Cognitive Services Limits.
    • この Speech サブスクリプションの新しいリソース グループを作成するか、既存のリソース グループにサブスクリプションを割り当てます。Create a new resource group for this Speech subscription or assign the subscription to an existing resource group. リソース グループは、さまざまな Azure サブスクリプションを整理しておくのに役立ちます。Resource groups help you keep your various Azure subscriptions organized.
    • [作成] を選択しますSelect Create. これでデプロイの概要に移動し、デプロイの進行状況を示すメッセージが表示されます。This will take you to the deployment overview and display deployment progress messages.

新しい音声リソースを展開するまでに少し時間がかかります。It takes a few moments to deploy your new Speech resource. デプロイが完了したら、 [リソースに移動] を選択し、左側のナビゲーション ウィンドウで [キー] を選択して、音声サービスのサブスクリプション キーを表示します。Once deployment is complete, select Go to resource and in the left navigation pane select Keys to display your Speech service subscription keys. 各サブスクリプションには 2 つのキーがあります。アプリケーションでどちらのキーを使用しても構いません。Each subscription has two keys; you can use either key in your application. キーをコード エディターやその他の場所にすばやくコピーして貼り付けるには、各キーの横にあるコピー ボタンを選択し、ウィンドウを切り替えてクリップボードの内容を目的の場所に貼り付けます。To quickly copy/paste a key to your code editor or other location, select the copy button next to each key, switch windows to paste the clipboard contents to the desired location.

重要

これらのサブスクリプション キーは、Cognitive Service API にアクセスするために使用されます。These subscription keys are used to access your Cognitive Service API. キーを共有しないでください。Do not share your keys. Azure Key Vault を使用するなどして、安全に保管してください。Store them securely– for example, using Azure Key Vault. これらのキーを定期的に再生成することもお勧めします。We also recommend regenerating these keys regularly. API 呼び出しを行うために必要なキーは 1 つだけです。Only one key is necessary to make an API call. 最初のキーを再生成するときに、2 番目のキーを使用してサービスに継続的にアクセスすることができます。When regenerating the first key, you can use the second key for continued access to the service.

クイックスタートに取り組むComplete a quickstart

ほとんどの一般的なプログラミング言語向けのクイックスタートが提供されています。それぞれ基本的な設計パターンを学び、いずれも 10 分もかからずにコードを実行できるように作られています。We offer quickstarts in most popular programming languages, each designed to teach you basic design patterns, and have you running code in less than 10 minutes. それぞれの機能のクイックスタートについては、次の各記事を参照してください。See the following list for the quickstart for each feature.

Speech Service を使用する機会が得られたら、さまざまなシナリオを解決する方法を説明するチュートリアルを試してみてください。After you've had a chance to get started with the Speech service, try our tutorials that show you how to solve various scenarios.

サンプル コードを取得するGet sample code

Speech Service のサンプル コードは、GitHub 上で入手できます。Sample code is available on GitHub for the Speech service. これらのサンプルでは、ファイルやストリームからの音声の読み取り、連続的な認識と単発の認識、カスタム モデルの使用など、一般的なシナリオについて説明されています。These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models. SDK と REST のサンプルを見るには、次のリンクを使用してください。Use these links to view SDK and REST samples:

音声エクスペリエンスをカスタマイズするCustomize your speech experience

Speech Service は組み込みのモデルで問題なく動作しますが、製品や環境に合わせてエクスペリエンスをさらにカスタマイズおよび調整したいことがあります。The Speech service works well with built-in models, however, you may want to further customize and tune the experience for your product or environment. カスタマイズ オプションは、音響モデルのチューニングから、独自ブランドに固有の音声フォントにまで及びます。Customization options range from acoustic model tuning to unique voice fonts for your brand.

その他の製品では、医療や保険など特定の目的に合わせてチューニングされた音声モデルが用意されていますが、それらは、すべてのユーザーに対して一律に提供されるものです。Other products offer speech models tuned for specific purposes like healthcare or insurance, but are available to everyone equally. Azure Speech のカスタマイズは、他のユーザーやカスタマーが手にすることのできない "独自" の競争優位をもたらします。Customization in Azure Speech becomes part of your unique competitive advantage that is unavailable to any other user or customer. つまり、カスタマイズしたモデルは自分だけのものであり、ユースケースに合わせて独自にチューニングされています。In other words, your models are private and custom-tuned for your use-case only.

Speech ServiceSpeech Service プラットフォームPlatform 説明Description
音声テキスト変換Speech-to-Text カスタム音声Custom Speech 音声認識モデルをニーズと使用可能なデータに合わせてカスタマイズします。Customize speech recognition models to your needs and available data. 話し方、ボキャブラリ、背景ノイズといった音声認識の障壁を克服可能です。Overcome speech recognition barriers such as speaking style, vocabulary and background noise.
テキスト読み上げText-to-Speech Custom VoiceCustom Voice お客様のスピーチ データを使用して、テキスト読み上げアプリ用の認識可能な独自の音声を作成します。Build a recognizable, one-of-a-kind voice for your Text-to-Speech apps with your speaking data available. 音声パラメーターのセットを調整することで、音声出力をさらに細かく調整できます。You can further fine-tune the voice outputs by adjusting a set of voice parameters.

リファレンス ドキュメントReference docs

次のステップNext steps