Speech SDK についてAbout the Speech SDK

Speech ソフトウェア開発キット (SDK) には Speech サービスの各種機能が多数含まれており、音声認識対応アプリケーションを開発できます。The Speech software development kit (SDK) exposes many of the Speech service capabilities, to empower you to develop speech-enabled applications. Speech SDK は、多くのプログラミング言語と、すべてのプラットフォームで使用できます。The Speech SDK is available in many programming languages and across all platforms.

プログラミング言語Programming language プラットフォームPlatform SDK リファレンスSDK reference
C# 1C# 1 Windows, Linux, macOS, Mono, Xamarin.iOS, Xamarin.Mac, Xamarin.Android, UWP, UnityWindows, Linux, macOS, Mono, Xamarin.iOS, Xamarin.Mac, Xamarin.Android, UWP, Unity .NET SDK.NET SDK
C++C++ Windows、Linux、macOSWindows, Linux, macOS C++ SDKC++ SDK
GoGo LinuxLinux Go SDKGo SDK
Java 2Java 2 Android、Windows、Linux、macOSAndroid, Windows, Linux, macOS Java SDKJava SDK
JavaScriptJavaScript ブラウザー、Node.jsBrowser, Node.js JavaScript SDKJavaScript SDK
Objective-C / SwiftObjective-C / Swift iOS、macOSiOS, macOS Objective-C SDKObjective-C SDK
PythonPython Windows、Linux、macOSWindows, Linux, macOS Python SDKPython SDK

1 .NET Speech SDK は .NET Standard 2.0 に基づいているため、多くのプラットフォームをサポートしています。詳細については.NET 実行サポートを参照してください1 The .NET Speech SDK is based on .NET Standard 2.0, thus it supports many platforms. For more information, see .NET implementation support .

2 Java音声DSKは Speech Devises SDKの一部としても使用できます2 The Java Speech SDK is also available as part of the Speech Devices SDK.

シナリオの機能Scenario capabilities

Speech SDK は Speech サービスの機能が多数含まれていますが、すべてではありません。The Speech SDK exposes many features from the Speech service, but not all of them. Speech SDK の機能は、多くの場合、シナリオに関連づけられています。The capabilities of the Speech SDK are often associated with scenarios. Speech SDK は、ローカル デバイス、ファイル、Azure blob ストレージ、さらに入力ストリームと出力ストリームを使用して、リアルタイムのシナリオと非リアルタイムのシナリオの両方に適しています。The Speech SDK is ideal for both real-time and non-real-time scenarios, using local devices, files, Azure blob storage, and even input and output streams. Speech SDK でシナリオを実現できない場合は、別の REST API を探してください。When a scenario is not achievable with the Speech SDK, look for a REST API alternative.

音声テキスト変換Speech-to-text

音声テキスト変換 (音声認識 とも呼ばれます) ではオーディオ ストリームからテキストへの文字起こしが行われ、アプリケーション、ツール、またはデバイスでそのテキストを使用したり表示したりできます。Speech-to-text (also known as speech recognition) transcribes audio streams to text that your applications, tools, or devices can consume or display. 音声テキスト変換を Language Understanding (LUIS) で使用し、文字起こしされた音声からユーザーの意図を抽出して、音声コマンドで対応します。Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. Speech Translation を使用すると、音声入力を 1 回の通話で別の言語に変換できます。Use Speech Translation to translate speech input to a different language with a single call. 詳細については、「音声テキスト変換の基本」を参照してください。For more information, see Speech-to-text basics.

音声認識 (SR)、フレーズ リスト、意図、翻訳、オンプレミス コンテナー は、次のプラットフォームで使用できます。Speech-Recognition (SR), Phrase List, Intent, Translation, and On-premises containers are available on the following platforms:

  • C++/Windows、Linux、および macOSC++/Windows & Linux & macOS
  • C# (Framework および .NET Core)/Windows、UWP、Unity、Xamarin、Linux、および macOSC# (Framework & .NET Core)/Windows & UWP & Unity & Xamarin & Linux & macOS
  • Java (Jre および Android)Java (Jre and Android)
  • JavaScript (ブラウザーと NodeJS)JavaScript (Brower and NodeJS)
  • PythonPython
  • SwiftSwift
  • Objective-CObjective-C
  • Go (SR のみ)Go (SR only)

テキスト読み上げText-to-speech

テキスト読み上げ (音声合成 とも呼ばれます) は、テキストを人間に似た合成音声に変換します。Text-to-speech (also known as speech synthesis) converts text into human-like synthesized speech. 入力テキストは、文字列リテラルか、音声合成マーク付け言語 (SSML) を使用したものです。The input text is either string literals or using the Speech Synthesis Markup Language (SSML). 標準またはニューラルな音声の詳細については、「テキスト読み上げ言語と音声サポート」を参照してください。For more information on standard or neural voices, see Text-to-speech language and voice support.

テキスト読み上げ (TTS) は、次のプラットフォームで使用できます。Text-to-speech (TTS) is available on the following platforms:

  • C++/Windows および LinuxC++/Windows & Linux
  • C#/Windows および UWP および UnityC#/Windows & UWP & Unity
  • Java (Jre および Android)Java (Jre and Android)
  • PythonPython
  • SwiftSwift
  • Objective-CObjective-C
  • TTS REST API は他のすべての状況で使用できます。TTS REST API can be used in every other situation.

音声アシスタントVoice assistants

Speech SDK を使用した音声アシスタントにより、アプリケーションやエクスペリエンス向けに自然で人間のような会話型インターフェイスを作成できます。Voice assistants using the Speech SDK enable you to create natural, human-like conversational interfaces for your applications and experiences. Speech SDK には高速で信頼性の高い対話機能が備わっており、音声テキスト変換、テキスト読み上げ、会話データが 1 回の接続で提供されます。The Speech SDK provides fast, reliable interaction that includes speech-to-text, text-to-speech, and conversational data on a single connection. 実装では、Bot Framework の Direct Line Speech チャネルまたは統合された Custom Commands サービスを使用してタスクを完了できます。Your implementation can use the Bot Framework's Direct Line Speech channel or the integrated Custom Commands service for task completion. さらに、音声アシスタントでは、Custom Voice Portal で作成したカスタム音声を使用して、固有の音声出力エクスペリエンスを追加できます。Additionally, voice assistants can use custom voices created in the Custom Voice Portal to add a unique voice output experience.

音声アシスタント のサポートは、次のプラットフォームで利用できます。Voice assistant support is available on the following platforms:

  • C++/Windows、Linux、および macOSC++/Windows & Linux & macOS
  • C#/WindowsC#/Windows
  • Java/Windows、Linux、macOS、および Android (Speech Devices SDK)Java/Windows & Linux & macOS & Android (Speech Devices SDK)
  • GoGo

キーワード認識Keyword spotting

Speech SDK では、キーワード認識の概念をサポートしています。The concept of keyword spotting is supported in the Speech SDK. キーワード認識では、音声でキーワードを識別した後、キーワードを聞くとアクションが行われます。Keyword spotting is the act of identifying a keyword in speech, followed by an action upon hearing the keyword. たとえば、「やあ、Cortana」という音声により、Cortana アシスタントがアクティブになります。For example, "Hey Cortana" would activate the Cortana assistant.

キーワード認識 (KWS) は、次のプラットフォームで使用できます。Keyword Spotting (KWS) is available on the following platforms:

  • C++/Windows および LinuxC++/Windows & Linux
  • C#/Windows および LinuxC#/Windows & Linux
  • Python/Windows および LinuxPython/Windows & Linux
  • Java/Windows および Linux および Android (Speech Devices SDK)Java/Windows & Linux & Android (Speech Devices SDK)
  • キーワード認識 (KWS) 機能は任意の種類のマイクでも動作する可能性がありますが、公式の KWS サポートは、現時点では Azure Kinect DK ハードウェアまたは Speech Devices SDK 内のマイク アレイに限定されていますKeyword spotting (KWS) functionality might work with any microphone type, official KWS support, however, is currently limited to the microphone arrays found in the Azure Kinect DK hardware or the Speech Devices SDK

ミーティングのシナリオMeeting scenarios

Speech SDK は、単一のデバイスか複数デバイスの会話かに関わらず、ミーティングのシナリオの文字起こしに最適です。The Speech SDK is perfect for transcribing meeting scenarios, whether from a single device or multi-device conversation.

会話の文字起こしConversation Transcription

会話の文字起こしを使用すると、リアルタイム (および非同期) の音声認識、話者識別、各話者に対する文の属性が有効になります (ダイアライゼーション とも呼ばれます)。Conversation Transcription enables real-time (and asynchronous) speech recognition, speaker identification, and sentence attribution to each speaker (also known as diarization). 話者を区別することができるため、対面会議の文字起こしに最適です。It's perfect for transcribing in-person meetings with the ability to distinguish speakers.

会話の文字起こし は、次のプラットフォームで使用できます。Conversation Transcription is available on the following platforms:

  • C++/Windows および LinuxC++/Windows & Linux
  • C# (Framework および .NET Core)/Windows および UWP および LinuxC# (Framework & .NET Core)/Windows & UWP & Linux
  • Java/Windows および Linux および Android (Speech Devices SDK)Java/Windows & Linux & Android (Speech Devices SDK)

マルチデバイスの会話Multi-device Conversation

マルチデバイスの会話を使用して、会話の中で複数のデバイスまたはクライアントを接続し、音声ベースまたはテキストベースのメッセージを送信し、文字起こしや翻訳を容易に実現します。With Multi-device Conversation, connect multiple devices or clients in a conversation to send speech-based or text-based messages, with easy support for transcription and translation.

マルチデバイスの会話 は、次のプラットフォームで使用できます。Multi-device Conversation is available on the following platforms:

  • C++/WindowsC++/Windows
  • C# (Framework と .NET Core)/WindowsC# (Framework & .NET Core)/Windows

カスタム/エージェントのシナリオCustom / agent scenarios

Speech SDK は、テレフォニー データが生成されるコール センターのシナリオでの文字起こしにも使用できます。The Speech SDK can be used for transcribing call center scenarios, where telephony data is generated.

コール センターの文字起こしCall Center Transcription

コール センターの文字起こしは、対話型音声応答 (IVR) のような様々なシステムに由来する大量のテレフォニー データを文字起こしする一般的な音声テキスト変換シナリオです。Call Center Transcription is common scenario for speech-to-text for transcribing large volumes of telephony data that may come from various systems, such as Interactive Voice Response (IVR). Speech サービスの最新の音声認識モデルはそのような電話データの文字起こしに優れており、人間には理解が難しいデータにも対応しています。The latest speech recognition models from the Speech service excel at transcribing this telephony data, even in cases when the data is difficult for a human to understand.

コール センターの文字起こし は、Batch Speech Service を通じ、REST API 経由で、あらゆる状況で使用できます。Call Center Transcription is available through the Batch Speech Service via its REST API and can be used in any situation.

コーデック圧縮音声入力Codec compressed audio input

いくつかの Speech SDK プログラミング言語では、コーデック圧縮音声入力ストリームをサポートしています。Several of the Speech SDK programming languages support codec compressed audio input streams. 詳細については、「圧縮音声入力形式を使用する」を参照してください。For more information, see use compressed audio input formats .

コーデック圧縮音声入力 は、次のプラットフォームで使用できます。Codec compressed audio input is available on the following platforms:

  • C++/LinuxC++/Linux
  • C#/LinuxC#/Linux
  • Java/Linux、Android、および iOSJava/Linux, Android, and iOS

REST APIREST API

Speech SDK には音声サービスの多くの機能が含まれていますが、一部のシナリオでは REST API を使用した方がよいかもしれません。While the Speech SDK covers many feature capabilities of the Speech Service, for some scenarios you might want to use the REST API.

バッチ文字起こしBatch transcription

バッチ文字起こしでは、大量のデータの音声からテキストへの文字起こしを非同期で行うことができます。Batch transcription enables asynchronous speech-to-text transcription of large volumes of data. バッチ文字起こしは、REST API でのみ可能です。Batch transcription is only possible from the REST API. 音声からテキストへの変換に加え、一括音声テキスト変換は、ダイアライゼーションやセンチメント分析にも対応します。In addition to converting speech audio to text, batch speech-to-text also allows for diarization and sentiment-analysis.

カスタマイズCustomization

Speech サービスは、音声からテキスト、テキストから音声、音声翻訳に至るまで、既定のモデルを使用して優れた機能を提供します。The Speech Service delivers great functionality with its default models across speech-to-text, text-to-speech, and speech-translation. 場合によっては、独自のユース ケースに合わせて、ベースラインのパフォーマンスを向上させた方がよいかもしれません。Sometimes you may want to increase the baseline performance to work even better with your unique use case. Speech サービスには、簡単に使用できるさまざまなコードなしのカスタマイズ ツールがあり、独自のデータに基づいてカスタム モデルを使用して競争力を得られます。The Speech Service has a variety of no-code customization tools that make it easy, and allow you to create a competitive advantage with custom models based on your own data. これらのモデルは、ユーザーとその組織だけが使用できます。These models will only be available to you and your organization.

カスタム音声変換Custom Speech-to-text

独自環境での認識と文字起こしに音声テキスト変換を使用する場合は、カスタムの音響、言語、発音モデルを作成してトレーニングし、周囲の雑音や業界固有の語彙に対応できます。When using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. コードを使用しない Custom Speech モデルの作成と管理は、Custom Speech Portal を通じて行うことができます。The creation and management of no-code Custom Speech models is available through the Custom Speech Portal. Custom Speech モデルが発行されると、Speech SDK で利用できるようになります。Once the Custom Speech model is published, it can be consumed by the Speech SDK.

カスタム テキスト読み上げCustom Text-to-speech

Custom Voice とも呼ばれるカスタム テキスト読み上げは、ブランド用に認識性の高い固有の音声を作成できる、一連のオンライン ツールです。Custom text-to-speech, also known as Custom Voice is a set of online tools that allow you to create a recognizable, one-of-a-kind voice for your brand. コードを使用しない Custom Voice モデルの作成と管理は、Custom Voice Portal を通じて行うことができます。The creation and management of no-code Custom Voice models is available through the Custom Voice Portal. Custom Voice モデルが発行されると、Speech SDK で利用できるようになります。Once the Custom Voice model is published, it can be consumed by the Speech SDK.

Speech SDK を取得するGet the Speech SDK

音声SDKは Windows10 およびWindows Sever 2016以降のバージョンをサポートしています。The Speech SDK supports Windows 10 and Windows Server 2016, or later versions. これより以前のバージョンはサポートして いませんEarlier versions are not officially supported. 以前のバージョンの Windows では、音声SDK の一部を使用することもできますが、これは推奨されません。It is possible to use parts of the Speech SDK with earlier versions of Windows, although it's not advised.


Windows

システム要件System requirements

Windowsの音声SDKは、システムで Microsoft Visual StudioのVisual C++ 再配布可能パッケージ 2019を必要とします。The Speech SDK on Windows requires the Microsoft Visual C++ Redistributable for Visual Studio 2019 on the system.

C#C#

.NETSpeechSDKはNuGetパッケージとして提供され、.NET Websites Standard 2.0を実装しています。詳細については、 Microsoft.CognitiveServices.音声を参照してください。The .NET Speech SDK is available as a NuGet package and implements .NET Standard 2.0, for more information, see Microsoft.CognitiveServices.Speech .


C#

C#NuGetパッケージC# NuGet Package

.NET音声SDK は、次のdotnet addコマンドを使用して .NET Core CLI からインストールできます。The .NET Speech SDK can be installed from the .NET Core CLI with the following dotnet add command.

dotnet add package Microsoft.CognitiveServices.Speech

.NET音声SDK は、次のInstall-Packageコマンドを使用して Package Manager からインストールできます。The .NET Speech SDK can be installed from the Package Manager with the following Install-Package command.

Install-Package Microsoft.CognitiveServices.Speech

その他のリソースAdditional resources

マイク入力のために、Media Foundation ライブラリをインストールする必要があります。For microphone input, the Media Foundation libraries must be installed. これらのライブラリは、Windows 10 および Windows Server 2016 に含まれます。These libraries are part of Windows 10 and Windows Server 2016. マイクがオーディオ入力デバイスとして使用されていない場合は、これらのライブラリがなくても、Speech SDK を使用できます。It's possible to use the Speech SDK without these libraries, as long as a microphone isn't used as the audio input device.

必要な Speech SDK ファイルは、お使いのアプリケーションと同じディレクトリに展開できます。The required Speech SDK files can be deployed in the same directory as your application. この方法で、お使いのアプリケーションはライブラリに直接アクセスできます。This way your application can directly access the libraries. 必ずお使いのアプリケーションと一致する正しいバージョン(x86/x64) を選択してください。Make sure you select the correct version (x86/x64) that matches your application.

名前Name 機能Function
Microsoft.CognitiveServices.Speech.core.dll Core SDK。ネイティブおよびマネージド展開に必要Core SDK, required for native and managed deployment
Microsoft.CognitiveServices.Speech.csharp.dll マネージド展開に必要Required for managed deployment

注意

リリース 1.3.0 以降、(以前のリリースで提供されていた) Microsoft.CognitiveServices.Speech.csharp.bindings.dll ファイルは不要になりました。Starting with the release 1.3.0 the file Microsoft.CognitiveServices.Speech.csharp.bindings.dll (shipped in previous releases) isn't needed anymore. この機能はコア SDK に統合されました。The functionality is now integrated in the core SDK.

重要

Windows フォーム アプリケーション (.NET Framework) の C# プロジェクトの場合は、ライブラリがプロジェクトのデプロイ設定に含まれていることを確認してください。For the Windows Forms App (.NET Framework) C# project, make sure the libraries are included in your project's deployment settings. これは Properties -> Publish Section で確認できます。You can check this under Properties -> Publish Section. Application Files ボタンをクリックし、一覧を下にスクロールして、対応するライブラリを見つけます。Click the Application Files button and find corresponding libraries from the scroll down list. 値が Included に設定されていることを確認します。Make sure the value is set to Included. プロジェクトが発行またはデプロイされると、Visual Studio にこのファイルが組み込まれます。Visual Studio will include the file when project is published/deployed.

C++C++

C++ 音声SDKはWindows, Linux, macOSで使用できます。The C++ Speech SDK is available on Windows, Linux, and macOS. 詳細については、 Microsoft.CognitiveServices.Speech を参照してください。For more information, see Microsoft.CognitiveServices.Speech .


C++

C++ NuGet パッケージC++ NuGet package

C++ 音声SDKは パッケージマネージャー から以下のInstall-Packageコマンドでインストールができます。The C++ Speech SDK can be installed from the Package Manager with the following Install-Package command.

Install-Package Microsoft.CognitiveServices.Speech

その他のリソースAdditional resources

PythonPython

Python 音声 SDK は Python Package Index (PyPI) モジュールとして提供されています。詳細については、「 azure-cognitiveservices-speech 」を参照してください。The Python Speech SDK is available as a Python Package Index (PyPI) module, for more information, see azure-cognitiveservices-speech . Python音声SDK は、Windows、Linux および macOS と互換性があります。The Python Speech SDK is compatible with Windows, Linux, and macOS.


Python
pip install azure-cognitiveservices-speech

ヒント

macOSを使用している場合は、次のコマンドを実行して、上記のpipコマンドを取得する必要があります:If you are on macOS, you may need to run the following command to get the pip command above to work:

python3 -m pip install --upgrade pip

その他のリソースAdditional resources

JavaJava

Android用Java SDKは、必要なライブラリとAndroid許可を含む AAR (Android ライブラリ) としてパッケージ化されています。The Java SDK for Android is packaged as an AAR (Android Library) , which includes the necessary libraries and required Android permissions. これは、https://csspeechstorage.blob.core.windows.net/maven/ にある Maven リポジトリでパッケージ com.microsoft.cognitiveservices.speech:client-sdk:1.15.0 としてホストされます。It's hosted in a Maven repository at https://csspeechstorage.blob.core.windows.net/maven/ as package com.microsoft.cognitiveservices.speech:client-sdk:1.15.0.


Java

このパッケージを Android Studio プロジェクトから使用するには、次の変更を行います。To consume the package from your Android Studio project, make the following changes:

  1. プロジェクトレベルでの build.grandle ファイルで、repositories セクションに次のものを追加します:In the project-level build.gradle file, add the following to the repositories section:
maven { url 'https://csspeechstorage.blob.core.windows.net/maven/' }
  1. モジュールレベルでの build.grandle ファイルで、dependencies セクションに次のものを追加します:In the module-level build.gradle file, add the following to the dependencies section:
implementation 'com.microsoft.cognitiveservices.speech:client-sdk:1.15.0'

Java SDK は Speech Devices SDK の一部でもあります。The Java SDK is also part of the Speech Devices SDK.

その他のリソースAdditional resources

重要

Azure Cognitive Services Speech SDK のいずれかをダウンロードした時点で、同 SDK のライセンス条件に同意したものと見なされます。By downloading any of the Azure Cognitive Services Speech SDKs, you acknowledge its license. 詳細については、次を参照してください。For more information, see:

サンプル ソース コードSample source code

Speech SDK チームでは、多数の例をオープンソース リポジトリで積極的に管理しています。The Speech SDK team actively maintains a large set of examples in an open-source repository. ソースコードリポジトリのサンプルについては、GitHub の Microsoft Cognitive Services音声SDK を参照してください For the sample source code repository, visit the Microsoft Cognitive Services Speech SDK on GitHub . C++、Java、 C#Python、Objective-C、Swift、JavaScript、UWP、Unity、および Xamarin 用のサンプルが用意されています。There are samples for C#, C++, Java, Python, Objective-C, Swift, JavaScript, UWP, Unity, and Xamarin.


GitHub

次のステップNext steps