音声翻訳とは何かWhat is speech translation?

Azure Speech Services の音声翻訳では、オーディオ ストリームをリアルタイムに処理し、複数言語の音声間翻訳や音声テキスト翻訳を実行することができます。Speech translation from Azure Speech Services, enables real-time, multi-language speech-to-speech and speech-to-text translation of audio streams. Speech SDK を使用すると、アプリケーション、ツール、およびデバイスから、提供されたオーディオのソース トランスクリプションや翻訳出力にアクセスすることができます。With the Speech SDK, your applications, tools, and devices have access to source transcriptions and translation outputs for provided audio. 音声の検出中には中間トランスクリプションと翻訳結果が返され、最終的な結果は、合成された音声に変換することができます。Interim transcription and translation results are returned as speech is detected, and finals results can be converted into synthesized speech.

Microsoft の翻訳エンジンは、統計的機械翻訳 (SMT) とニューラル機械翻訳 (NMT) という 2 つのアプローチによって強化されています。Microsoft's translation engine is powered by two different approaches: statistical machine translation (SMT) and neural machine translation (NMT). SMT では、高度な統計分析を使用して、いくつかの単語の文脈から考えられる最善の翻訳が推定されます。SMT uses advanced statistical analysis to estimate the best possible translations given the context of a few words. NMT では、ニューラル ネットワークを使用して、文全体のコンテキストを踏まえた、正確で自然な翻訳が提供されます。With NMT, neural networks are used to provide more accurate, natural-sounding translations by using the full context of sentences to translate words.

現在、Microsoft では、特に一般的な言語への翻訳に NMT を使用しています。Today, Microsoft uses NMT for translation to most popular languages. 音声間翻訳に使用できるすべての言語で、NMT が導入されています。All languages available for speech-to-speech translation are powered by NMT. 音声テキスト変換では、言語ペアに応じて SMT または NMT を使用できます。Speech-to-text translation may use SMT or NMT depending on the language pair. ターゲット言語が NMT によってサポートされている場合、翻訳全体が NMT によって処理されます。When the target language is supported by NMT, the full translation is NMT-powered. ターゲット言語が NMT によってサポートされていない場合は、2 つの言語間の "ピボット" として英語を使用する NMT と SMT のハイブリッド翻訳となります。When the target language isn't supported by NMT, the translation is a hybrid of NMT and SMT, using English as a "pivot" between the two languages.

コア機能Core features

Speech SDK および REST API を通じて使用可能な機能を以下に示します。Here are the features available via the Speech SDK and REST APIs:

ユース ケースUse case SDKSDK RESTREST
認識結果を使用した音声テキスト翻訳。Speech-to-text translation with recognition results. はいYes いいえNo
音声間翻訳。Speech-to-speech translation. はいYes いいえNo
中間認識と翻訳結果。Interim recognition and translation results. はいYes いいえNo

音声翻訳を使ってみるGet started with speech translation

10 分もかからずにコードを実行できるように設計されたクイック スタートが用意されています。We offer quickstarts designed to have you running code in less than 10 minutes. 以下の表は、音声翻訳のクイック スタートを言語別に整理して示したものです。This table includes a list of speech translation quickstarts organized by language.

クイック スタートQuickstart プラットフォームPlatform API リファレンスAPI reference
C#、.NET CoreC#, .NET Core WindowsWindows BrowseBrowse
C#、.NET FrameworkC#, .NET Framework WindowsWindows BrowseBrowse
C#、UWPC#, UWP WindowsWindows BrowseBrowse
C++C++ WindowsWindows BrowseBrowse
JavaJava Windows、Linux、macOSWindows, Linux, macOS BrowseBrowse

サンプル コードSample code

Speech SDK のサンプル コードは、GitHub 上で入手できます。Sample code for the Speech SDK is available on GitHub. これらのサンプルでは、ファイルやストリームからの音声の読み取り、連続的および単発の認識/翻訳、カスタム モデルの使用など、一般的なシナリオについて説明されています。These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition/translation, and working with custom models.

移行ガイドMigration guides

アプリケーション、ツール、または製品で Translator Speech API をご使用の方に向けて、Speech Services への移行に役立つガイドを作成しました。If your applications, tools, or products are using the Translator Speech API, we've created guides to help you migrate to the Speech Services.

リファレンス ドキュメントReference docs

次の手順Next steps