Speech Service リリース ノートSpeech Service release notes

テキスト読み上げの 2021 年 4 月のリリースText-to-speech 2021-April release

ニューラル TTS は 21 のリージョンで利用可能Neural TTS is available across 21 regions

  • 12 の新しいリージョンが追加 - ニューラル TTS は、Japan EastJapan WestKorea CentralNorth Central USNorth EuropeSouth Central USSoutheast AsiaUK Southwest Central USWest EuropeWest USWest US 2 の 12 の新しいリージョンで利用できるようになりました。Twelve new regions added - Neural TTS is now available in these new 12 regions: Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US, West US 2. サポートされている 21 のリージョンの完全な一覧については、こちらをご覧ください。Check here for full list of 21 supported regions.

テキスト読み上げの 2021 年 3 月のリリースText-to-speech 2021-March release

ニューラル TTS 用に追加された新しい言語と音声New languages and voices added for neural TTS

  • 6 つの新しい言語の導入 - ニューラル TTS 言語の一覧に、次の 6 つの新しいロケールの 12 個の新しい音声が追加されています。cy-GB ウェールズ語 (イギリス) の Nia、cy-GB ウェールズ語 (イギリス) の Aled、en-PH英語 (フィリピン) の Rosa、en-PH 英語 (フィリピン) の James、fr-BE フランス語 (ベルギー) の Charline、fr-BE フランス語 (ベルギー) の Gerard、nl-BE オランダ語 (ベルギー) の Dena、nl-BE オランダ語 (ベルギー) の Arnaud、uk-UA ウクライナ語 (ウクライナ) の Polina、uk-UA ウクライナ語 (ウクライナ) の Ostap、ur-PK ウルドゥー語 (パキスタン) の Uzma、ur-PK、ウルドゥー語 (パキスタン) の Asad。Six new languages introduced - 12 new voices in 6 new locales are added into the neural TTS language list: Nia in cy-GB Welsh (United Kingdom), Aled in cy-GB Welsh (United Kingdom), Rosa in en-PH English (Philippines), James in en-PH English (Philippines), Charline in fr-BE French (Belgium), Gerard in fr-BE French (Belgium), Dena in nl-BE Dutch (Belgium), Arnaud in nl-BE Dutch (Belgium), Polina in uk-UA Ukrainian (Ukraine), Ostap in uk-UA Ukrainian (Ukraine), Uzma in ur-PK Urdu (Pakistan), Asad in ur-PK Urdu (Pakistan).

  • 5 つの言語がプレビューから GA へ - 2020 年 11 月に導入された次の 5 つのロケールの 10 個の音声が一般提供になりました。et-EE エストニア語 (エストニア) の Kert、ga-IE アイルランド語 (アイルランド) の Colm、lv-LV ラトビア語 (ラトビア) の Nils、lt-LT リトアニア語 (リトアニア) の Leonas、mt-MT マルタ語 (マルタ) の Joseph。Five languages from preview to GA - 10 voices in 5 locales introduced in 2020-November now are GA: Kert in et-EE Estonian (Estonia), Colm in ga-IE Irish (Ireland), Nils in lv-LV Latvian (Latvia), Leonas in lt-LT Lithuanian (Lithuania), Joseph in mt-MT Maltese (Malta).

  • フランス語 (カナダ) の新しい男性の音声の追加 - fr-CA フランス語 (カナダ) で新しい音声 Antoine が利用できます。New male voice added for French (Canada) - A new voice Antoine is available for fr-CA French (Canada).

  • 品質向上 - hu-HU ハンガリー語 で 48.17%、nb-NO ノルウェー語で 52.76%、nl-NL オランダ語 (オランダ) で 22.11% の発音エラー率の低減。Quality improvement - Pronunciation error rate reduction on hu-HU Hungarian - 48.17%, nb-NO Norwegian - 52.76%, nl-NL Dutch (Netherlands) - 22.11%.

このリリースでは、60 言語またはロケールの計 142 個のニューラル音声がサポートされています。With this release, we now support a total of 142 neural voices across 60 languages/locales. さらに、49 言語/ロケールの 70 を超える標準音声を使用できます。In addition, over 70 standard voices are available in 49 languages/locales. 完全なリストについては、言語サポートに関するページを参照してください。Visit Language support for the full list.

キャラクターをアニメーション化するための表情イベントの取得Get facial pose events to animate characters

ニューラル テキスト読み上げに口形素イベントが含まれるようになりました。Neural Text-to-speech now includes the viseme event. 口形素イベントを使用すると、ユーザーは、合成された音声と共に頭部姿勢のシーケンスを取得できます。Viseme events allow users to get a sequence of facial poses along with synthesized speech. 口形素は、2D および 3D のアバター モデルの動きを制御するために使用でき、合成された音声に口の動きを一致させます。Visemes can be used to control the movement of 2D and 3D avatar models, matching mouth movements to synthesized speech. 現在、口形素イベントは en-US-AriaNeural 音声でのみ使用できます。Viseme events are only available for en-US-AriaNeural voice at this time.

音声合成マークアップ言語 (SSML) に bookmark 要素を追加Add the bookmark element in Speech Synthesis Markup Language (SSML)

bookmark 要素を使用すると、SSML にカスタム マーカーを挿入して、オーディオ ストリーム内の各マーカーのオフセットを取得できます。The bookmark element allows you to insert custom markers in SSML to get the offset of each marker in the audio stream. これは、テキストまたはタグのシーケンス内の特定の場所を参照するために使用できます。It can be used to reference a specific location in the text or tag sequence.

Speech SDK 1.16.0: 2021 年 3 月のリリースSpeech SDK 1.16.0: 2021-March release

注意

Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。The Speech SDK on Windows depends on the shared Microsoft Visual C++ Redistributable for Visual Studio 2015, 2017 and 2019. こちらでダウンロードできます。Download it here.

新機能New features

  • C++/C#/Java/Python: 最新バージョンの GStreamer (1.18.3) に移行し、Windows、Linux、および Android のあらゆるメディア形式の文字起こしのサポートが追加されました。C++/C#/Java/Python: Moved to the latest version of GStreamer (1.18.3) to add support for transcribing any media format on Windows, Linux and Android. こちらのドキュメントを参照してください。See documentation here.
  • C++、C#、Java、Objective-C、Python: 圧縮された TTS または合成オーディオのデコードのサポートが SDK に追加されました。C++/C#/Java/Objective-C/Python: Added support for decoding compressed TTS/synthesized audio to the SDK. 出力オーディオ形式を PCM に設定し、システムで GStreamer を使用できる場合、SDK は圧縮されたオーディオをサービスに自動的に要求して、帯域幅を節約し、クライアントのオーディオをデコードします。If you set output audio format to PCM and GStreamer is available on your system, the SDK will automatically request compressed audio from the service to save bandwidth and decode the audio on the client. SpeechServiceConnection_SynthEnableCompressedAudioTransmissionfalse に設定し、この機能を無効にできます。You can set SpeechServiceConnection_SynthEnableCompressedAudioTransmission to false to disable this feature. C++C#JavaObjective-CPython の詳細。Details for C++, C#, Java, Objective-C, Python.
  • JavaScript: Node.js ユーザーが AudioConfig.fromWavFileInput API を使用できるようになりました。JavaScript: Node.js users can now use the AudioConfig.fromWavFileInput API. これは、GitHub イシュー #252 に対応するものです。This addresses GitHub issue #252.
  • C++、C#、Java、Objective-C、Python: 利用可能なすべての合成音声を返す、TTS 用の GetVoicesAsync() メソッドが追加されました。C++/C#/Java/Objective-C/Python: Added GetVoicesAsync() method for TTS to return all available synthesis voices. C++C#JavaObjective-CPython の詳細。Details for C++, C#, Java, Objective-C, and Python.
  • C++/C#/Java/JavaScript/Objective-C/Python: 同期口形素アニメーションを返す TTS または音声合成用に VisemeReceived イベントが追加されました。C++/C#/Java/JavaScript/Objective-C/Python: Added VisemeReceived event for TTS/speech synthesis to return synchronous viseme animation. こちらのドキュメントを参照してください。See documentation here.
  • C++/C#/Java/JavaScript/Objective-C/Python: TTS 用に BookmarkReached イベントが追加されました。C++/C#/Java/JavaScript/Objective-C/Python: Added BookmarkReached event for TTS. 入力 SSML でブックマークを設定し、各ブックマークのオーディオ オフセットを取得することができます。You can set bookmarks in the input SSML and get the audio offsets for each bookmark. こちらのドキュメントを参照してください。See documentation here.
  • Java: Speaker Recognition API のサポートが追加されました。Java: Added support for speaker recognition APIs. 詳細については、こちら を参照してください。Details here.
  • C++/C#/Java/JavaScript/Objective-C/Python: TTS 用 WebM コンテナー (Webm16Khz16BitMonoOpus および Webm24Khz16BitMonoOpus) の 2 つの新しい出力オーディオ形式が追加されました。C++/C#/Java/JavaScript/Objective-C/Python: Added two new output audio formats with WebM container for TTS (Webm16Khz16BitMonoOpus and Webm24Khz16BitMonoOpus). これらは、Opus コーデックを使用したオーディオのストリーミングに適した形式です。These are better formats for streaming audio with the Opus codec. Details for C++, C#, JavaJavaScriptObjective-CPython の詳細。Details for C++, C#, Java, JavaScript, Objective-C, Python.
  • C++、C#、Java: 話者認識シナリオの音声プロファイルを取得するためのサポートが追加されました。C++/C#/Java: Added support for retrieving voice profile for speaker recognition scenario. C++C#Java の詳細。Details for C++, C#, and Java.
  • C++、C#、Java、Objective-C、Python: オーディオ マイクとスピーカー コントロール用の別個の共有ライブラリのサポートが追加されました。C++/C#/Java/Objective-C/Python: Added support for separate shared library for audio microphone and speaker control. これにより、必要なオーディオ ライブラリの依存関係がない環境で、SDK を使用できるようになります。This allows to use the SDK in environments that do not have required audio library dependencies.
  • Objective-C/Swift: アンブレラ ヘッダーを持つモジュール フレームワークのサポートが追加されました。Objective-C/Swift: Added support for module framework with umbrella header. これにより、iOS/Mac Objective-C/Swift アプリで Speech SDK をモジュールとしてインポートできます。This allows to import Speech SDK as a module in iOS/Mac Objective-C/Swift apps. これは、GitHub イシュー #452 に対応するものです。This addresses GitHub issue #452.
  • Python: Python 3.9 のサポートが追加され、Python の 3.5 のサポート終了に伴って Python 3.5 のサポートが停止しました。Python: Added support for Python 3.9 and dropped support for Python 3.5 per Python's end-of-life for 3.5.

既知の問題Known issues

  • C++/C#/Java: DialogServiceConnectorCustomCommandsConfig を使用して Custom Commands アプリケーションにアクセスすることはできません。代わりに、接続エラーが発生します。C++/C#/Java: DialogServiceConnector cannot use a CustomCommandsConfig to access a Custom Commands application and will instead encounter a connection error. これは、config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter) を使用してアプリケーション ID を要求に手動で追加することで回避できます。This can be worked around by manually adding your application ID to the request with config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). CustomCommandsConfig の予期される動作は、次のリリースで復元されます。The expected behavior of CustomCommandsConfig will be restored in the next release.

機能強化Improvements

  • Speech SDK のメモリ使用量とディスク フットプリントを削減するための複数リリースの取り組みの一環として、Android バイナリのサイズが 3% から 5% 小さくなりました。As part of our multi release effort to reduce the Speech SDK's memory usage and disk footprint, Android binaries are now 3% to 5% smaller.
  • C# リファレンス ドキュメント (こちらを参照) の精度、読みやすさ、および関連項目のセクションが改善されました。Improved accuracy, readability and see-also sections of our C# reference documentation here.

バグの修正Bug fixes

  • JavaScript: 大きな WAV ファイル ヘッダーが正しく解析されるようになりました (ヘッダー スライスが 512 バイトに増えます)。JavaScript: Large WAV file headers are now parsed correctly (increases header slice to 512 bytes). これは、GitHub イシュー #962 に対応するものです。This addresses GitHub issue #962.
  • JavaScript: マイクのタイミングの問題を修正しました。これは、認識が停止する前にマイクのストリームが終了した場合に、Firefox で動作しない音声認識に関する問題を解決します。JavaScript: Corrected microphone timing issue if mic stream ends before stop recognition, addressing an issue with Speech Recognition not working in Firefox.
  • JavaScript: turnOn が完了する前にブラウザーがマイクを強制的にオフにしたときに、初期化の Promise が正しく処理されるようになりました。JavaScript: We now correctly handle initialization promise when the browser forces mic off before turnOn completes.
  • JavaScript: URL の依存関係を URL 解析に置き換えました。JavaScript: We replaced url dependency with url-parse. これは、GitHub イシュー #264 に対応するものです。This addresses GitHub issue #264.
  • Android: minifyEnabled が true に設定されている場合、コールバックが機能しない問題を解決しました。Android: Fixed callbacks not working when minifyEnabled is set to true.
  • C++/C#/Java/Objective-C/Python: TTS が待ち時間を短縮するために、TCP_NODELAY は基になるソケット IO に正しく設定されるようになります。C++/C#/Java/Objective-C/Python: TCP_NODELAY will be correctly set to underlying socket IO for TTS to reduce latency.
  • C++/C#/Java/Python/Objective-C/Go: 認識エンジンが認識を開始した直後に破壊された場合に時々発生するクラッシュを修正しました。C++/C#/Java/Python/Objective-C/Go: Fixed an occasional crash when the recognizer was destroyed just after starting a recognition.
  • C++/C#/Java: スピーカー認識エンジンが破壊された場合に時々発生するクラッシュを修正しました。C++/C#/Java: Fixed an occasional crash in the destruction of speaker recognizer.

サンプルSamples

  • JavaScript: ブラウザーのサンプルでは、別個の JavaScript ライブラリ ファイルのダウンロードは不要になりました。JavaScript: Browser samples no longer require separate JavaScript library file download.

Speech CLI (別名 SPX): 2021 年 3 月のリリースSpeech CLI (also known as SPX): 2021-March release

注意

こちらで Azure Speech Service コマンド ライン インターフェイス (CLI) の使用を開始します。Get started with the Azure Speech service command line interface (CLI) here. CLI を使用すると、コードを記述しなくても Azure Speech Service を使用できます。The CLI enables you to use the Azure Speech service without writing any code.

新機能New features

  • 意図認識用の spx intent コマンドを追加し、spx recognize intent が置き換わります。Added spx intent command for intent recognition, replacing spx recognize intent.
  • 意図認識で Azure 関数を使用できるようになり、spx recognize --wer url <URL> を使用して単語エラー率を計算できるようになりました。Recognize and intent can now use Azure functions to calculate word error rate using spx recognize --wer url <URL>.
  • 認識では、spx recognize --output vtt file <FILENAME> を使用して、結果を VTT ファイルとして出力できるようになりました。Recognize can now output results as VTT files using spx recognize --output vtt file <FILENAME>.
  • 重要なキー情報がデバッグまたは詳細出力で伏字で表示されるようになりました。Sensitive key info now obscured in debug/verbose output.
  • バッチ文字起こし作成で、コンテンツ フィールドの URL チェックとエラー メッセージを追加しました。Added URL checking and error message for content field in batch transcription create.

COVID-19 の影響によるテストの短縮:COVID-19 abridged testing:

パンデミックが続いており、エンジニアは自宅で作業する必要があるため、パンデミック前の手動検証スクリプトは大幅に削減されています。As the ongoing pandemic continues to require our engineers to work from home, pre-pandemic manual verification scripts have been significantly reduced. テスト対象のデバイスと構成が少なくなっており、環境固有のバグが漏れる可能性が高くなる場合があります。We test on fewer devices with fewer configurations, and the likelihood of environment-specific bugs slipping through may be increased. 大きな自動化のセットを使用して、厳格な検証をまだ行っています。We still rigorously validate with a large set of automation. しかし、もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。In the unlikely event that we missed something, please let us know on GitHub.
皆様の健康をお祈りします!Stay healthy!

テキスト読み上げの 2021 年 2 月のリリースText-to-speech 2021-February release

カスタム ニューラル音声の GACustom Neural Voice GA

カスタム ニューラル音声は、2 月に次の 13 言語で一般提供されています。中国語 (標準、簡体字)、英語 (オーストラリア)、英語 (インド)、英語 (英国)、英語 (米国)、フランス語 (カナダ)、フランス語 (フランス)、ドイツ語 (ドイツ)、イタリア語 (イタリア)、日本語 (日本)、韓国語 (韓国)、ポルトガル語 (ブラジル)、スペイン語 (メキシコ)、スペイン語 (スペイン)。Custom Neural Voice is GA in February in 13 languages: Chinese (Mandarin, Simplified), English (Australia), English (India), English (United Kingdom), English (United States), French (Canada), French (France), German (Germany), Italian (Italy), Japanese (Japan), Korean (Korea), Portuguese (Brazil), Spanish (Mexico), and Spanish (Spain). カスタム ニューラル音声とは何かと、責任を持ってそれを使用する方法について詳細を確認してください。Learn more about what is Custom Neural Voice and how to use it responsibly. カスタム ニューラル音声機能の利用には登録が必要です。Microsoft の適格性基準に基づき、Microsoft がアクセスを制限することがあります。Custom Neural Voice feature requires registration and Microsoft may limit access based on Microsoft’s eligibility criteria. 制限付きアクセスの詳細を確認してください。Learn more about the limited access.

Speech SDK 1.15.0: 2021 年 1 月のリリースSpeech SDK 1.15.0: 2021-January release

注意

Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。The Speech SDK on Windows depends on the shared Microsoft Visual C++ Redistributable for Visual Studio 2015, 2017 and 2019. こちらでダウンロードできます。Download it here.

要点の概要Highlights summary

  • メモリとディスクの占有領域を小さくすることによる SDK の効率向上。Smaller memory and disk footprint making the SDK more efficient.
  • カスタム ニューラル音声のプライベート プレビューで使用できる再現性の高い出力形式。Higher fidelity output formats available for custom neural voice private preview.
  • 意図認識エンジンで最上位の意図以外を返すことができるようになり、顧客の意図について個別の評価を行うことができます。Intent Recognizer can now get return more than the top intent, giving you the ability to make a separate assessment about your customer's intent.
  • 音声アシスタントやボットのセットアップが簡単になり、すぐにリスニングを停止し、エラーへの対処方法をより細かく制御できます。Your voice assistant or bot are now easier to set up, and you can make it stop listening immediately, and exercise greater control over how it responds to errors.
  • 圧縮をオプションにすることで向上したデバイスのパフォーマンス。Improved on device performance through making compression optional.
  • Windows ARM と ARM64 で Speech SDK を使用します。Use the Speech SDK on Windows ARM/ARM64.
  • 改善された低レベルのデバッグ。Improved low level debugging.
  • 発音評価機能をより広く利用できるようになりました。Pronunciation assessment feature is now more widely available.
  • 重要なお客様が GitHub でフラグを設定した問題に対処するためのいくつかのバグ修正。Several Bug fixes to address issues YOU, our valued customers, have flagged on GitHub! ご協力ありがとうございます。THANK YOU! ぜひフィードバックをお寄せください。Keep the feedback coming!

機能強化Improvements

  • Speech SDK がより効率的で軽量になりました。The Speech SDK is now more efficient and lightweight. Speech SDK のメモリ使用量とディスク占有領域を削減するための複数のリリース作業が開始されました。We have started a multi release effort to reduce the Speech SDK's memory usage and disk footprint. 最初のステップとして、ほとんどのプラットフォームで共有ライブラリのファイル サイズを大幅に削減しました。As a first step we made significant file size reductions in shared libraries on most platforms. 1.14 リリースと比較すると次のようになります。Compared to the 1.14 release:
    • 64 ビット UWP 互換 Windows ライブラリは、約 30% 小さくなります。64-bit UWP-compatible Windows libraries are about 30% smaller.
    • 32 ビット Windows ライブラリは、まだサイズ改善が見られません。32-bit Windows libraries are not yet seeing a size improvements.
    • Linux ライブラリは、20 から 25% 小さくなります。Linux libraries are 20-25% smaller.
    • Android ライブラリは、3 から 5% 小さくなります。Android libraries are 3-5% smaller.

新機能New features

  • [すべて] : TTS 音声合成 API により、カスタム ニューラル音声のプライベート プレビューで 48 KHz の出力形式を使用できます: Audio48Khz192KBitRateMonoMp3、audio-48khz-192kbitrate-mono-mp3、Audio48Khz96KBitRateMonoMp3、audio-48khz-96kbitrate-mono-mp3、Raw48Khz16BitMonoPcm、raw-48khz-16bit-mono-pcm、Riff48Khz16BitMonoPcm、riff-48khz-16bit-mono-pcm。All: New 48KHz output formats available for the private preview of custom neural voice through the TTS speech synthesis API: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • [すべて] : カスタム音声も使いやすくなっています。All: Custom voice is also easier to use. EndpointId によるカスタム音声の設定のサポートが追加されました (C++C#JavaJavaScriptObjective-CPython)。Added support for setting custom voice via EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). この変更の前は、カスタム音声ユーザーは FromEndpoint メソッドを使用してエンドポイント URL を設定する必要がありました。Before this change, custom voice users needed to set the endpoint URL via the FromEndpoint method. 現在は、お客様は、パブリック音声と同様に FromSubscription メソッドを使用でき、EndpointId を設定することによりデプロイ ID を指定できます。Now customers can use the FromSubscription method just like public voices, and then provide the deployment ID by setting EndpointId. これにより、カスタム音声の設定が簡単になります。This simplifies setting up custom voices.
  • C++、C#、Java、Objective-C、Python: IntentRecognizer から、最上位の意図以外のものを取得できます。C++/C#/Java/Objective-C/Python: Get more than the top intent fromIntentRecognizer. LanguageUnderstandingModel FromEndpoint メソッドで verbose=true URI パラメーターを使用することにより、トップ スコアの意図だけでなく、すべての意図が含まれる JSON 結果の構成がサポートされるようになりました。It now supports configuring the JSON result containing all intents and not only the top scoring intent via LanguageUnderstandingModel FromEndpoint method by using verbose=true uri parameter. これは、GitHub イシュー #880 に対応するものです。This addresses GitHub issue #880. こちらで更新されたドキュメントを参照してください。See updated documentation here.
  • C++、C#、Java: 音声アシスタントまたはボットのリスニングをすぐに停止します。C++/C#/Java: Make your voice assistant or bot stop listening immediately. DialogServiceConnector (C++C#Java) に、ListenOnceAsync() に付随する StopListeningAsync() メソッドが用意されました。DialogServiceConnector (C++, C#, Java) now has a StopListeningAsync() method to accompany ListenOnceAsync(). これにより、オーディオ キャプチャが直ちに停止され、結果が適切に待機されるので、"今すぐ停止" ボタンがクリックされたときのシナリオに最適です。This will immediately stop audio capture and gracefully wait for a result, making it perfect for use with "stop now" button-press scenarios.
  • C++、C#、Java、JavaScript: 音声アシスタントまたはボットによる基になるシステムのエラーへの対応が向上します。C++/C#/Java/JavaScript: Make your voice assistant or bot react better to underlying system errors. DialogServiceConnector (C++C#JavaJavaScript) に、新しい TurnStatusReceived イベント ハンドラーが追加されました。DialogServiceConnector (C++, C#, Java, JavaScript) now has a new TurnStatusReceived event handler. これらのオプション イベントは、ボットでのすべての ITurnContext の解決に対応し、ターン実行エラーが発生したときに報告されます。たとえば、ハンドルされない例外、タイムアウト、または Direct Line Speech とボットの間のネットワーク切断の結果などです。These optional events correspond to every ITurnContext resolution on the Bot and will report turn execution failures when they happen, e.g. as a result of an unhandled exception, timeout, or network drop between Direct Line Speech and the bot. TurnStatusReceived により、エラー状態への対応が簡単になります。TurnStatusReceived makes it easier to respond to failure conditions. たとえば、ボットによるバックエンド データベース クエリ (製品の検索など) の時間が長すぎる場合、TurnStatusReceived を使用することにより、クライアントで "申し訳ありません、よく聞き取れませんでした。もう一度試していただけますか" といったメッセージを再表示できます。For example, if a bot takes too long on a backend database query (e.g. looking up a product), TurnStatusReceived allows the client to know to reprompt with "sorry, I didn't quite get that, could you please try again" or something similar.
  • C++、C# : Speech SDK を使用できるプラットフォームが増えます。C++/C#: Use the Speech SDK on more platforms. Speech SDK NuGet パッケージで、Windows ARM および ARM64 デスクトップ ネイティブ バイナリがサポートされるようになり (UWP は既にサポートされています)、より多くのマシンの種類で Speech SDK を使用できるようになります。The Speech SDK NuGet package now supports Windows ARM/ARM64 desktop native binaries (UWP was already supported) to make the Speech SDK more useful on more machine types.
  • Java: DialogServiceConnector に、以前に言語から意図せずに除外された setSpeechActivityTemplate() メソッドが含まれるようになりました。Java: DialogServiceConnector now has a setSpeechActivityTemplate() method that was unintentionally excluded from the language previously. これは、Conversation_Speech_Activity_Template プロパティを設定することと同じであり、Direct Line Speech サービスによって生成される将来のすべての Bot Framework アクティビティで、提供されたコンテンツを JSON ペイロードにマージするよう要求されます。This is equivalent to setting the Conversation_Speech_Activity_Template property and will request that all future Bot Framework activities originated by the Direct Line Speech service merge the provided content into their JSON payloads.
  • Java: 改善された低レベルのデバッグ。Java: Improved low level debugging. Connection クラスに、他のプログラミング言語 (C++、C#) と同様の MessageReceived イベントが追加されました。The Connection class now has a MessageReceived event, similar to other programing languages (C++, C#). このイベントにより、サービスからの受信データへの低レベルのアクセスが提供され、診断やデバッグに役立ちます。This event provides low-level access to incoming data from the service and can be useful for diagnostics and debugging.
  • JavaScript:BotFrameworkConfig による音声アシスタントとボットのセットアップが簡単になりました。手動でのプロパティの設定と比べて、カスタム サービスの場所を簡単に使用できる fromHost() および fromEndpoint() ファクトリ メソッドが追加されました。JavaScript: Easier setup for Voice Assistants and bots through BotFrameworkConfig, which now has fromHost() and fromEndpoint() factory methods that simplify the use of custom service locations versus manually setting properties. また、構成ファクトリ全体で既定以外のボットを使用するための、botId のオプションの指定が標準化されました。We also standardized optional specification of botId to use a non-default bot across the configuration factories.
  • JavaScript:WebSocket 圧縮のための文字列制御プロパティが追加されたことで、デバイスのパフォーマンスが向上しました。JavaScript: Improved on device performance through added string control property for websocket compression. パフォーマンス上の理由から、WebSocket の圧縮の既定値は無効になりました。For performance reasons we disabled websocket compression by default. 低帯域幅のシナリオでは、これを再び有効にすることができます。This can be reenabled for low bandwidth scenarios. 詳細については、こちらをご覧ください。More details here. これは、GitHub イシュー #242 に対応するものです。This addresses GitHub issue #242.
  • JavaScript:音声の発音を評価できるように、発音評価のサポートが追加されました。JavaScript: Added support for pronunciation assessment to enable evaluation of speech pronunciation. こちらのクイックスタートを参照してください。See the quickstart here.

バグの修正Bug fixes

  • すべて (JavaScript を除く): 認識エンジンによって割り当てられるメモリが多すぎる、バージョン 1.14 での回帰を修正しました。All (except JavaScript): Fixed a regression in version 1.14, in which too much memory was allocated by the recognizer.
  • C++ :DialogServiceConnector でのガベージ コレクションの問題を修正し、GitHub イシュー #794 に対処しました。C++: Fixed a garbage collection issue with DialogServiceConnector, addressing GitHub issue #794.
  • C# : オブジェクトが破棄されるときに約 1 秒間ブロックされる原因となったスレッドのシャットダウンに関する問題を修正しました。C#: Fixed an issue with thread shutdown that caused objects to block for about a second when disposed.
  • C++、C#、Java: アプリケーションが DialogServiceConnector で音声認証トークンまたはアクティビティ テンプレートを複数回設定できない例外を修正しました。C++/C#/Java: Fixed an exception preventing an application from setting speech authorization token or activity template more than once on a DialogServiceConnector.
  • C++、C#、Java: 破棄での競合状態による認識エンジンのクラッシュを修正しました。C++/C#/Java: Fixed a recognizer crash due to a race condition in teardown.
  • JavaScript: 以前は、DialogServiceConnector により、BotFrameworkConfig のファクトリで指定されたオプションの botId パラメーターが適用されていませんでした。JavaScript: DialogServiceConnector did not previously honor the optional botId parameter specified in BotFrameworkConfig's factories. このため、既定以外のボットを使用するには、botId クエリ文字列パラメーターを手動で設定する必要がありました。This made it necessary to set the botId query string parameter manually to use a non-default bot. このバグが修正され、BotFrameworkConfig のファクトリに提供された botId 値が適用され、新しい fromHost()fromEndpoint() の追加が含まれるようになります。The bug has been corrected and botId values provided to BotFrameworkConfig's factories will be honored and used, including the new fromHost() and fromEndpoint() additions. これは、CustomCommandsConfigapplicationId パラメーターにも適用されます。This also applies to the applicationId parameter for CustomCommandsConfig.
  • JavaScript:GitHub のイシュー #881 が修正され、認識エンジンのオブジェクトを再利用できるようになります。JavaScript: Fixed GitHub issue #881, allowing recognizer object re-usage.
  • JavaScript:SKD により 1 つの TTS セッションで speech.config が複数回送信され、帯域幅が浪費されていた問題を、修正しました。JavaScript: Fixed an issue where the SKD was sending speech.config multiple times in one TTS session, wasting bandwidth.
  • JavaScript:マイク認証でのエラー処理が簡略化され、ユーザーがブラウザーでマイク入力を許可されない場合に、よりわかりやすいメッセージが表示されるようになりました。JavaScript: Simplified error handling on microphone authorization, allowing more descriptive message to bubble up when user has not allowed microphone input on their browser.
  • JavaScript:ConversationTranslator および ConversationTranscriber での型エラーのために TypeScript ユーザーでコンパイル エラーが発生していた GitHub のイシュー #249 を修正しました。JavaScript: Fixed GitHub issue #249 where type errors in ConversationTranslator and ConversationTranscriber caused a compilation error for TypeScript users.
  • Objective-C:Xcode 11.4 の iOS で GStreamer のビルドが失敗する問題を修正し、GitHub のイシュー #911 に対処しました。Objective-C: Fixed an issue where GStreamer build failed for iOS on Xcode 11.4, addressing GitHub issue #911.
  • Python: GitHub の issue #870 が修正され、"DeprecationWarning: the imp module is deprecated in favour of importlib" (DeprecationWarning: imp モジュールは非推奨であり、代わりに importlib を使用します) が削除されました。Python: Fixed GitHub issue #870, removing "DeprecationWarning: the imp module is deprecated in favor of importlib".

サンプルSamples

Speech CLI (別名 SPX): 2021 年 1 月のリリースSpeech CLI (also known as SPX): 2021-January release

新機能New features

  • Speech CLI が NuGet パッケージとして使用できるようになり、シェルやコマンド ラインから呼び出すことができる .NET グローバル ツールとして .NET CLI を使用してインストールできます。Speech CLI is now available as a NuGet package and can be installed via .NET CLI as a .NET global tool you can call from the shell/command line.
  • Custom Speech DevOps テンプレート リポジトリが、Custom Speech ワークフローに Speech CLI を使用するように更新されました。The Custom Speech DevOps Template repo has been updated to use Speech CLI for its Custom Speech workflows.

COVID-19 の影響によるテストの短縮: パンデミックが続いており、エンジニアは自宅で作業する必要があるため、パンデミック前の手動検証スクリプトは大幅に削減されています。COVID-19 abridged testing: As the ongoing pandemic continues to require our engineers to work from home, pre-pandemic manual verification scripts have been significantly reduced. テスト対象のデバイスと構成が少なくなっており、環境固有のバグが漏れる可能性が高くなる場合があります。We test on fewer devices with fewer configurations, and the likelihood of environment-specific bugs slipping through may be increased. 大きな自動化のセットを使用して、厳格な検証をまだ行っています。We still rigorously validate with a large set of automation. しかし、もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。In the unlikely event that we missed something, please let us know on GitHub.
皆様の健康をお祈りします!Stay healthy!

テキスト読み上げの 2020 年 12 月のリリースText-to-speech 2020-December release

GA とプレビュー段階の新しいニューラル音声New neural voices in GA and preview

以下の 51 の音声が新しくリリースされ、54 言語/ロケールのニューラル音声の合計が 129 になりました。Released 51 new voices for a total of 129 neural voices across 54 languages/locales:

  • GA ロケールの 46 の新しい音声: Shakir ar-EG アラビア語 (エジプト)、Hamed ar-SA アラビア語 (サウジアラビア)、Borislav bg-BG ブルガリア語 (ブルガリア)、Joana ca-ES カタロニア語 (スペイン)、Antonin cs-CZ チェコ語 (チェコ共和国)、Jeppe da-DK デンマーク語 (デンマーク)、Jonas de-AT ドイツ語 (オーストリア)、Jan de-CH ドイツ語 (スイス)、Nestoras el-GR ギリシャ語 (ギリシャ)、Liam en-CA 英語 (カナダ)、Connor en-IE English (アイルランド)、Madhur en-IN ヒンディー語 (インド)、Mohan en-IN テルグ語 (インド)、Prabhat en-IN 英語 (インド)、Valluvar en-IN タミル語 (インド)、Enric es-ES カタロニア語 (スペイン)、Kert et-EE エストニア語 (エストニア)、 Harri fi-FI フィンランド語 (フィンランド)、Selma fi-FI フィンランド語 (フィンランド)、Fabrice fr-CH フランス語 (スイス)、Colm ga-IE アイルランド語 (アイルランド)、Avri he-IL ヘブライ語 (イスラエル)、Srecko hr-HR クロアチア語 (クロアチア)、Tamas hu-HU ハンガリー語 (ハンガリー)、Gadis id-ID インドネシア語 (インドネシア)、Leonas lt-LT リトアニア語 (リトアニア)、Nils lv-LV ラトビア語 (ラトビア)、Osman ms-MY マレー語 (マレーシア)、Joseph mt-MT マルタ語 (マルタ)、Finn nb-NO ノルウェー語 (ブークモール、ノルウェー)、Pernille nb-NO ノルウェー語 (ブークモール、ノルウェー)、Fenna nl-NL オランダ語 (オランダ)、Maarten nl-NL オランダ語 (オランダ)、Agnieszka pl-PL ポーランド語 (ポーランド)、Marek pl-PL ポーランド語 (ポーランド)、Duarte pt-BR ポルトガル語 (ブラジル)、Raquel pt-PT ポルトガル語 (ポルトガル)、Emil ro-RO ルーマニア語 (ルーマニア)、Dmitry ru-RU ロシア語 (ロシア)、Svetlana ru-RU ロシア語 (ロシア)、Lukas sk-SK スロバキア語 (スロバキア)、Rok sl-SI スロベニア語 (スロベニア)、Mattias sv-SE スウェーデン語 (スウェーデン)、Sofie sv-SE スウェーデン語 (スウェーデン)、Niwat th-TH タイ語 (タイ)、Ahmet tr-TR トルコ語 (トルコ)、NamMinh vi-VN ベトナム語 (ベトナム)、HsiaoChen zh-TW 台湾標準中国語 (台湾)、YunJhe zh-TW 台湾標準中国語 (台湾)、HiuMaan zh-HK 広東語 (香港特別行政区)、WanLung zh-HK 広東語 (香港特別行政区)46 new voices in GA locales: Shakir in ar-EG Arabic (Egypt), Hamed in ar-SA Arabic (Saudi Arabia), Borislav in bg-BG Bulgarian (Bulgaria), Joana in ca-ES Catalan (Spain), Antonin in cs-CZ Czech (Czech Republic), Jeppe in da-DK Danish (Denmark), Jonas in de-AT German (Austria), Jan in de-CH German (Switzerland), Nestoras in el-GR Greek (Greece), Liam in en-CA English (Canada), Connor in en-IE English (Ireland), Madhur in en-IN Hindi (India), Mohan in en-IN Telugu (India), Prabhat in en-IN English (India), Valluvar in en-IN Tamil (India), Enric in es-ES Catalan (Spain), Kert in et-EE Estonian (Estonia), Harri in fi-FI Finnish (Finland), Selma in fi-FI Finnish (Finland), Fabrice in fr-CH French (Switzerland), Colm in ga-IE Irish (Ireland), Avri in he-IL Hebrew (Israel), Srecko in hr-HR Croatian (Croatia), Tamas in hu-HU Hungarian (Hungary), Gadis in id-ID Indonesian (Indonesia), Leonas in lt-LT Lithuanian (Lithuania), Nils in lv-LV Latvian (Latvia), Osman in ms-MY Malay (Malaysia), Joseph in mt-MT Maltese (Malta), Finn in nb-NO Norwegian, Bokmål (Norway), Pernille in nb-NO Norwegian, Bokmål (Norway), Fenna in nl-NL Dutch (Netherlands), Maarten in nl-NL Dutch (Netherlands), Agnieszka in pl-PL Polish (Poland), Marek in pl-PL Polish (Poland), Duarte in pt-BR Portuguese (Brazil), Raquel in pt-PT Portuguese (Potugal), Emil in ro-RO Romanian (Romania), Dmitry in ru-RU Russian (Russia), Svetlana in ru-RU Russian (Russia), Lukas in sk-SK Slovak (Slovakia), Rok in sl-SI Slovenian (Slovenia), Mattias in sv-SE Swedish (Sweden), Sofie in sv-SE Swedish (Sweden), Niwat in th-TH Thai (Thailand), Ahmet in tr-TR Turkish (Turkey), NamMinh in vi-VN Vietnamese (Vietnam), HsiaoChen in zh-TW Taiwanese Mandarin (Taiwan), YunJhe in zh-TW Taiwanese Mandarin (Taiwan), HiuMaan in zh-HK Chinese Cantonese (Hong Kong), WanLung in zh-HK Chinese Cantonese (Hong Kong).

  • プレビュー段階のロケールの 5 つの新しい音声: Kert et-EE エストニア語 (エストニア)、Colm ga-IE アイルランド語 (アイルランド)、Nils lv-LV ラトビア語 (ラトビア)、Leonas lt-LT リトアニア語 (リトアニア)、Joseph mt-MT マルタ語 (マルタ)5 new voices in preview locales: Kert in et-EE Estonian (Estonia), Colm in ga-IE Irish (Ireland), Nils in lv-LV Latvian (Latvia), Leonas in lt-LT Lithuanian (Lithuania), Joseph in mt-MT Maltese (Malta).

このリリースでは、54 言語/ロケールの計 129 のニューラル音声がサポートされています。With this release, we now support a total of 129 neural voices across 54 languages/locales. さらに、49 言語/ロケールの 70 を超える標準音声を使用できます。In addition, over 70 standard voices are available in 49 languages/locales. 完全なリストについては、言語サポートに関するページを参照してください。Visit Language support for the full list.

Audio Content Creation の更新Updates for Audio Content Creation

  • 音声選択の UI が改良され、音声カテゴリと音声の詳細な説明が表示されるようになりました。Improved voice selection UI with voice categories and detailed voice descriptions.
  • さまざまな言語のすべてのニューラル音声でイントネーションのチューニングが有効になりました。Enabled intonation tuning for all neural voices across different languages.
  • ブラウザーの言語に基づいて UI の言語が自動的に設定されます。Automated the UI localization based on the language of the browser.
  • zh-CN のすべてのニューラル音声に対して StyleDegree コントロールが有効になりました。Enabled StyleDegree controls for all zh-CN Neural voices. Audio Content Creation ツールのページにアクセスして、新機能をご確認ください。Visit the Audio Content Creation tool to check out the new features.

zh-CN の音声の更新Updates for zh-CN voices

  • zh-CN のすべてのニューラル音声が更新され、英語の読み上げがサポートされました。Updated all zh-CN neural voices to support English speaking.
  • zh-CN のすべてのニューラル音声において、イントネーションの調整が有効になりました。Enabled all zh-CN neural voices to support intonation adjustment. SSML または Audio Content Creation ツールを使用して、最適なイントネーションに調整できます。SSML or Audio Content Creation tool can be used to adjust for the best intonation.
  • zh-CN のすべてのマルチスタイル ニューラル音声が更新され、StyleDegree コントロールがサポートされました。Updated all zh-CN multi-style neural voices to support StyleDegree control. 感情の強さ (弱または強) を調整できます。Emotion intensity (soft or strong) is adjustable.
  • zh-CN-YunyeNeural が更新され、さまざまな感情を表現する複数のスタイルがサポートされました。Updated zh-CN-YunyeNeural to support multiple styles which can perform different emotions.

テキスト読み上げの 2020 年 11 月のリリースText-to-speech 2020-November release

プレビュー段階の新しいロケールと音声New locales and voices in preview

  • ニューラル TTS ポートフォリオには、5 つの新しい音声と言語が導入 されています。Five new voices and languages are introduced to the Neural TTS portfolio. これらは次のとおりです。Grace マルタ語 (マルタ)、Ona リトアニア語 (リトアニア)、Anu エストニア語 (エストニア)、Orla アイルランド語 (アイルランド)、Everita ラトビア語 (ラトビア)They are: Grace in Maltese (Malta), Ona in Lithuanian (Lithuania), Anu in Estonian (Estonia), Orla in Irish (Ireland) and Everita in Latvian (Latvia).
  • 複数のスタイルとロールがサポートされている zh-CN の新しい 5 つの音声: Xiaohan、Xiaomo、Xiaorui、Xiaoxuan、および YunxiFive new zh-CN voices with multiple styles and roles support: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan and Yunxi.

これらの音声は、次の 3 つの Azure リージョンにおいてパブリック プレビューで利用できます: EastUS、SouthEastAsia、WestEuropeThese voices are available in public preview in three Azure regions: EastUS, SouthEastAsia and WestEurope.

ニューラル TTS コンテナー GANeural TTS Container GA

  • ニューラル TTS コンテナーを使用すると、開発者は、特定のセキュリティとデータ ガバナンスの要件に応じて、独自の環境で最も自然なデジタル音声を使用して音声合成を行うことができます。With Neural TTS Container, developers can run speech synthesis with the most natural digital voices in their own environment for specific security and data governance requirements. Speech コンテナーのインストール方法を確認してください。Check how to install Speech Containers.

新機能New features

  • Custom Voice: ユーザーは、一方のリージョンから他方へ音声モデルをコピーできます。エンドポイントの中断と再開がサポートされています。Custom Voice: enabled users to copy a voice model from one region to another; supported endpoint suspension and resuming. こちらから、ポータルに移動します。Go to the portal here.
  • SSML の silence タグがサポートされています。SSML silence tag support.
  • 一般的な TTS 音声品質の改良点: nb-NO の単語レベルの発音精度が向上しました。General TTS voice quality improvements: Improved word-level pronunciation accuracy in nb-NO. 発音エラーが 53% 削減されました。Reduced 53% pronunciation error.

詳細については、こちらの技術ブログを参照してください。Read more at this tech blog.

テキスト読み上げの 2020 年 10 月のリリースText-to-speech 2020-October release

新機能New features

一般的な TTS 音声品質の改善General TTS voice quality improvements

  • pl-PL での単語レベルの発音精度が向上しました。(エラー率の低減: 51%) および fi-FI (エラー率の低下: 58%)Improved word-level pronunciation accuracy in pl-PL (error rate reduction: 51%) and fi-FI (error rate reduction: 58%)
  • 辞書シナリオに対して、ja-JP での 1 つの単語の読み取りを改善しました。Improved ja-JP single word reading for the dictionary scenario. 発音エラーが 80% 削減されました。Reduced pronunciation error by 80%.
  • zh-CN-XiaoxiaoNeural:センチメント/CustomerService/Newscast/Cheerful/Angry スタイルの音声品質を改善しました。zh-CN-XiaoxiaoNeural: Improved sentiment/CustomerService/Newscast/Cheerful/Angry style voice quality.
  • zh-CN:児化 (アルか) の発音と明るい声色を改善し、空間韻律を改良しました。これにより、明瞭度が大幅に向上します。zh-CN: Improved Erhua pronunciation and light tone and refined space prosody, which greatly improves intelligibility.

Speech SDK 1.14.0: 2020-October リリースSpeech SDK 1.14.0: 2020-October release

注意

Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。The Speech SDK on Windows depends on the shared Microsoft Visual C++ Redistributable for Visual Studio 2015, 2017 and 2019. こちらでダウンロードできます。Download it here.

新機能New features

  • Linux:Debian 10 および Ubuntu 20.04 LTS のサポートを追加しました。Linux: Added support for Debian 10 and Ubuntu 20.04 LTS.
  • Python、Objective-C: KeywordRecognizer API のサポートを追加しました。Python/Objective-C: Added support for the KeywordRecognizer API. ドキュメントはこちらです。Documentation will be here.
  • C++、Java、C# : ServicePropertyChannel::HttpHeader を使用して任意の HttpHeader のキーと値を設定するためのサポートを追加しました。C++/Java/C#: Added support to set any HttpHeader key/value via ServicePropertyChannel::HttpHeader.
  • JavaScript:ConversationTranscriber API のサポートを追加しました。JavaScript: Added support for the ConversationTranscriber API. こちらのドキュメントを参照してください。Read documentation here.
  • C++、C# : 新しい AudioDataStream FromWavFileInput メソッド (.WAV ファイル読み取り用) を こちら (C++)こちら (C#) に追加しました。C++/C#: Added new AudioDataStream FromWavFileInput method (to read .WAV files) here (C++) and here (C#).
  • C++、C#、Java、Python、Objective-C、Swift: テキスト読み上げを停止する stopSpeakingAsync() メソッドを追加しました。C++/C#/Java/Python/Objective-C/Swift: Added a stopSpeakingAsync() method to stop text-to-speech synthesis. こちら (C++)こちら (C#)こちら (Java)こちら (Python)、およびこちら (Objective-C、Swift) のリファレンス ドキュメントを参照してください。Read the Reference documentation here (C++), here (C#), here (Java), here (Python), and here (Objective-C/Swift).
  • C#、C++、Java: DialogServiceConnector の接続および切断イベントを監視するために使用できる FromDialogServiceConnector() 関数を Connection クラスに追加しました。C#, C++, Java: Added a FromDialogServiceConnector() function to the Connection class that can be used to monitor connection and disconnection events for DialogServiceConnector. こちら (C#)こちら (C++)、およびこちら (Java) のリファレンス ドキュメントを参照してください。Read the Reference documentation here (C#), here (C++), and here (Java).
  • C++、C#、Java、Python、Objective-C、Swift: 発音評価のサポートが追加されました。これはスピーチの発音を評価し、話された音声の正確性と流暢性に関するフィードバックを話者に提供します。C++/C#/Java/Python/Objective-C/Swift: Added support for Pronunciation Assessment, which evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. こちらのドキュメントをお読みください。Read the documentation here.

重大な変更Breaking change

  • JavaScript:PullAudioOutputStream.read() の戻り値の型が、内部の Promise からネイティブな JavaScript の Promise に変更されました。JavaScript: PullAudioOutputStream.read() has a return type change from an internal Promise to a Native JavaScript Promise.

バグの修正Bug fixes

  • [すべて] : 特定の特殊文字を含む値が無視される 1.13 の SetServiceProperty での回帰を修正しました。All: Fixed 1.13 regression in SetServiceProperty where values with certain special characters were ignored.
  • C# : ネイティブ DLL を見つけることができない Visual Studio 2019 の Windows コンソールのサンプルを修正しました。C#: Fixed Windows console samples on Visual Studio 2019 failing to find native DLLs.
  • C# : ストリームが KeywordRecognizer 入力として使用されている場合のメモリ管理でのクラッシュを修正しました。C#: Fixed crash with memory management if stream is used as KeywordRecognizer input.
  • ObjectiveC、Swift: ストリームがレコグナイザー入力として使用されている場合のメモリ管理でのクラッシュを修正しました。ObjectiveC/Swift: Fixed crash with memory management if stream is used as recognizer input.
  • Windows:UWP 上の BT HFP、A2DP との共存に関する問題を修正しました。Windows: Fixed co-existence issue with BT HFP/A2DP on UWP.
  • JavaScript:ログ記録を改善し、内部のデバッグとサービスの関連付けを支援するために、セッション ID のマッピングを修正しました。JavaScript: Fixed mapping of session IDs to improve logging and aid in internal debug/service correlations.
  • JavaScript:最初の呼び出しが行われた後に ListenOnce 呼び出しが無効になる DialogServiceConnector に対して修正を追加しました。JavaScript: Added fix for DialogServiceConnector disabling ListenOnce calls after the first call is made.
  • JavaScript:結果の出力が "単純" にしかならないという問題を修正しました。JavaScript: Fixed issue where result output would only ever be "simple".
  • JavaScript:macOS 上の Safari での継続的な認識の問題を修正しました。JavaScript: Fixed continuous recognition issue in Safari on macOS.
  • JavaScript:要求スループットが高いシナリオでの CPU 負荷の軽減。JavaScript: CPU load mitigation for high request throughput scenario.
  • JavaScript:音声プロファイル登録結果の詳細へのアクセスを許可します。JavaScript: Allow access to details of Voice Profile Enrollment result.
  • JavaScript:IntentRecognizer での継続的な認識のための修正を追加しました。JavaScript: Added fix for continuous recognition in IntentRecognizer.
  • C++、C#、Java、Python、Swift、ObjectiveC: IntentRecognizer の australiaeast と brazilsouth の不適切な URL を修正しました。C++/C#/Java/Python/Swift/ObjectiveC: Fixed incorrect url for australiaeast and brazilsouth in IntentRecognizer.
  • C++、C# : VoiceProfile オブジェクト作成時の引数として VoiceProfileType を追加しました。C++/C#: Added VoiceProfileType as an argument when creating a VoiceProfile object.
  • C++、C#、Java、Python、Swift、ObjectiveC: 指定された位置から AudioDataStream を読み取ろうとしたときに発生する可能性がある SPX_INVALID_ARG を修正しました。C++/C#/Java/Python/Swift/ObjectiveC: Fixed potential SPX_INVALID_ARG when trying to read AudioDataStream from a given position.
  • iOS: Unity 上の音声認識でのクラッシュを修正しましたIOS: Fixed crash with speech recognition on Unity

サンプルSamples

  • ObjectiveC: キーワード認識のサンプルを こちらに追加しました。ObjectiveC: Added sample for keyword recognition here.
  • C#、JavaScript: 会話の文字起こしのクイックスタートを こちら (C#)こちら (JavaScript) に追加しました。C#/JavaScript: Added quickstart for conversation transcription here (C#) and here (JavaScript).
  • C++、C#、Java、Python、Swift、ObjectiveC: 発音評価のサンプルを こちらに追加しました。C++/C#/Java/Python/Swift/ObjectiveC: Added sample for pronunciation assessment here
  • Xamarin:クイックスタートを最新の Visual Studio テンプレートに こちらで更新しました。Xamarin: Updated quickstart to latest Visual Studio template here.

既知の問題Known Issue

  • DigiCert Global Root G2 証明書は、HoloLens 2 および Android 4.4 (KitKat) によって既定ではサポートされておらず、Speech SDK を機能させるためにシステムに追加する必要があります。DigiCert Global Root G2 certificate is not supported by default in HoloLens 2 and Android 4.4 (KitKat) and needs to be added to the system to make the Speech SDK functional. この証明書は、近い将来に HoloLens 2 の OS イメージに追加されます。The certificate will be added to HoloLens 2 OS images in the near future. Android 4.4 のお客様は、更新された証明書をシステムに追加する必要があります。Android 4.4 customers need to add the updated the certificate to the system.

COVID-19 の影響によるテストの短縮: 過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。COVID-19 abridged testing: Due to working remotely over the last few weeks, we couldn't do as much manual verification testing as we normally do. 問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。We haven't made any changes we think could have broken anything, and our automated tests all passed. しかし、もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。In the unlikely event that we missed something, please let us know on GitHub.
皆様の健康をお祈りします!Stay healthy!

Speech CLI (別名 SPX): 2020-October リリースSpeech CLI (also known as SPX): 2020-October release

SPX は、コードを記述せずに Azure 音声サービスを使用するためのコマンド ライン インターフェイスです。SPX is the command line interface to use the Azure Speech service without writing code. 最新バージョンは、こちらからダウンロードできます。Download the latest version here.

新機能New features

  • spx csr dataset upload --kind audio|language|acoustic – URL からだけではなく、ローカル データからデータセットを作成します。spx csr dataset upload --kind audio|language|acoustic – create datasets from local data, not just from URLs.
  • spx csr evaluation create|status|list|update|delete – 新しいモデルを正しいベースラインおよびその他のモデルと比較します。spx csr evaluation create|status|list|update|delete – compare new models against baseline truth/other models.
  • spx * list – 非ページ操作をサポートします (top X --skip X は不要)。spx * list – supports non-paged experience (doesn't require --top X --skip X).
  • spx * --http header A=B – カスタム ヘッダーをサポートします (カスタム認証用として Office に追加済み)。spx * --http header A=B – support custom headers (added for Office for custom authentication).
  • spx help – 改良されたテキストとバック ティック テキストの色分け (青)。spx help – improved text and back-tick text color coded (blue).

テキスト読み上げの 2020 年 9 月のリリースText-to-speech 2020-September release

新機能New features

  • ニューラル TTSNeural TTS

    • 新たに 18 言語/ロケールにサポートを拡張しました。Extended to support 18 new languages/locales. 対象となるのは、ブルガリア語、チェコ語、ドイツ語 (オーストリア)、ドイツ語 (スイス)、ギリシャ語、英語 (アイルランド)、フランス語 (スイス)、ヘブライ語、クロアチア語、ハンガリー語、インドネシア語、マレー語、ルーマニア語、スロバキア語、スロベニア語、タミール語、テルグ語、およびベトナム語です。They are Bulgarian, Czech, German (Austria), German (Switzerland), Greek, English (Ireland), French (Switzerland), Hebrew, Croatian, Hungarian, Indonesian, Malay, Romanian, Slovak, Slovenian, Tamil, Telugu and Vietnamese.
    • 既存の言語を充実させるために、新たに 14 音声をリリースしました。Released 14 new voices to enrich the variety in the existing languages. 言語と音声の完全な一覧を参照してください。See full language and voice list.
    • en-USzh-CN の音声での新しい読み上げスタイルNew speaking styles for en-US and zh-CN voices. 英語 (米国) の新しい音声である Jenny は、チャットボット、カスタマー サービス、およびアシスタントの各スタイルをサポートしています。Jenny, the new voice in English (US), supports chatbot, customer service, and assistant styles. zh-CN の音声である XiaoXiao では、新たに 10 の読み上げスタイルを使用できます。10 new speaking styles are available with our zh-CN voice, XiaoXiao. さらに、XiaoXiao ニューラル音声では、StyleDegree チューニングがサポートされています。In addition, the XiaoXiao neural voice supports StyleDegree tuning. SSML での読み上げスタイルの使用方法を参照してください。See how to use the speaking styles in SSML.
  • コンテナー: ニューラル TTS コンテナーがパブリック プレビューでリリースされました。14 言語で 16 音声を使用できます。Containers: Neural TTS Container released in public preview with 16 voices available in 14 languages. 詳細については、ニューラル TTS 用の音声コンテナーのデプロイ方法に関する記事を参照してください。Learn more on how to deploy Speech Containers for Neural TTS

Ignite 2020 での TTS 更新プログラムの発表の全内容を参照してください。Read the full announcement of the TTS updates for Ignite 2020

テキスト読み上げの 2020 年 8 月のリリースText-to-speech 2020-August release

新機能New features

  • ニューラル TTS: en-US Aria 音声の新しい読み上げスタイルNeural TTS: new speaking style for en-US Aria voice. AriaNeural は、ニュースを読むときのニュース キャスターのように聞こえます。AriaNeural can sound like a news caster when reading news. 'newscast-formal' スタイルの方がより真面目に聞こえるのに対し、'newscast-casual' スタイルの方はよりリラックスしてくだけた感じです。The 'newscast-formal' style sounds more serious, while the 'newscast-casual' style is more relaxed and informal. SSML での読み上げスタイルの使用方法を参照してください。See how to use the speaking styles in SSML.

  • Custom Voice: トレーニング データの品質を自動的にチェックするための新機能がリリースされましたCustom Voice: a new feature is released to automatically check training data quality. データをアップロードすると、システムによってオーディオとトランスクリプト データのさまざまな側面が調べられ、問題が自動的に修正またはフィルター処理されて、音声モデルの品質が向上します。When you upload your data, the system will examine various aspects of your audio and transcript data, and automatically fix or filter issues to improve the quality of the voice model. ここでは、オーディオとスクリプトの形式に加え、オーディオの音量、ノイズ レベル、音声の発音の正確さ、音声と正規化されたテキスト間の調整、オーディオのサイレント状態についても説明します。This covers the volume of your audio, the noise level, the pronunciation accuracy of speech, the alignment of speech with the normalized text, silence in the audio, in addition to the audio and script format.

  • Audio Content Creation: より強力な音声チューニングとオーディオ管理機能を可能にする一連の新機能Audio Content Creation: a set of new features to enable more powerful voice tuning and audio management capabilities.

    • 発音: 発音チューニング機能は、最新の音素セットに更新されています。Pronunciation: the pronunciation tuning feature is updated to the latest phoneme set. ライブラリから適切な音素要素を選択し、選択した単語の発音を洗練することができます。You can pick the right phoneme element from the library and refine the pronunciation of the words you have selected.

    • ダウンロード:オーディオの "ダウンロード" または "エクスポート" 機能は、段落によるオーディオ生成をサポートするように強化されています。Download: The audio "Download"/"Export" feature is enhanced to support generating audio by paragraph. 複数のオーディオ出力を生成しながら、同じファイルまたは SSML でコンテンツを編集することができます。You can edit content in the same file/SSML, while generating multiple audio outputs. "ダウンロード" のファイル構造も改良されています。The file structure of "Download" is refined as well. すべてのオーディオ ファイルを 1 つのフォルダーに簡単に取り込むことができるようになりました。Now, you can easily get all audio files in one folder.

    • タスクの状態: 複数ファイルのエクスポート エクスペリエンスが向上しました。Task status : The multi-file export experience is improved. これまでは、複数のファイルをエクスポートするときに、いずれかのファイルにエラーが発生すると、タスク全体が失敗していました。When you export multiple files in the past, if one of the files has failed, the entire task will fail. しかし今は、他のすべてのファイルが正常にエクスポートされます。But now, all other files will be successfully exported. タスク レポートは、より詳細で構造化された情報で拡充されています。The task report is enriched with more detailed and structured information. すべての失敗したファイルと文のログをレポートで確認できるようになりました。You can check the logs for all failed files and sentences now with the report.

    • SSML ドキュメント: すべてのチューニング機能の使用方法に関するルールを確認できるように、SSML ドキュメントにリンクされています。SSML documentation: linked to SSML document to help you check the rules for how to use all tuning features.

  • Voice List API が更新され、ユーザーフレンドリな表示名と、ニューラル音声でサポートされている読み上げスタイルが含まれるようになりましたThe Voice List API is updated to include a user-friendly display name and the speaking styles supported for neural voices.

一般的な TTS 音声品質の改善General TTS voice quality improvements

  • 単語レベルの発音エラー率が低減しました。ru-RU はエラーが 56% 減少し、sv-SE はエラーが 49% 減少しました。Reduced word-level pronunciation error % for ru-RU (errors reduced by 56%) and sv-SE (errors reduced by 49%)

  • en-US ニューラル音声のポリフォニーの単語の読み上げが 40% 改良されました。Improved polyphony word reading on en-US neural voices by 40%. ポリフォニー単語の例には、"read"、"live"、"content"、"record"、"object" などがあります。Examples of polyphony words include "read", "live", "content", "record", "object", etc.

  • fr-FR での質問口調がより自然になりました。Improved the naturalness of the question tone in fr-FR. MOS (Mean Opinion Score) の向上: +0.28MOS (Mean Opinion Score) gain: +0.28

  • 次の音声のボコーダーを更新したことで、忠実性が向上し、全体のパフォーマンスが 40% 向上しました。Updated the vocoders for the following voices, with fidelity improvements and overall performance speed-up by 40%.

    LocaleLocale 音声Voice
    en-GB MiaMia
    es-MX DaliaDalia
    fr-CA SylvieSylvie
    fr-FR DeniseDenise
    ja-JP NanamiNanami
    ko-KR Sun-HiSun-Hi

バグの修正Bug fixes

  • Audio Content Creation ツールのいくつかのバグを修正しましたFixed a number of bugs with the Audio Content Creation tool
    • 自動更新に関する問題を修正しました。Fixed issue with auto refreshing.
    • 東南アジア リージョンの zh-CN の音声スタイルに関する問題を修正しました。Fixed issues with voice styles in zh-CN in the South East Asia region.
    • "break" タグによるエクスポート エラー、句読点のエラーなど、安定性の問題を修正しました。Fixed stability issue, including an export error with the 'break' tag, and errors in punctuation.

新しい音声テキスト変換ロケール: 2020 年 8 月のリリースNew speech-to-text locales: 2020-August Release

8 月にリリースされた 26 個の音声テキスト変換の新しいロケール:2 つのヨーロッパ言語 (cs-CZhu-HU)、5 つの英語ロケール、および南米のほとんどの国をカバーする 19 のスペイン語のロケール。Speech-to-text released 26 new locales in August: 2 European languages cs-CZ and hu-HU, 5 English locales and 19 Spanish locales that cover most South American countries. 新しいロケールの一覧を次に示します。Below is a list of the new locales. 言語の完全な一覧については、こちらを参照してください。See the complete language list here.

LocaleLocale LanguageLanguage
cs-CZ チェコ語 (チェコ共和国)Czech (Czech Republic)
en-HK 英語 (香港)English (Hong Kong)
en-IE 英語 (アイルランド)English (Ireland)
en-PH 英語 (フィリピン)English (Philippines)
en-SG 英語 (シンガポール)English (Singapore)
en-ZA 英語 (南アフリカ)English (South Africa)
es-AR スペイン語 (アルゼンチン)Spanish (Argentina)
es-BO スペイン語 (ボリビア)Spanish (Bolivia)
es-CL スペイン語 (チリ)Spanish (Chile)
es-CO スペイン語 (コロンビア)Spanish (Colombia)
es-CR スペイン語 (コスタリカ)Spanish (Costa Rica)
es-CU スペイン語 (キューバ)Spanish (Cuba)
es-DO スペイン語 (ドミニカ共和国)Spanish (Dominican Republic)
es-EC スペイン語 (エクアドル)Spanish (Ecuador)
es-GT スペイン語 (グアテマラ)Spanish (Guatemala)
es-HN スペイン語 (ホンジュラス)Spanish (Honduras)
es-NI スペイン語 (ニカラグア)Spanish (Nicaragua)
es-PA スペイン語 (パナマ)Spanish (Panama)
es-PE スペイン語 (ペルー)Spanish (Peru)
es-PR スペイン語 (プエルトリコ)Spanish (Puerto Rico)
es-PY スペイン語 (パラグアイ)Spanish (Paraguay)
es-SV スペイン語 (エルサルバドル)Spanish (El Salvador)
es-US スペイン語 (米国)Spanish (USA)
es-UY スペイン語 (ウルグアイ)Spanish (Uruguay)
es-VE スペイン語 (ベネズエラ)Spanish (Venezuela)
hu-HU ハンガリー語 (ハンガリー)Hungarian (Hungary)

Speech SDK 1.13.0:2020 年 7 月リリースSpeech SDK 1.13.0: 2020-July release

注意

Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。The Speech SDK on Windows depends on the shared Microsoft Visual C++ Redistributable for Visual Studio 2015, 2017 and 2019. こちらからダウンロードしてインストールします。Download and install it from here.

新機能New features

  • C# : 非同期での会話の文字起こしのサポートが追加されました。C#: Added support for asynchronous conversation transcription. こちらのドキュメントを参照してください。See documentation here.
  • JavaScript:ブラウザーnode.js の両方で、話者認識のサポートが追加されました。JavaScript: Added Speaker Recognition support for both browser and node.js.
  • JavaScript:言語/言語 ID の自動検出のサポートが追加されました。JavaScript: Added support for automatic language detection/language ID. こちらのドキュメントを参照してください。See documentation here.
  • Objective-C:マルチデバイスの会話会話の文字起こしのサポートが追加されました。Objective-C: Added support for multi-device conversation and conversation transcription.
  • Python: Windows および Linux での Python 用圧縮オーディオ サポートが追加されました。Python: Added compressed audio support for Python on Windows and Linux. こちらのドキュメントを参照してください。See documentation here.

バグの修正Bug fixes

  • [すべて] : KeywordRecognizer で認識後にストリームが送られない原因となっていた問題が修正されました。All: Fixed an issue that caused the KeywordRecognizer to not move forward the streams after a recognition.
  • [すべて] : KeywordRecognitionResult から取得したストリームにキーワードが含まれていない原因となっていた問題が修正されました。All: Fixed an issue that caused the stream obtained from a KeywordRecognitionResult to not contain the keyword.
  • [すべて] : SendMessageAsync で、ユーザーがその待機を終えた後に、実際にネットワーク経由でメッセージが送信されないという問題が修正されました。All: Fixed an issue that the SendMessageAsync does not really send the message over the wire after the users finish waiting for it.
  • [すべて] : ユーザーが VoiceProfileClient::SpeakerRecEnrollProfileAsync メソッドを複数回呼び出し、呼び出しの完了を待機しなかった場合の、Speaker Recognition API のクラッシュが修正されました。All: Fixed a crash in Speaker Recognition APIs when users call VoiceProfileClient::SpeakerRecEnrollProfileAsync method multiple times and did not wait for the calls to finish.
  • [すべて] : VoiceProfileClient クラスと SpeakerRecognizer クラスでのファイル ログの有効化が修正されました。All: Fixed enable file logging in VoiceProfileClient and SpeakerRecognizer classes.
  • JavaScript:ブラウザーが最小化されたときの調整の 問題が修正されました。JavaScript: Fixed an issue with throttling when browser is minimized.
  • JavaScript:ストリームでのメモリ リークの 問題が修正されました。JavaScript: Fixed an issue with a memory leak on streams.
  • JavaScript:NodeJS からの OCSP 応答のキャッシュが追加されました。JavaScript: Added caching for OCSP responses from NodeJS.
  • Java: BigInteger フィールドが常に 0 を返す原因となっていた問題が修正されました。Java: Fixed an issue that was causing BigInteger fields to always return 0.
  • iOS: iOS App Store で Speech SDK ベースのアプリを発行する場合の 問題が修正されました。iOS: Fixed an issue with publishing Speech SDK-based apps in the iOS App Store.

サンプルSamples

  • C++ :話者認識のサンプル コードが ここに追加されました。C++: Added sample code for Speaker Recognition here.

COVID-19 の影響によるテストの短縮: 過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。COVID-19 abridged testing: Due to working remotely over the last few weeks, we couldn't do as much manual verification testing as we normally do. 問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。We haven't made any changes we think could have broken anything, and our automated tests all passed. しかし、もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。In the unlikely event that we missed something, please let us know on GitHub.
皆様の健康をお祈りします!Stay healthy!

テキスト読み上げ 2020 年 7 月リリースText-to-speech 2020-July release

新機能New features

  • ニューラル TTS、15 の新しいニューラル音声: ニューラル TTS ポートフォリオに追加された新しい音声は、Salma (ar-EG アラビア語 (エジプト))、Zariyah (ar-SA アラビア語 (サウジアラビア))、Alba (ca-ES カタルニア語 (スペイン))、Christel (da-DK デンマーク語 (デンマーク))、Neerja (es-IN 英語 (インド))、Noora (fi-FI フィンランド語 (フィンランド))、Swara (hi-IN ヒンディー語 (インド))、Colette (nl-NL オランダ語 (オランダ))、Zofia (pl-PL ポーランド語 (ポーランド))、Fernanda (pt-PT ポルトガル (ポルトガル))、Dariya (ru-RU ロシア語 (ロシア))、Hillevi (sv-SE スウェーデン語 (スウェーデン))、Achara (th-TH タイ語 (タイ))、HiuGaai (zh-HK 中国語 (広東語、繁体中国語))、HsiaoYu (zh-TW 中国語 (台湾標準中国語)) です。Neural TTS, 15 new neural voices: The new voices added to the Neural TTS portfolio are Salma in ar-EG Arabic (Egypt), Zariyah in ar-SA Arabic (Saudi Arabia), Alba in ca-ES Catalan (Spain), Christel in da-DK Danish (Denmark), Neerja in es-IN English (India), Noora in fi-FI Finnish (Finland), Swara in hi-IN Hindi (India), Colette in nl-NL Dutch (Netherlands), Zofia in pl-PL Polish (Poland), Fernanda in pt-PT Portuguese (Portugal), Dariya in ru-RU Russian (Russia), Hillevi in sv-SE Swedish (Sweden), Achara in th-TH Thai (Thailand), HiuGaai in zh-HK Chinese (Cantonese, Traditional) and HsiaoYu in zh-TW Chinese (Taiwanese Mandarin). すべてのサポートされている言語を確認してください。Check all supported languages.

  • Custom Voice、ユーザー エクスペリエンスを簡単にするトレーニング フローで合理化された音声テスト: 新しいテスト機能を使用すると、一般的なシナリオや音声アシスタントのシナリオに対応するために、各言語用に最適化された定義済みのテスト セットを使用して、各音声が自動的にテストされます。Custom Voice, streamlined voice testing with the training flow to simplify user experience: With the new testing feature, each voice will be automatically tested with a predefined test set optimized for each language to cover general and voice assistant scenarios. これらのテスト セットは慎重に選択され、一般的なユース ケースと音素が言語に含まれるようにテストされています。These test sets are carefully selected and tested to include typical use cases and phonemes in the language. さらに、ユーザーは、モデルのトレーニング時に独自のテスト スクリプトをアップロードできます。Besides, users can still select to upload their own test scripts when training a model.

  • Audio Content Creation: 新しい機能のセットがリリースされ、より強力な音声チューニングとオーディオ管理機能が可能になりましたAudio Content Creation: a set of new features is released to enable more powerful voice tuning and audio management capabilities

    • Pitchratevolume は、低、中、高などの定義済みの値を使用したチューニングをサポートするように強化されています。Pitch, rate, and volume are enhanced to support tuning with a predefined value, like slow, medium and fast. ユーザーは、オーディオ編集の "定数" 値を簡単に選択できるようになりました。It's now straightforward for users to pick a 'constant' value for their audio editing.

    オーディオ チューニング

    • ユーザーは、作業ファイルの Audio history を確認できるようになりました。Users can now review the Audio history for their work file. この機能を使用すると、ユーザーは作業ファイルに関連するすべての生成されたオーディオを簡単に追跡できます。With this feature, users can easily track all the generated audio related to a working file. 履歴バージョンを確認し、同時にチューニングしながら品質を比較することができます。They can check the history version and compare the quality while tuning at the same time.

    オーディオ履歴

    • Clear 機能の柔軟性が向上しました。The Clear feature is now more flexible. ユーザーは、選択したコンテンツで使用可能な他のパラメーターを維持したまま、特定のチューニング パラメーターをクリアできます。Users can clear a specific tuning parameter while keeping other parameters available for the selected content.

    • ユーザーが TTS 音声チューニングとオーディオ管理をすぐに開始できるようにするためのチュートリアル ビデオが、ランディング ページに追加されました。A tutorial video was added on the landing page to help users quickly get started with TTS voice tuning and audio management.

一般的な TTS 音声品質の改善General TTS voice quality improvements

  • 再現性が高く、待機時間が短くなるように、TTS ボコーダーが改善されました。Improved TTS vocoder in for higher fidelity and lower latency.

    • it-IT の Elsa が新しいボコーダーに更新されました。これは、音声品質で +0.464 CMOS (Comparative Mean Opinion Score) の向上、合成で 40% の高速化、最初のバイトの待機時間で 30% の短縮を実現するものです。Updated Elsa in it-IT to a new vocoder which achieved +0.464 CMOS (Comparative Mean Opinion Score) gain in voice quality, 40% faster in synthesis and 30% reduction on first byte latency.
    • zh-CN の Xiaoxiao が新しいボコーダーに更新されました。これは、一般的なドメインで +0148 CMOS、ニュース放送スタイルで +0.348、叙情スタイルで +0.195 の向上を実現するものです。Updated Xiaoxiao in zh-CN to the new vocoder with +0148 CMOS gain for the general domain, +0.348 for the newscast style and +0.195 for the lyrical style.
  • TTS 出力をより自然にするために、de-DE および ja-JP 音声モデルが更新されました。Updated de-DE and ja-JP voice models to make the TTS output more natural.

    • 最新の韻律モデリング方法を使用して de-DE の Katja が更新されました。MOS (Mean Opinion Score) の向上は +0.13 です。Updated Katja in de-DE with the latest prosody modeling method, the MOS (Mean Opinion Score) gain is +0.13.
    • 新しいピッチ アクセント韻律モデルを使用して ja-JP の Nanami が更新されました。MOS (Mean Opinion Score) の向上は +0.19 です。Updated Nanami in ja-JP with a new pitch accent prosody model, the MOS (Mean Opinion Score) gain is +0.19;
  • 5 つの言語の単語レベルの発音精度が向上しました。Improved word-level pronunciation accuracy in five languages.

    LanguageLanguage 発音エラーの除去Pronunciation error reduction
    en-GB 51%51%
    ko-KR 17%17%
    pt-BR 39%39%
    pt-PT 77%77%
    id-ID 46%46%

バグの修正Bug fixes

  • 通貨の読み取りCurrency reading

    • es-ESes-MX での通貨の読み取りに関する問題が修正されましたFixed the issue with currency reading for es-ES and es-MX
    LanguageLanguage 入力Input 改善後の読み上げReadout after improvement
    es-MX $1.58$1.58 un peso cincuenta y ocho centavosun peso cincuenta y ocho centavos
    es-ES $1.58$1.58 un dólar cincuenta y ocho centavosun dólar cincuenta y ocho centavos
    • 次のロケールでの負の通貨 ("-325 €" など) のサポート: en-USen-GBfr-FRit-ITen-AUen-CASupport for negative currency (like “-325 €” ) in following locales: en-US, en-GB, fr-FR, it-IT, en-AU, en-CA.
  • pt-PT での住所の読み取りが改善されました。Improved address reading in pt-PT.

  • 単語 "for" と "four" について、Natasha (en-AU) と Libby (en-UK) の発音に関する問題を修正しました。Fixed Natasha (en-AU) and Libby (en-UK) pronunciation issues on the word "for" and "four".

  • オーディオ コンテンツ作成ツールのバグを修正しましたFixed bugs on Audio Content Creation tool

    • 2 番目の段落の後の追加および予期しない一時停止が修正されています。The additional and unexpected pause after the second paragraph is fixed.
    • "休止なし" 機能が回帰バグから再び追加されています。'No break' feature is added back from a regression bug.
    • Speech Studio のランダム更新の問題が修正されています。The random refresh issue of Speech Studio is fixed.

サンプル/SDKSamples/SDK

  • JavaScript:Firefox および macOS と iOS での Safari における再生の問題が修正されました。JavaScript: Fixes playback issue in Firefox, and Safari on macOS and iOS.

Speech SDK 1.12.1:2020 年 6 月リリースSpeech SDK 1.12.1: 2020-June release

Speech CLI (SPX とも呼ばれます)Speech CLI (also known as SPX)

  • CLI 内ヘルプ検索機能が追加されました。Added in-CLI help search features:
    • spx help find --text TEXT
    • spx help find --topic NAME
  • 新しくデプロイされた v3.0 Batch および Custom Speech API と連携するように更新されました。Updated to work with newly deployed v3.0 Batch and Custom Speech APIs:
    • spx help batch examples
    • spx help csr examples

新機能New features

バグの修正Bug fixes

  • C#、C++ :話者認識の 1.12 で機能していなかったマイクの録音を修正しました。C#, C++: Fixed microphone recording was not working in 1.12 in speaker recognition.
  • JavaScript:FireFox および macOS と iOS 上の Safari でのテキスト読み上げの修正。JavaScript: Fixes for Text-To-Speech in Firefox, and Safari on macOS and iOS.
  • 8 チャネル ストリーム使用時の、会話の文字起こしでの Windows アプリケーション検証ツールのアクセス違反クラッシュの修正。Fix for Windows application verifier access violation crash on conversation transcription when using eight-channel stream.
  • マルチデバイス会話翻訳での Windows アプリケーション検証ツールのアクセス違反クラッシュの修正。Fix for Windows application verifier access violation crash on multi-device conversation translation.

サンプルSamples

COVID-19 の影響によるテストの短縮: 過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。COVID-19 abridged testing: Due to working remotely over the last few weeks, we couldn't do as much manual verification testing as we normally do. 問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。We haven't made any changes we think could have broken anything, and our automated tests all passed. しかし、もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。In the unlikely event that we missed something, please let us know on GitHub.
皆様の健康をお祈りします!Stay healthy!

Speech SDK 1.12.0:2020-May リリースSpeech SDK 1.12.0: 2020-May release

Speech CLI (SPX とも呼ばれます)Speech CLI (Also Know As SPX)

  • SPX は、コマンド ラインから認識、合成、翻訳、バッチ文字起こし、およびカスタム音声管理を実行するための新しいコマンド ライン ツールです。SPX is a new command line tool that allows you to perform recognition, synthesis, translation, batch transcription, and custom speech management from the command line. これを使用して、音声サービスをテストしたり、実行する必要がある音声サービス タスクをスクリプト化したりできます。Use it to test the Speech Service, or to script the Speech Service tasks you need to perform. ツールをダウンロードし、こちらのドキュメントを参照してください。Download the tool and read the documentation here.

新機能New features

  • Go: 音声認識カスタム音声アシスタントのための新しい Go 言語サポート。Go: New Go language support for speech recognition and custom voice assistant. 開発環境をここでセットアップします。Set up your dev environment here. サンプル コードについては、以下の「サンプル」セクションを参照してください。For sample code, see the Samples section below.
  • JavaScript:音声合成のためのブラウザー サポートを追加しました。JavaScript: Added Browser support for Text-To-Speech. こちらのドキュメントを参照してください。See documentation here.
  • C++、C#、Java:新しい KeywordRecognizer オブジェクトと API が Windows、Android、Linux、および iOS プラットフォームでサポートされました。C++, C#, Java: New KeywordRecognizer object and APIs supported on Windows, Android, Linux & iOS platforms. こちらのドキュメントをお読みください。Read the documentation here. サンプル コードについては、以下の「サンプル」セクションを参照してください。For sample code, see the Samples section below.
  • Java: 翻訳サポートを含むマルチデバイスの会話機能を追加しました。Java: Added multi-device conversation with translation support. こちらの参照ドキュメントを参照してください。See the reference doc here.

強化および最適化Improvements & Optimizations

  • JavaScript:ブラウザー マイクの実装を最適化し、音声認識の精度が向上しています。JavaScript: Optimized browser microphone implementation improving speech recognition accuracy.
  • Java: SWIG なしで直接 JNI 実装を使用するバインディングをリファクターしました。Java: Refactored bindings using direct JNI implementation without SWIG. この変更により、Windows、Android、Linux、Mac で使用されるすべての Java パッケージのバインディング サイズが 10 分の 1 に縮小され、Speech SDK Java 実装のさらなる開発が容易になります。This change reduces by 10x the bindings size for all Java packages used for Windows, Android, Linux and Mac and eases further development of the Speech SDK Java implementation.
  • Linux:最新の RHEL 7 固有の記載を含むようにサポート ドキュメントを更新しました。Linux: Updated support documentation with the latest RHEL 7 specific notes.
  • サービス エラーやネットワーク エラーが発生した場合に接続を複数回試行するための接続ロジックを改善しました。Improved connection logic to attempt connecting multiple times when service and network errors occur.
  • portal.azure.com の音声機能のクイックスタート ページを更新しました。開発者は Azure の音声体験の次のステップに進むことができます。Updated the portal.azure.com Speech Quickstart page to help developers take the next step in the Azure Speech journey.

バグの修正Bug fixes

  • C#、Java:Linux ARM への SDK ライブラリの読み込みに関する 問題を修正しました (32 ビットと 64 ビットの両方)。C#, Java: Fixed an issue with loading SDK libraries on Linux ARM (both 32 bit and 64 bit).
  • C# : TranslationRecognizer、IntentRecognizer、および Connection オブジェクトのネイティブ ハンドルの明示的な破棄を修正しました。C#: Fixed explicit disposal of native handles for TranslationRecognizer, IntentRecognizer and Connection objects.
  • C# : ConversationTranscriber オブジェクトのオーディオ入力の有効期間の管理を修正しました。C#: Fixed audio input lifetime management for ConversationTranscriber object.
  • 単純な語句から意図を認識するときに、IntentRecognizer の結果の理由が適切に設定されない問題を修正しました。Fixed an issue where IntentRecognizer result reason was not set properly when recognizing intents from simple phrases.
  • SpeechRecognitionEventArgs 結果のオフセットが正しく設定されない問題を修正しました。Fixed an issue where SpeechRecognitionEventArgs result offset was not set correctly.
  • WebSocket 接続を開く前に SDK がネットワーク メッセージを送信しようとする際の競合状態を修正しました。Fixed a race condition where SDK was trying to send a network message before opening the websocket connection. 参加者の追加中に TranslationRecognizer で再現されていました。Was reproducible for TranslationRecognizer while adding participants.
  • キーワード認識エンジンのメモリ リークを修正しました。Fixed memory leaks in the keyword recognizer engine.

サンプルSamples

COVID-19 の影響によるテストの短縮: 過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。COVID-19 abridged testing: Due to working remotely over the last few weeks, we couldn't do as much manual verification testing as we normally do. 問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。We haven't made any changes we think could have broken anything, and our automated tests all passed. 何らかの問題が発生した場合には、GitHub にてお知らせください。If we missed something, please let us know on GitHub.
皆様の健康をお祈りします!Stay healthy!

Speech SDK 1.11.0:2020年 3月 リリースSpeech SDK 1.11.0: 2020-March release

新機能New features

  • Linux: Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 のサポートを追加しました。Speech SDK 向けのシステム構成方法のインストラクションも付いています。Linux: Added support for Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 with instructions on how to configure the system for Speech SDK.
  • Linux: Linux ARM32 と ARM64 での C.NET Core C# のサポートを追加しました。Linux: Added support for .NET Core C# on Linux ARM32 and ARM64. 詳細については、こちらをご覧ください。Read more here.
  • C# および C++:ConversationTranscriptionResultUtteranceId を追加しました。これは、すべての中間および最終的な音声認識の結果にわたる一貫性のある ID です。C#, C++: Added UtteranceId in ConversationTranscriptionResult, a consistent ID across all the intermediates and final speech recognition result. C# および C++ の詳細。Details for C#, C++.
  • Python: Language ID のサポートを追加しました。Python: Added support for Language ID. GitHub リポジトリの speech_sample.py を参照してください。See speech_sample.py in GitHub repo.
  • Windows: すべての win32 コンソール アプリケーション向けに、Windows プラットフォームでの圧縮されたオーディオ入力形式のサポートを追加しました。Windows: Added compressed audio input format support on Windows platform for all the win32 console applications. 詳細については、こちら を参照してください。Details here.
  • JavaScript:NodeJS で音声合成 (テキスト読み上げ) をサポートします。JavaScript: Support speech synthesis (text-to-speech) in NodeJS. こちらをご覧ください。Learn more here.
  • JavaScript:新しい API を追加して、すべての送受信メッセージを検査できるようにします。JavaScript: Add new API's to enable inspection of all send and received messages. こちらをご覧ください。Learn more here.

バグの修正Bug fixes

  • C# および C++:SendMessageAsync がバイナリ型としてバイナリ メッセージを送信するよう、問題を修正しました。C#, C++: Fixed an issue so SendMessageAsync now sends binary message as binary type. C# および C++ の詳細。Details for C#, C++.
  • C# および C++:Connection オブジェクトの前に Recognizer が破棄された場合に Connection MessageReceived イベントを使用するとクラッシュが発生する問題を修正しました。C#, C++: Fixed an issue where using Connection MessageReceived event may cause crash if Recognizer is disposed before Connection object. C# および C++ の詳細。Details for C#, C++.
  • Android:マイクからのオーディオ バッファーサイズが 800ms から 100ms に減少し、待機時間が短縮されます。Android: Audio buffer size from microphone decreased from 800ms to 100ms to improve latency.
  • Android:Android Studio の x86 Android emulator に関する問題を修正しました。Android: Fixed an issue with x86 Android emulator in Android Studio.
  • JavaScript:fromSubscription API の中国のリージョン向けのサポートが追加されました。JavaScript: Added support for Regions in China with the fromSubscription API. 詳細については、こちら を参照してください。Details here.
  • JavaScript:NodeJS からの接続失敗のエラー情報を追加します。JavaScript: Add more error information for connection failures from NodeJS.

サンプルSamples

  • Unity:意図認識パブリック サンプルで LUIS json インポートに失敗する問題が修正されました。Unity: Intent recognition public sample is fixed, where LUIS json import was failing. 詳細については、こちら を参照してください。Details here.
  • Python: Language ID 向けに追加されたサンプル。Python: Sample added for Language ID. 詳細については、こちら を参照してください。Details here.

Covid19 により、テストの短縮を余儀なくされました 過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動によるデバイス検証テストを行うことができませんでした。Covid19 abridged testing: Due to working remotely over the last few weeks, we couldn't do as much manual device verification testing as we normally do. たとえば、Linux、iOS、macOS でのマイクの入力とスピーカー出力のテストができませんでした。For example, we couldn't test microphone input and speaker output on Linux, iOS, and macOS. これらのプラットフォームにおいては、問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。We haven't made any changes we think could have broken anything on these platforms, and our automated tests all passed. しかし、もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。In the unlikely event that we missed something, please let us know on GitHub.
今後とも、どうぞよろしくお願いいたします。Thank you for your continued support. これまでと同様、GitHubStack Overflow での質問やフィードバックの投稿をお待ちしています。As always, please post questions or feedback on GitHub or Stack Overflow.
皆様の健康をお祈りします!Stay healthy!

Speech SDK 1.10.0: 2020 年 2 月リリースSpeech SDK 1.10.0: 2020-February release

新機能New features

  • Python の新しい 3.8 リリースをサポートするために Python パッケージが追加されしました。Added Python packages to support the new 3.8 release of Python.
  • Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 のサポート (C++、C#、Java、Python)。Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 support (C++, C#, Java, Python).

    注意

    ユーザーは、こちらの手順に従って OpenSSL を構成する必要があり ます。Customers must configure OpenSSL according to these instructions.

  • Debian および Ubuntu に対する Linux ARM32 のサポート。Linux ARM32 support for Debian and Ubuntu.
  • DialogServiceConnector で、BotFrameworkConfig の省略可能な "ボット ID" パラメーターがサポートされるようになりました。DialogServiceConnector now supports an optional "bot ID" parameter on BotFrameworkConfig. このパラメーターを使用すると、単一の Azure Speech リソースで複数の Direct Line Speech ボットを使用できます。This parameter allows the use of multiple Direct Line Speech bots with a single Azure speech resource. パラメーターの指定がない場合は、既定のボット ([Direct Line Speech チャネルの構成] ページによって決まります) が使用されます。Without the parameter specified, the default bot (as determined by the Direct Line Speech channel configuration page) will be used.
  • DialogServiceConnector に SpeechActivityTemplate プロパティが含まれるようになりました。DialogServiceConnector now has a SpeechActivityTemplate property. この JSON 文字列の内容は Direct Line Speech によって使用され、Direct Line Speech ボットに達するすべてのアクティビティでサポートされているさまざまなフィールドに事前設定されます。これには、音声認識などのイベントの応答で自動的に生成されるアクティビティも含まれます。The contents of this JSON string will be used by Direct Line Speech to pre-populate a wide variety of supported fields in all activities that reach a Direct Line Speech bot, including activities automatically generated in response to events like speech recognition.
  • TTS で認証にサブスクリプション キーが使用されるようになり、シンセサイザーを作成した後の最初の合成結果の最初のバイト待機時間が短縮されました。TTS now uses subscription key for authentication, reducing the first byte latency of the first synthesis result after creating a synthesizer.
  • 19 のロケールの音声認識モデルが更新され、平均ワード エラー率が 18.6% 下がりました (es-ES、es-MX、fr-CA、fr-FR、it-IT、ja-JP、ko-KR、pt-BR、zh-CN、zh-HK、nb-NO、fi-FL、ru-RU、pl-PL、ca-ES、zh-TW、th-TH、pt-PT、tr-TR)。Updated speech recognition models for 19 locales for an average word error rate reduction of 18.6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). 新しいモデルでは、ディクテーション、コールセンターの文字起こし、ビデオのインデックス作成を含む複数の領域にわたる大幅な機能強化が行われています。The new models bring significant improvements across multiple domains including Dictation, Call-Center Transcription and Video Indexing scenarios.

バグの修正Bug fixes

  • JAVA API で会話の文字起こし機能が適切に待機しないバグが修正されましたFixed bug where Conversation Transcriber did not await properly in JAVA APIs
  • Xamarin GitHub 問題に対する Android x86 エミュレーターの修正が行われましたAndroid x86 emulator fix for Xamarin GitHub issue
  • 欠落していた (Get|Set)Property メソッドが AudioConfig に追加されましたAdd missing (Get|Set)Property methods to AudioConfig
  • 接続に失敗したときに audioDataStream を停止できない TTS バグが修正されましたFix a TTS bug where the audioDataStream could not be stopped when connection fails
  • リージョンなしでエンドポイントを使用すると、会話の翻訳で USP エラーが発生しますUsing an endpoint without a region would cause USP failures for conversation translator
  • ユニバーサル Windows アプリケーションでの ID の生成で、適切に一意の GUID アルゴリズムが使用されるようになりました。これまでは、大規模なインタラクションでしばしば競合を発生させるスタブ実装に意図せずに既定で設定されていました。ID generation in Universal Windows Applications now uses an appropriately unique GUID algorithm; it previously and unintentionally defaulted to a stubbed implementation that often produced collisions over large sets of interactions.

サンプルSamples

その他の変更点Other changes

Speech SDK 1.9.0:2020 年 1 月のリリースSpeech SDK 1.9.0: 2020-January release

新機能New Features

  • マルチデバイスの会話: 複数のデバイスを同じ音声またはテキストベースの会話に接続し、それらの間で送信されるメッセージを必要に応じて翻訳します。Multi-device conversation: connect multiple devices to the same speech or text-based conversation, and optionally translate messages sent between them. 詳しくは、こちらの記事をご覧ください。Learn more in this article.
  • Android の .aar パッケージ用のキーワード認識サポートが追加され、x86 と x64 のフレーバーのサポートが追加されました。Keyword recognition support added for Android .aar package and added support for x86 and x64 flavors.
  • Objective-C: SendMessage および SetMessageProperty メソッドが Connection オブジェクトに追加されました。Objective-C: SendMessage and SetMessageProperty methods added to Connection object. こちらのドキュメントを参照してください。See documentation here.
  • TTS C++ api で、合成テキスト入力として std::wstring がサポートされるようになり、SDK に渡す前に wstring を string に変換する必要がなくなりました。TTS C++ api now supports std::wstring as synthesis text input, removing the need to convert a wstring to string before passing it to the SDK. 詳細については、こちらを参照してください。See details here.
  • C#:言語 IDソース言語構成を使用できるようになりました。C#: Language ID and source language config are now available.
  • JavaScript:カスタム メッセージをコールバック receivedServiceMessage として音声サービスからパススルーする機能を Connection オブジェクトに追加しました。JavaScript: Added a feature to Connection object to pass through custom messages from the Speech Service as callback receivedServiceMessage.
  • JavaScript:オンプレミス コンテナーとソブリン クラウドでの使用を容易にするために、FromHost API のサポートが追加されました。JavaScript: Added support for FromHost API to ease use with on-prem containers and sovereign clouds. こちらのドキュメントを参照してください。See documentation here.
  • JavaScript:orgads からの投稿により、NODE_TLS_REJECT_UNAUTHORIZED が適用されるようになりました。JavaScript: We now honor NODE_TLS_REJECT_UNAUTHORIZED thanks to a contribution from orgads. 詳細については、こちらを参照してください。See details here.

重大な変更Breaking changes

  • OpenSSL はバージョン 1.1.1b に更新され、Linux の Speech SDK コア ライブラリに静的にリンクされています。OpenSSL has been updated to version 1.1.1b and is statically linked to the Speech SDK core library for Linux. これにより、システムの /usr/lib/ssl ディレクトリに受信トレイ OpenSSL がインストールされていない場合に、中断が発生する可能性があります。This may cause a break if your inbox OpenSSL has not been installed to the /usr/lib/ssl directory in the system. この問題を回避するには、Speech SDK ドキュメントにあるこちらのドキュメントを確認してください。Please check our documentation under Speech SDK docs to work around the issue.
  • 音声データが 2 分を超えた場合に WordLevelTimingResults にアクセスできるように、C# WordLevelTimingResult.Offset に返されるデータ型を int から long に変更しました。We have changed the data type returned for C# WordLevelTimingResult.Offset from int to long to allow for access to WordLevelTimingResults when speech data is longer than 2 minutes.
  • PushAudioInputStream および PullAudioInputStream は、作成時にオプションで指定されたAudioStreamFormat に基づいて wav ヘッダー情報を音声サービスに送信するようになりました。PushAudioInputStream and PullAudioInputStream now send wav header information to the Speech Service based on AudioStreamFormat, optionally specified when they were created. お客様は、サポートされるオーディオ入力の形式を使用する必要があります。Customers must now use the supported audio input format. 他の形式では、最適な認識結果が得られないか、その他の問題が発生する可能性があります。Any other formats will get suboptimal recognition results or may cause other issues.

バグの修正Bug fixes

  • 上記の「重大な変更」にある OpenSSL の更新情報を参照してください。See the OpenSSL update under Breaking changes above. Linux と Java の断続的なクラッシュとパフォーマンスの問題 (高負荷でのロックの競合) の両方を修正しました。We fixed both an intermittent crash and a performance issue (lock contention under high load) in Linux and Java.
  • Java:コンカレンシーの高いシナリオでのオブジェクト クロージャが改善されました。Java: Made improvements to object closure in high concurrency scenarios.
  • NuGet パッケージを再構築しました。Restructured our NuGet package. lib フォルダーの下にある Microsoft.CognitiveServices.Speech.core.dllMicrosoft.CognitiveServices.Speech.extension.kws.dll の 3 つのコピーを削除し、NuGet パッケージを小さく、速くダウンロードできるようにし、いくつかの C++ ネイティブ アプリをコンパイルするために必要なヘッダーを追加しました。We removed the three copies of Microsoft.CognitiveServices.Speech.core.dll and Microsoft.CognitiveServices.Speech.extension.kws.dll under lib folders, making the NuGet package smaller and faster to download, and we added headers needed to compile some C++ native apps.
  • こちらのクイック スタート サンプルを修正しました。Fixed quickstart samples here. これらは、Linux、macOS、Windows で「microphone not found」(マイクが見つかりません) という例外を表示せずに終了していました。These were exiting without displaying "microphone not found" exception on Linux, macOS, Windows.
  • こちらのサンプルのような特定のコード パスでの長い音声認識結果による SDK のクラッシュを修正しました。Fixed SDK crash with long speech recognition results on certain code paths like this sample.
  • こちらのお客様の問題に対処するために、Azure Web アプリ環境の SDK デプロイ エラーを修正しました。Fixed SDK deployment error in Azure Web App environment to address this customer issue.
  • こちらのお客様の問題に対処するために、複数の <voice> タグまたは <audio> タグを使用したときの TTS エラーを修正しました。Fixed a TTS error while using multi <voice> tag or <audio> tag to address this customer issue.
  • SDK が中断から回復されたときの TTS 401 エラーを修正しました。Fixed a TTS 401 error when the SDK is recovered from suspended.
  • JavaScript:euirim からの投稿により、オーディオ データの循環インポートを修正しました。JavaScript: Fixed a circular import of audio data thanks to a contribution from euirim.
  • JavaScript: 1.7 で追加されたサービス プロパティの設定のサポートが追加されました。JavaScript: added support for setting service properties, as added in 1.7.
  • JavaScript: 接続エラーにより WebSocket の再接続試行が連続して失敗する可能性がある問題を修正しました。JavaScript: fixed an issue where a connection error could result in continuous, unsuccessful websocket reconnect attempts.

サンプルSamples

  • Android 用のキーワード認識サンプルをこちらに追加しました。Added keyword recognition sample for Android here.
  • サーバー シナリオ用の TTS サンプルをこちらに追加しました。Added TTS sample for the server scenario here.
  • C# と C++ 用のマルチデバイス会話のクイックスタートをこちらに追加しました。Added Multi-device conversation quickstarts for C# and C++ here.

その他の変更点Other changes

  • Android の SDK コア ライブラリのサイズが最適化されています。Optimized SDK core library size on Android.
  • 1.9.0 以降の SDK で、会話の文字起こしの声紋バージョン フィールドで intstring の両方の型がサポートされます。SDK in 1.9.0 and onwards supports both int and string types in the voice signature version field for Conversation Transcriber.

Speech SDK 1.8.0: 2019-November リリースSpeech SDK 1.8.0: 2019-November release

新機能New Features

  • オンプレミス コンテナーとソブリン クラウドでの使用を容易にするために FromHost() API を追加しました。Added a FromHost() API, to ease use with on-prem containers and sovereign clouds.
  • 音声認識の自動ソース言語検出機能を追加しました (Java および C++)。Added Automatic Source Language Detection for Speech Recognition (in Java and C++)
  • 音声認識でしかるべきソース言語を指定するための SourceLanguageConfig オブジェクトを追加しました (Java および C++)Added SourceLanguageConfig object for Speech Recognition, used to specify expected source languages (in Java and C++)
  • NuGet パッケージと Unity パッケージを通じて、Windows (UWP)、Android、iOS で新たに KeywordRecognizer を使用できるようになりましたAdded KeywordRecognizer support on Windows (UWP), Android and iOS through the NuGet and Unity packages
  • 非同期バッチで会話の文字起こしを行うための Remote Conversation Java API を追加しました。Added Remote Conversation Java API to do Conversation Transcription in asynchronous batches.

重大な変更Breaking changes

  • 会話の文字起こし機能が名前空間 Microsoft.CognitiveServices.Speech.Transcription の下に移動されました。Conversation Transcriber functionalities moved under namespace Microsoft.CognitiveServices.Speech.Transcription.
  • 会話の文字起こし機能の一部のメソッドが、新しい Conversation クラスに移されました。Parts of the Conversation Transcriber methods are moved to new Conversation class.
  • 32 ビット (ARMv7 および x86) iOS のサポートが終了しました。Dropped support for 32-bit (ARMv7 and x86) iOS

バグの修正Bug fixes

  • 有効な音声サービスのサブスクリプション キーなしでローカル KeywordRecognizer を使用した場合に発生するクラッシュを修正しましたFix for crash if local KeywordRecognizer is used without a valid Speech service subscription key

サンプルSamples

  • KeywordRecognizer の Xamarin サンプルXamarin sample for KeywordRecognizer
  • KeywordRecognizer の Unity サンプルUnity sample for KeywordRecognizer
  • 自動ソース言語検出の C++ および Java サンプルC++ and Java samples for Automatic Source Language Detection.

Speech SDK 1.7.0: 2019-September リリースSpeech SDK 1.7.0: 2019-September release

新機能New Features

  • ユニバーサル Windows プラットフォーム (UWP)、Android、iOS での Xamarin のベータ サポートが追加されましたAdded beta support for Xamarin on Universal Windows Platform (UWP), Android, and iOS
  • Unity の iOS サポートが追加されましたAdded iOS support for Unity
  • Android、iOS、Linux での ALaw、Mulaw、FLAC に対する Compressed 入力のサポートが追加されましたAdded Compressed input support for ALaw, Mulaw, FLAC on Android, iOS and Linux
  • メッセージをサービスに送信するための SendMessageAsyncConnection クラスに追加されましたAdded SendMessageAsync in Connection class for sending a message to service
  • メッセージのプロパティを設定するための SetMessagePropertyConnection クラスに追加されましたAdded SetMessageProperty in Connection class for setting property of a message
  • TTS で Java (JRE と Android)、Python、Swift、Objective-C に対するバインドが追加されましたTTS added bindings for Java (JRE and Android), Python, Swift, and Objective-C
  • TTS で macOS、iOS、Android に対する再生のサポートが追加されました。TTS added playback support for macOS, iOS, and Android.
  • TTS に対する "ワード境界" の情報が追加されました。Added "word boundary" information for TTS.

バグの修正Bug fixes

  • Unity 2019 for Android での IL2CPP のビルドの問題が修正されましたFixed IL2CPP build issue on Unity 2019 for Android
  • wav ファイルの入力が正しく処理されない、間違った形式のヘッダーに関する問題が修正されましたFixed issue with malformed headers in wav file input being processed incorrectly
  • 一部の接続プロパティで UUID が一意ではない問題が修正されましたFixed issue with UUIDs not being unique in some connection properties
  • Swift バインドでの NULL 値許容指定子に関するいくつかの警告が修正されました (小さなコード変更が必要な場合があります)Fixed a few warnings about nullability specifiers in the Swift bindings (might require small code changes)
  • ネットワークに負荷がかかると WebSocket 接続が異常終了する原因となっていたバグが修正されましたFixed a bug that caused websocket connections to be closed ungracefully under network load
  • DialogServiceConnector によって使用される印象 ID が重複することがある原因であった Android の問題が修正されましたFixed an issue on Android that sometimes results in duplicate impression IDs used by DialogServiceConnector
  • 複数ターン相互作用を通した接続の安定性と、DialogServiceConnector でエラーが発生したときの (Canceled イベント経由による) エラーの報告が向上しましたImprovements to the stability of connections across multi-turn interactions and the reporting of failures (via Canceled events) when they occur with DialogServiceConnector
  • DialogServiceConnector セッションの開始により、アクティブな StartKeywordRecognitionAsync() の間に ListenOnceAsync() を呼び出すなど、イベントが正しく提供されるようになりましたDialogServiceConnector session starts will now properly provide events, including when calling ListenOnceAsync() during an active StartKeywordRecognitionAsync()
  • DialogServiceConnector アクティビティの受信に関連するクラッシュが対処されましたAddressed a crash associated with DialogServiceConnector activities being received

サンプルSamples

  • Xamarin のクイックスタートQuickstart for Xamarin
  • Linux ARM64 の情報で CPP のクイックスタートを更新しましたUpdated CPP Quickstart with Linux ARM64 information
  • iOS の情報で Unity のクイックスタートを更新しましたUpdated Unity quickstart with iOS information

Speech SDK 1.6.0: 2019-June リリースSpeech SDK 1.6.0: 2019-June release

サンプルSamples

  • UWP および Unity 上の Text to Speech 用のクイックスタート サンプルQuickstart samples for Text To Speech on UWP and Unity
  • iOS 上の Swift 用のクイックスタート サンプルQuickstart sample for Swift on iOS
  • 音声および意図の認識と翻訳用の Unity サンプルUnity samples for Speech & Intent Recognition and Translation
  • DialogServiceConnector のクイック スタート サンプルが更新されましたUpdated quickstart samples for DialogServiceConnector

機能強化/変更Improvements / Changes

  • Dialog 名前空間:Dialog namespace:
    • SpeechBotConnector の名前が DialogServiceConnector に変更されましたSpeechBotConnector has been renamed to DialogServiceConnector
    • BotConfig の名前が DialogServiceConfig に変更されましたBotConfig has been renamed to DialogServiceConfig
    • BotConfig::FromChannelSecret()DialogServiceConfig::FromBotSecret() に再マッピングされましたBotConfig::FromChannelSecret() has been remapped to DialogServiceConfig::FromBotSecret()
    • 既存のすべての Direct Line Speech クライアントは、名前の変更後も引き続きサポートされますAll existing Direct Line Speech clients continue to be supported after the rename
  • TTS REST アダプターが更新され、プロキシ、固定接続がサポートされるようになりましたUpdate TTS REST adapter to support proxy, persistent connection
  • 無効なリージョンが渡されたときのエラー メッセージを改善しましたImprove error message when an invalid region is passed
  • Swift/Objective-C:Swift/Objective-C:
    • エラー報告の改善: エラーが発生する可能性のあるメソッドが、2 つのバージョンで存在するようになりました。エラー処理のために NSError オブジェクトを公開するものと、例外を発生させるものです。Improved error reporting: Methods that can result in an error are now present in two versions: One that exposes an NSError object for error handling, and one that raises an exception. 前者は Swift に公開されます。The former are exposed to Swift. この変更を既存の Swift コードに適応させる必要があります。This change requires adaptations to existing Swift code.
    • イベント処理を改善しましたImproved event handling

バグの修正Bug fixes

  • オーディオがレンダリングを完了するまで待たずに、SpeakTextAsync が制御を戻していた TTS の問題を修正しましたFix for TTS: where SpeakTextAsync future returned without waiting until audio has completed rendering
  • 言語の完全サポートを可能にするために、C# での文字列のマーシャリングを修正しましたFix for marshaling strings in C# to enable full language support
  • サンプルで net461 ターゲット フレームワークを使用してコア ライブラリを読み込むときの .NET Core アプリの問題を修正しましたFix for .NET core app problem to load core library with net461 target framework in samples
  • サンプルでネイティブ ライブラリを出力フォルダーに展開するときに発生する場合がある問題を修正しましたFix for occasional issues to deploy native libraries to the output folder in samples
  • Web ソケットを確実に閉じるための修正を行いましたFix for web socket closing reliably
  • Linux で高負荷時に接続を開いたときに発生する可能性があるクラッシュを修正しましたFix for possible crash while opening a connection under heavy load on Linux
  • macOS 用のフレームワーク バンドルの欠落しているメタデータを修正しましたFix for missing metadata in the framework bundle for macOS
  • Windows での pip install --user に関する問題を修正しましたFix for problems with pip install --user on Windows

Speech SDK 1.5.1Speech SDK 1.5.1

これはバグ修正リリースで、ネイティブ/マネージド SDK にのみ影響します。This is a bug fix release and only affecting the native/managed SDK. JavaScript バージョンの SDK には影響しません。It is not affecting the JavaScript version of the SDK.

バグの修正Bug fixes

  • 会話の文字起こしで使用する FromSubscription を修正しました。Fix FromSubscription when used with Conversation Transcription.
  • 音声アシスタントのキーワード スポッティング機能のバグを修正しました。Fix bug in keyword spotting for voice assistants.

Speech SDK 1.5.0:2019-May リリースSpeech SDK 1.5.0: 2019-May release

新機能New features

  • キーワード スポッティング機能 (KWS) が Windows と Linux で利用できるようになりました。Keyword spotting (KWS) is now available for Windows and Linux. KWS の機能は任意の種類のマイクでも動作する可能性がありますが、公式の KWS サポートは、現時点では Azure Kinect DK ハードウェアまたは Speech Devices SDK 内のマイク アレイに限定されています。KWS functionality might work with any microphone type, official KWS support, however, is currently limited to the microphone arrays found in the Azure Kinect DK hardware or the Speech Devices SDK.
  • フレーズ ヒント機能は、この SDK を介して利用できます。Phrase hint functionality is available through the SDK. 詳細については、このページを参照してください。For more information, see here.
  • 会話の文字起こし機能は、この SDK を介して利用できます。Conversation transcription functionality is available through the SDK. こちらを参照してください。See here.
  • Direct Line Speech チャネルを使用して、音声アシスタントのサポートを追加します。Add support for voice assistants using the Direct Line Speech channel.

サンプルSamples

  • SDK でサポートされている新機能または新サービスのサンプルを追加しました。Added samples for new features or new services supported by the SDK.

機能強化/変更Improvements / Changes

  • サービスの動作やサービスの結果を調整するさまざまなレコグナイザー プロパティを追加しました (冒涜的な表現やその他のマスクなど)。Added various recognizer properties to adjust service behavior or service results (like masking profanity and others).
  • レコグナイザー FromEndpoint を作成した場合でも、標準の構成プロパティを使用してレコグナイザーを構成できるようになりました。You can now configure the recognizer through the standard configuration properties, even if you created the recognizer FromEndpoint.
  • Objective-C: OutputFormat プロパティが SPXSpeechConfiguration に追加されました。Objective-C: OutputFormat property was added to SPXSpeechConfiguration.
  • SDK は、Linux ディストリビューションとして Debian 9 をサポートするようになりました。The SDK now supports Debian 9 as a Linux distribution.

バグの修正Bug fixes

  • テキスト読み上げでスピーカー リソースの破棄が早すぎる問題を修正しました。Fixed a problem where the speaker resource was destructed too early in text-to-speech.

Speech SDK 1.4.2Speech SDK 1.4.2

これはバグ修正リリースで、ネイティブ/マネージド SDK にのみ影響します。This is a bug fix release and only affecting the native/managed SDK. JavaScript バージョンの SDK には影響しません。It is not affecting the JavaScript version of the SDK.

Speech SDK 1.4.1Speech SDK 1.4.1

これは、JavaScript のみのリリースです。This is a JavaScript-only release. 機能は追加されていません。No features have been added. 以下の修正が行われました。The following fixes were made:

  • Web パックでHTTPS プロキシ エージェントが読み込まれないようにしました。Prevent web pack from loading https-proxy-agent.

Speech SDK 1.4.0: 2019 年 4 月リリースSpeech SDK 1.4.0: 2019-April release

新機能New features

  • SDK で、ベータ版としてテキスト読み上げサービスがサポートされるようになりました。The SDK now supports the text-to-speech service as a beta version. Windows および Linux デスクトップの C++ および C# からサポートされます。It is supported on Windows and Linux Desktop from C++ and C#. 詳細については、テキスト読み上げの概要に関する記事を参照してください。For more information, check the text-to-speech overview.
  • SDK は、ストリーム入力ファイルとして MP3 および Opus/OGG オーディオ ファイルをサポートするようになりました。The SDK now supports MP3 and Opus/OGG audio files as stream input files. この機能は、Linux の C++ と C# からのみ使用でき、現在はベータ版です (詳しくはこちら)。This feature is available only on Linux from C++ and C# and is currently in beta (more details here).
  • Java、.NET Core、C++、Objective-C 用の Speech SDK で、macOS がサポートされるようになりました。The Speech SDK for Java, .NET core, C++ and Objective-C have gained macOS support. Objective-C での MacOS のサポートは、現在ベータ版です。The Objective-C support for macOS is currently in beta.
  • iOS:iOS (Objective-C) 用の Speech SDK が、CocoaPod としても公開されるようになりました。iOS: The Speech SDK for iOS (Objective-C) is now also published as a CocoaPod.
  • JavaScript:入力デバイスとしての既定以外のマイクのサポート。JavaScript: Support for non-default microphone as an input device.
  • JavaScript:Node.js に対するプロキシのサポート。JavaScript: Proxy support for Node.js.

サンプルSamples

  • macOS の C++ および Objective-C での Speech SDK の使用のサンプルが追加されました。Samples for using the Speech SDK with C++ and with Objective-C on macOS have been added.
  • テキスト読み上げサービスの使用方法を示すサンプルが追加されました。Samples demonstrating the usage of the text-to-speech service have been added.

機能強化/変更Improvements / Changes

  • Python: 認識結果の追加のプロパティが、properties プロパティで公開されるようになりました。Python: Additional properties of recognition results are now exposed via the properties property.
  • 開発とデバッグの追加サポートでは、SDK のログ記録と診断情報をログ ファイルにリダイレクトすることができます (詳細についてはこちら)。For additional development and debug support, you can redirect SDK logging and diagnostics information into a log file (more details here).
  • JavaScript:オーディオ処理のパフォーマンスが向上しました。JavaScript: Improve audio processing performance.

バグの修正Bug fixes

  • Mac/iOS:Speech サービスへの接続を確立できないときに、長時間待機が発生するバグを修正しました。Mac/iOS: A bug that led to a long wait when a connection to the Speech service could not be established was fixed.
  • Python: Python コールバックでの引数のエラー処理が向上しました。Python: improve error handling for arguments in Python callbacks.
  • JavaScript:RequestSession で終了した音声の正しくない状態レポートが修正されました。JavaScript: Fixed wrong state reporting for speech ended on RequestSession.

Speech SDK 1.3.1:2019 年 2 月更新Speech SDK 1.3.1: 2019-February refresh

これはバグ修正リリースで、ネイティブ/マネージド SDK にのみ影響します。This is a bug fix release and only affecting the native/managed SDK. JavaScript バージョンの SDK には影響しません。It is not affecting the JavaScript version of the SDK.

バグ修正Bug fix

  • マイク入力を使用する際のメモリ リークを修正しました。Fixed a memory leak when using microphone input. ストリーム ベースの入力やファイル入力には影響しません。Stream based or file input is not affected.

Speech SDK 1.3.0: 2019-February リリースSpeech SDK 1.3.0: 2019-February release

新機能New Features

  • Speech SDK では、AudioConfig クラスによって入力マイクの選択がサポートされます。The Speech SDK supports selection of the input microphone through the AudioConfig class. これにより、既定以外のマイクから、Speech サービスに、音声 データをストリーミングできます。This allows you to stream audio data to the Speech service from a non-default microphone. 詳しくは、オーディオ入力デバイスの選択に関する記事をご覧ください。For more information, see the documentation describing audio input device selection. この機能は、JavaScript からはまだ使用できません。This feature is not yet available from JavaScript.
  • Speech SDK では、ベータ版で Unity がサポートされるようになりました。The Speech SDK now supports Unity in a beta version. GitHub サンプル リポジトリの問題セクションでフィードバックをお送りください。Provide feedback through the issue section in the GitHub sample repository. このリリースでは、Windows x86 と x64 (デスクトップまたはユニバーサル Windows プラットフォーム アプリケーション) および Android (ARM32/64、x86) での Unity がサポートされています。This release supports Unity on Windows x86 and x64 (desktop or Universal Windows Platform applications), and Android (ARM32/64, x86). 詳しくは、Unity のクイック スタートに関する記事をご覧ください。More information is available in our Unity quickstart.
  • (以前のリリースで提供されていた) Microsoft.CognitiveServices.Speech.csharp.bindings.dll ファイルは不要になりました。The file Microsoft.CognitiveServices.Speech.csharp.bindings.dll (shipped in previous releases) isn't needed anymore. この機能はコア SDK に統合されました。The functionality is now integrated into the core SDK.

サンプルSamples

サンプル リポジトリで次の新しいコンテンツを利用できます。The following new content is available in our sample repository:

  • AudioConfig.FromMicrophoneInput のその他のサンプルAdditional samples for AudioConfig.FromMicrophoneInput.
  • 意図認識と翻訳に関する追加の Python サンプル。Additional Python samples for intent recognition and translation.
  • iOS での Connection オブジェクトの使用に関する追加サンプル。Additional samples for using the Connection object in iOS.
  • オーディオ出力での翻訳に関する追加の Java サンプル。Additional Java samples for translation with audio output.
  • Batch Transcription REST API の使用に関する新しいサンプル。New sample for use of the Batch Transcription REST API.

機能強化/変更Improvements / Changes

  • PythonPython
    • SpeechConfig でのパラメーター検証とエラー メッセージが強化されました。Improved parameter verification and error messages in SpeechConfig.
    • Connection オブジェクトのサポートを追加します。Add support for the Connection object.
    • Windows での 32 ビット Python (x86) のサポート。Support for 32-bit Python (x86) on Windows.
    • Python 用 Speech SDK がベータ版ではなくなりました。The Speech SDK for Python is out of beta.
  • iOSiOS
    • SDK のビルド対象が iOS SDK バージョン 12.1 になりました。The SDK is now built against the iOS SDK version 12.1.
    • SDK が、iOS バージョン 9.2 以降をサポートするようになりました。The SDK now supports iOS versions 9.2 and later.
    • リファレンス ドキュメントが改善され、いくつかのプロパティ名が修正されました。Improve reference documentation and fix several property names.
  • JavaScriptJavaScript
    • Connection オブジェクトのサポートを追加します。Add support for the Connection object.
    • バンドルされている JavaScript の型定義ファイルが追加されましたAdd type definition files for bundled JavaScript
    • 語句ヒントの最初のサポートと実装。Initial support and implementation for phrase hints.
    • 認識に対するサービス JSON でプロパティのコレクションが返されますReturn properties collection with service JSON for recognition
  • Windows の DLL に、バージョン リソースが含まれるようになりました。Windows DLLs do now contain a version resource.
  • 認識エンジン FromEndpoint を作成した場合は、エンドポイント URL に直接パラメーターを追加できます。If you create a recognizer FromEndpoint you can add parameters directly to the endpoint URL. FromEndpoint を使用した場合、標準の構成プロパティを通じて認識エンジンを構成することはできません。Using FromEndpoint you can't configure the recognizer through the standard configuration properties.

バグの修正Bug fixes

  • 空のプロキシ ユーザー名とプロキシ パスワードが、正しく処理されませんでした。Empty proxy username and proxy password were not handled correctly. このリリースでは、プロキシ ユーザー名とプロキシ パスワードを空の文字列に設定した場合は、プロキシに接続したときに送信されません。With this release, if you set proxy username and proxy password to an empty string, they will not be submitted when connecting to the proxy.
  • SDK によって作成された SessionId が、一部の言語 /環境で本当にランダムではないことがありました。SessionId's created by the SDK were not always truly random for some languages / environments. 乱数ジェネレーターの初期化を追加してこの問題を解決しました。Added random generator initialization to fix this issue.
  • 認可トークンの処理が向上します。Improve handling of authorization token. 認可トークンを使用する場合、SpeechConfig で指定し、サブスクリプション キーを空のままにします。If you want to use an authorization token, specify in the SpeechConfig and leave the subscription key empty. その後、通常どおり認識エンジンを作成します。Then create the recognizer as usual.
  • 場合によっては、Connection オブジェクトが正しく解放されませんでした。In some cases the Connection object wasn't released correctly. この問題は修正されています。This issue has been fixed.
  • 翻訳合成も Safari 上にある場合にオーディオ出力をサポートするよう、JavaScript のサンプルが修正されました。The JavaScript sample was fixed to support audio output for translation synthesis also on Safari.

Speech SDK 1.2.1Speech SDK 1.2.1

これは、JavaScript のみのリリースです。This is a JavaScript-only release. 機能は追加されていません。No features have been added. 以下の修正が行われました。The following fixes were made:

  • speech.end ではなく turn.end でストリームの終了が発生します。Fire end of stream at turn.end, not at speech.end.
  • 現在の送信が失敗した場合に、次の送信がスケジュールされなかった、オーディオ ポンプのバグを修正しました。Fix bug in audio pump that did not schedule next send if the current send failed.
  • 認証トークンでの継続的な認識を修正しました。Fix continuous recognition with auth token.
  • 別の認識エンジン/エンドポイントのバグ修正。Bug fix for different recognizer / endpoints.
  • ドキュメントの改善。Documentation improvements.

Speech SDK 1.2.0:2018-December リリースSpeech SDK 1.2.0: 2018-December release

新機能New Features

  • PythonPython
    • このリリースで、Python サポート (3.5 以降) のベータ版を使用できるようになりました。The Beta version of Python support (3.5 and above) is available with this release. 詳しくは、こちら (quickstart-python.md) をご覧ください。For more information, see here](quickstart-python.md).
  • JavaScriptJavaScript
    • Speech SDK for JavaScript はオープンソースで提供されています。The Speech SDK for JavaScript has been open-sourced. ソース コードは GitHubから入手できます。The source code is available on GitHub.
    • Node.js のサポートを開始しました。詳細については、こちらを参照してください。We now support Node.js, more info can be found here.
    • 音声セッションの長さの制限がなくなり、再接続は背後で自動的に実行されるようになります。The length restriction for audio sessions has been removed, reconnection will happen automatically under the cover.
  • Connection オブジェクトConnection object
    • Recognizer から、Connection オブジェクトにアクセスできます。From the Recognizer, you can access a Connection object. このオブジェクトを使用すると、サービスの接続を明示的に開始し、接続イベントと切断イベントをサブスクライブすることができますThis object allows you to explicitly initiate the service connection and subscribe to connect and disconnect events. (この機能は、JavaScript と Python からはまだ使用できません)。(This feature is not yet available from JavaScript and Python.)
  • Ubuntu 18.04 のサポート。Support for Ubuntu 18.04.
  • AndroidAndroid
    • APK 生成時の ProGuard サポートが有効になりました。Enabled ProGuard support during APK generation.

機能強化Improvements

  • 内部スレッドの使用方法を改善し、スレッド、ロック、相互排他の数を減らしました。Improvements in the internal thread usage, reducing the number of threads, locks, mutexes.
  • エラー報告や情報を改善しました。Improved error reporting / information. 一部のケースでは、エラー メッセージがまったく伝達されていませんでした。In several cases, error messages have not been propagated out all the way out.
  • 最新のモジュールを使用するように JavaScript の開発依存関係を更新しました。Updated development dependencies in JavaScript to use up-to-date modules.

バグの修正Bug fixes

  • RecognizeAsync の型の不一致によるメモリ リークを修正しました。Fixed memory leaks due to a type mismatch in RecognizeAsync.
  • 場合によっては、例外がリークしていました。In some cases exceptions were being leaked.
  • 翻訳イベント引数のメモリ リークを修正しました。Fixing memory leak in translation event arguments.
  • 長時間実行中のセッションでの再接続に関するロックの問題を修正しました。Fixed a locking issue on reconnect in long running sessions.
  • 翻訳が失敗した場合に最終的な結果が失われる可能性がある問題を修正しました。Fixed an issue that could lead to missing final result for failed translations.
  • C#:メイン スレッドで async 操作が待機されていない場合、非同期タスクが完了する前に認識機能が破棄される可能性がありました。C#: If an async operation wasn't awaited in the main thread, it was possible the recognizer could be disposed before the async task was completed.
  • Java:Java VM がクラッシュする原因となる問題を修正しました。Java: Fixed a problem resulting in a crash of the Java VM.
  • Objective-C: RecognizingIntent ではなく RecognizedIntent が返されるという列挙型のマッピングを修正しました。Objective-C: Fixed enum mapping; RecognizedIntent was returned instead of RecognizingIntent.
  • JavaScript:SpeechConfig で既定の出力形式を 'simple' に設定します。JavaScript: Set default output format to 'simple' in SpeechConfig.
  • JavaScript:JavaScript と他の言語の config オブジェクトのプロパティ間にある不整合を解消しました。JavaScript: Removing inconsistency between properties on the config object in JavaScript and other languages.

サンプルSamples

  • いくつかのサンプルを更新および修正しました (たとえば、翻訳のための出力音声など)。Updated and fixed several samples (for example output voices for translation, etc.).
  • サンプル リポジトリに Node.js サンプルを追加しました。Added Node.js samples in the sample repository.

Speech SDK 1.1.0Speech SDK 1.1.0

新機能New Features

  • Android x86 または x64 のサポート。Support for Android x86/x64.
  • プロキシのサポート: SpeechConfig オブジェクトで、プロキシ情報 (ホスト名、ポート、ユーザー名、パスワード) を設定する関数を呼び出せるようになりました。Proxy Support: In the SpeechConfig object, you can now call a function to set the proxy information (hostname, port, username, and password). この機能は iOS ではまだ利用できません。This feature is not yet available on iOS.
  • 強化されたエラー コードとメッセージ。Improved error code and messages. 認識でエラーが返された場合、これは既に Reason (取り消されたイベントの場合) またはCancellationDetails (認識結果) を Error に設定します。If a recognition returned an error, this did already set Reason (in canceled event) or CancellationDetails (in recognition result) to Error. 取り消されたイベントに、2 つのメンバー ErrorCodeErrorDetails が含まれるようになりました。The canceled event now contains two additional members, ErrorCode and ErrorDetails. サーバーによって、報告されたエラーと一緒に追加のエラー情報が返された場合、これを新しいメンバーで使用できるようになります。If the server returned additional error information with the reported error, it will now be available in the new members.

機能強化Improvements

  • 認識エンジンの構成に検証が追加され、エラー メッセージが追加されました。Added additional verification in the recognizer configuration, and added additional error message.
  • オーディオ ファイル中の長時間のサイレント状態の処理が強化されました。Improved handling of long-time silence in middle of an audio file.
  • NuGet パッケージ: .NET Framework プロジェクトの場合、AnyCPU 構成でビルドされることを防ぎます。NuGet package: for .NET Framework projects, it prevents building with AnyCPU configuration.

バグの修正Bug fixes

  • 認識エンジンで見つかったいくつかの例外を修正しました。Fixed several exceptions found in recognizers. さらに例外がキャッチされ、Canceled イベントに変換されます。In addition, exceptions are caught and converted into Canceled event.
  • プロパティ管理のメモリ リークを修正しました。Fix a memory leak in property management.
  • オーディオ入力ファイルが認識エンジンをクラッシュする可能性があるバグを修正しました。Fixed bug in which an audio input file could crash the recognizer.
  • セッションがイベントを停止した後でイベントが受信されることがあるバグを修正しました。Fixed a bug where events could be received after a session stop event.
  • スレッド処理の一部の競合状態を修正しました。Fixed some race conditions in threading.
  • クラッシュの原因となる iOS の互換性の問題を修正しました。Fixed an iOS compatibility issue that could result in a crash.
  • Android のマイクのサポートのための安定性の向上。Stability improvements for Android microphone support.
  • JavaScript の認識エンジンが認識言語を無視するバグを修正しました。Fixed a bug where a recognizer in JavaScript would ignore the recognition language.
  • JavaScript で (場合によっては) EndpointId の設定を妨げるバグを修正しました。Fixed a bug preventing setting the EndpointId (in some cases) in JavaScript.
  • JavaScript の AddIntent のパラメーターの順序を変更し、不足している AddIntent JavaScript 署名を追加します。Changed parameter order in AddIntent in JavaScript, and added missing AddIntent JavaScript signature.

サンプルSamples

  • プルおよびプッシュ ストリームの使用のための C++ と C# のサンプルをサンプル リポジトリに追加しました。Added C++ and C# samples for pull and push stream usage in the sample repository.

Speech SDK 1.0.1Speech SDK 1.0.1

信頼性の向上とバグ修正Reliability improvements and bug fixes:

  • 認識エンジンの破棄での競合状態によって致命的なエラーが発生する可能性を修正しましたFixed potential fatal error due to race condition in disposing recognizer
  • 未設定のプロパティによって致命的なエラーが発生する可能性を修正しました。Fixed potential fatal error when unset properties occur.
  • 新しいエラーとパラメーターのチェックを追加しました。Added additional error and parameter checking.
  • Objective-C: NSString での名前のオーバーライドによって致命的なエラーが発生する可能性を修正しました。Objective-C: Fixed possible fatal error caused by name overriding in NSString.
  • Objective-C: API の可視性を調整しましたObjective-C: Adjusted visibility of API
  • JavaScript:イベントとそのペイロードに関して修正しました。JavaScript: Fixed regarding events and their payloads.
  • ドキュメントの改善。Documentation improvements.

サンプル リポジトリに、JavaScript の新しいサンプルを追加しました。In our sample repository, a new sample for JavaScript was added.

Cognitive Services Speech SDK 1.0.0: 2018-September リリースCognitive Services Speech SDK 1.0.0: 2018-September release

新機能New features

重大な変更Breaking changes

  • このリリースでは、重大な変更がいくつか行われています。With this release, a number of breaking changes are introduced. 詳細については、こちらのページを参照してください。Check this page for details.

Cognitive Services Speech SDK 0.6.0: 2018-August リリースCognitive Services Speech SDK 0.6.0: 2018-August release

新機能New features

  • Speech SDK で構築された UWP アプリは、Windows アプリ認定キット (WACK) に合格できるようになりました。UWP apps built with the Speech SDK now can pass the Windows App Certification Kit (WACK). UWP のクイック スタートに関するページをご覧ください。Check out the UWP quickstart.
  • Linux (Ubuntu 16.04 x 64) 上の .NET Standard 2.0 のサポート。Support for .NET Standard 2.0 on Linux (Ubuntu 16.04 x64).
  • 試験段階: Windows (64 ビット) および Linux (Ubuntu 16.04 x 64) での Java 8 サポート。Experimental: Support Java 8 on Windows (64-bit) and Linux (Ubuntu 16.04 x64). Java ランタイム環境のクイック スタートに関するページをご覧ください。Check out the Java Runtime Environment quickstart.

機能の変更点Functional change

  • 接続エラーに関する追加エラーの詳細情報が公開されました。Expose additional error detail information on connection errors.

重大な変更Breaking changes

  • Java (Android) で、SpeechFactory.configureNativePlatformBindingWithDefaultCertificate 関数にパス パラメーターが不要になりました。On Java (Android), the SpeechFactory.configureNativePlatformBindingWithDefaultCertificate function no longer requires a path parameter. サポートされているすべてのプラットフォームでパスが自動的に検出されるようになりました。Now the path is automatically detected on all supported platforms.
  • Java および C# のプロパティ EndpointUrl の get-accessor が削除されました。The get-accessor of the property EndpointUrl in Java and C# was removed.

バグの修正Bug fixes

  • Java で、翻訳認識エンジンの音声合成結果が実装されるようになりました。In Java, the audio synthesis result on the translation recognizer is implemented now.
  • 非アクティブなスレッドの原因となったり、未使用の開いたソケット数の増加の原因となったりするバグが修正されました。Fixed a bug that could cause inactive threads and an increased number of open and unused sockets.
  • 実行時間の長い認識が伝送の途中で終了する問題が修正されました。Fixed a problem, where a long-running recognition could terminate in the middle of the transmission.
  • 認識エンジンのシャットダウン時の競合状態を修正しました。Fixed a race condition in recognizer shutdown.

Cognitive Services Speech SDK 0.5.0: 2018-July リリースCognitive Services Speech SDK 0.5.0: 2018-July release

新機能New features

  • Android プラットフォーム (API 23: Android 6.0 Marshmallow 以降) をサポートします。Support Android platform (API 23: Android 6.0 Marshmallow or higher). Android クイック スタートをチェックアウトします。Check out the Android quickstart.
  • Windows 上の .NET Standard 2.0 をサポートします。Support .NET Standard 2.0 on Windows. .NET Core クイック スタートをチェックアウトします。Check out the .NET Core quickstart.
  • 試験段階: Windows 上での UWP のサポート (バージョン 1709 以降)。Experimental: Support UWP on Windows (version 1709 or later).
    • UWP のクイック スタートに関するページをご覧ください。Check out the UWP quickstart.
    • Speech SDK で構築された UWP アプリは、まだ Windows アプリ認定キット (WACK) に合格していないことに注意してください。Note that UWP apps built with the Speech SDK do not yet pass the Windows App Certification Kit (WACK).
  • 自動再接続を使用して、実行時間の長い認識をサポートします。Support long-running recognition with automatic reconnection.

機能の変更点Functional changes

  • StartContinuousRecognitionAsync() は、実行時間の長い認識をサポートします。StartContinuousRecognitionAsync() supports long-running recognition.
  • 認識結果に含まれるフィールドが増えました。The recognition result contains more fields. 認識されたテキストのオーディオの開始からのオフセットと期間 (どちらも単位はティック)、および認識状態を表す追加の値 (InitialSilenceTimeoutInitialBabbleTimeout など) です。They're offset from the audio beginning and duration (both in ticks) of the recognized text and additional values that represent recognition status, for example, InitialSilenceTimeout and InitialBabbleTimeout.
  • ファクトリ インスタンスを作成するための AuthorizationToken をサポートします。Support AuthorizationToken for creating factory instances.

重大な変更Breaking changes

  • 認識イベント: NoMatch のイベントの種類は、Error イベントにマージされました。Recognition events: NoMatch event type was merged into the Error event.
  • C# での SpeechOutputFormat は、C++ との整合性を維持するために OutputFormat に名前が変更されました。SpeechOutputFormat in C# was renamed to OutputFormat to stay aligned with C++.
  • AudioInputStream インターフェイスのいくつかのメソッドの戻り値の型が若干変更されました。The return type of some methods of the AudioInputStream interface changed slightly:
    • Java では、read メソッドが int の代わりに long を返すようになりました。In Java, the read method now returns long instead of int.
    • C# では、Read メソッドが int の代わりに uint を返すようになりました。In C#, the Read method now returns uint instead of int.
    • C++ では、Read および GetFormat メソッドが int の代わりに size_t を返すようになりました。In C++, the Read and GetFormat methods now return size_t instead of int.
  • C++: オーディオ入力ストリームのインスタンスを shared_ptr としてのみ渡すことができるようになりました。C++: Instances of audio input streams now can be passed only as a shared_ptr.

バグの修正Bug fixes

  • RecognizeAsync() がタイムアウトしたときの結果にある正しくない戻り値が修正されました。Fixed incorrect return values in the result when RecognizeAsync() times out.
  • Windows 上のメディア ファンデーション ライブラリへの依存関係が削除されました。The dependency on media foundation libraries on Windows was removed. SDK で Core Audio API が使用されるようになりました。The SDK now uses Core Audio APIs.
  • ドキュメントの修正: サポートされるリージョンを説明するためのリージョン ページが追加されました。Documentation fix: Added a regions page to describe the supported regions.

既知の問題Known issue

  • Android 用の Speech SDK では、翻訳のための音声合成の結果が報告されません。The Speech SDK for Android doesn't report speech synthesis results for translation. この問題は次のリリースで修正される予定です。This issue will be fixed in the next release.

Cognitive Services Speech SDK 0.4.0: 2018-June リリースCognitive Services Speech SDK 0.4.0: 2018-June release

機能の変更点Functional changes

  • AudioInputStreamAudioInputStream

    認識エンジンでは、オーディオ ソースとしてストリームを利用できるようになりました。A recognizer now can consume a stream as the audio source. 詳細については、関連するハウツー ガイドを参照してください。For more information, see the related how-to guide.

  • 出力形式の詳細Detailed output format

    SpeechRecognizer を作成するときに、Detailed または Simple 出力形式を要求できます。When you create a SpeechRecognizer, you can request Detailed or Simple output format. DetailedSpeechRecognitionResult には、信頼度スコア、認識されるテキスト、生の語彙形式、正規化形式、および不適切な内容がマスクされた正規化形式が含まれます。The DetailedSpeechRecognitionResult contains a confidence score, recognized text, raw lexical form, normalized form, and normalized form with masked profanity.

重大な変更Breaking change

  • C# で SpeechRecognitionResult.Text から SpeechRecognitionResult.RecognizedText に変更されました。Changed to SpeechRecognitionResult.Text from SpeechRecognitionResult.RecognizedText in C#.

バグの修正Bug fixes

  • シャットダウン中に USP レイヤーで発生する可能性のあるコールバックの問題を修正しました。Fixed a possible callback issue in the USP layer during shutdown.
  • 認識エンジンでオーディオ入力ファイルが使用されると、必要以上に長くファイル ハンドルが保持されていました。If a recognizer consumed an audio input file, it was holding on to the file handle longer than necessary.
  • メッセージ ポンプと認識エンジンの間の複数のデッドロックが削除されました。Removed several deadlocks between the message pump and the recognizer.
  • サービスからの応答がタイムアウトすると、結果は NoMatch になります。Fire a NoMatch result when the response from service is timed out.
  • Windows のメディア ファンデーション ライブラリは、遅延読み込みされます。The media foundation libraries on Windows are delay loaded. このライブラリは、マイク入力の場合のみ必要です。This library is required for microphone input only.
  • オーディオ データのアップロードの速度が、元の音声速度の約 2 倍に制限されます。The upload speed for audio data is limited to about twice the original audio speed.
  • Windows では、C# .NET アセンブリには厳密な名前が指定されるようになりました。On Windows, C# .NET assemblies now are strong named.
  • ドキュメントの修正: Region は、認識エンジンを作成するための必須情報です。Documentation fix: Region is required information to create a recognizer.

他のサンプルも追加されており、常に更新されます。More samples have been added and are constantly being updated. 最新のサンプル セットについては、Speech SDK のサンプルの GitHub リポジトリを参照してください。For the latest set of samples, see the Speech SDK samples GitHub repository.

Cognitive Services Speech SDK 0.2.12733: 2018-May リリースCognitive Services Speech SDK 0.2.12733: 2018-May release

このリリースは、Cognitive Services Speech SDK の最初のパブリック プレビュー リリースです。This release is the first public preview release of the Cognitive Services Speech SDK.