ملاحظات إصدار خدمة الكلام
راجع أدناه للحصول على معلومات حول التغييرات في خدمات الكلام والموارد.
ما الجديد؟
- تم إصدار Speech SDK 1.21.0 و Speech CLI 1.21.0 في أبريل 2022. يوجد مزيد من التفاصيل أدناه.
- تم إصدار حاوية تحويل الكلام إلى نص المخصصة الإصدار 3.1.0 في مارس 2022، مع دعم للحصول على نماذج العرض.
- خدمة TTS مارس 2022، معاينة عامة للأنماط المبهجة والحزن مع fr-FR-DeniseNeural.
- خدمة TTS فبراير 2022، المعاينة العامة ل Custom Neural Voice Lite، تمديد دعم لغة CNV إلى 49 لغة محلية.
ملاحظات الإصدار
اختيار خدمة أو مورد
Speech SDK 1.21.0: إصدار أبريل 2022
ميزات جديدة
- جافا & JavaScript: تمت إضافة دعم لتعريف اللغة المستمرة عند استخدام كائن SpeechRecognizer
- JavaScript: تمت إضافة واجهات برمجة تطبيقات التشخيص لتمكين مستوى تسجيل وحدة التحكم وتسجيل الملفات (العقدة فقط)، لمساعدة Microsoft على استكشاف المشكلات التي أبلغ عنها العميل وإصلاحها
- Python: دعم إضافي لنسخ المحادثة
- Go: دعم إضافي للتعرف على المتحدث
- C + + & C#: تمت إضافة دعم لمجموعة مطلوبة من الكلمات في Intent Recognizer (مطابقة النمط البسيط). على سبيل المثال: "(set|start|begin) مؤقت" حيث يجب أن يكون "set" أو "start" أو "begin" موجودا للهدف الذي سيتم التعرف عليه.
- جميع لغات البرمجة، تجميع الكلام: خاصية المدة المضافة في أحداث حدود الكلمات. دعم إضافي لحد علامات الترقيم وحدود الجملة
- Objective-C/Swift/Java: تمت إضافة نتائج على مستوى الكلمات على كائن نتيجة تقييم النطق (مشابه ل C#). لم يعد التطبيق بحاجة إلى تحليل سلسلة نتائج JSON للحصول على معلومات على مستوى الكلمات (مشكلة GitHub)
- النظام الأساسي لنظام التشغيل iOS: تمت إضافة دعم تجريبي لبنية ARMv7
إصلاحات الأخطاء
- النظام الأساسي لنظام التشغيل iOS: إصلاح للسماح بالبناء للهدف "أي جهاز iOS"، عند استخدام Cocoapod (مشكلة GitHub)
- نظام Android الأساسي: تم تحديث إصدار OpenSSL إلى 1.1.1n لإصلاح الثغرة الأمنية CVE-2022-0778
- JavaScript: إصلاح مشكلة عدم تحديث رأس wav بحجم الملف (مشكلة GitHub)
- JavaScript: إصلاح مشكلة إلغاء مزامنة معرف الطلب لسيناريوهات الترجمة (مشكلة GitHub)
- JavaScript: إصلاح المشكلة عند إنشاء مثيل SpeakerAudioDestination بدون دفق (مشكلة GitHub]
- C++: إصلاح رؤوس C++ لإزالة تحذير عند التحويل البرمجي ل C++17 أو الإصدارات الأحدث
عينات GitHub
- نماذج Java جديدة للتعرف على الكلام مع تحديد اللغة
- عينات PythonوJava جديدة لنسخ المحادثة
- نموذج Go جديد للتعرف على المتحدث
- أداة C++ وC# جديدة Windows تقوم بتعداد جميع أجهزة التقاط الصوت وعرضه، لغرض العثور على معرف الجهاز الخاص بها. هذا المعرف مطلوب بواسطة Speech SDK إذا كنت تخطط لالتقاط الصوت من جهاز غير افتراضي أو عرض الصوت إليه.
Speech SDK 1.20.0: إصدار يناير 2022
ميزات جديدة
- Objective-C وSwift وPython: دعم إضافي ل DialogServiceConnector، المستخدم لسيناريوهات مساعد الصوت.
- Python: تمت إضافة دعم Python 3.10. تمت إزالة دعم Python 3.6، لكل نهاية حياة Python ل 3.6.
- Unity: يتم الآن دعم Speech SDK لتطبيقات Unity على Linux.
- C++، C#: IntentRecognizer باستخدام مطابقة النمط مدعوم الآن في C#. بالإضافة إلى ذلك، يتم الآن دعم السيناريوهات ذات الكيانات المخصصة والمجموعات الاختيارية وأدوار الكيان في C++ وC#.
- C++، C#: تسجيل تتبع التشخيص المحسن باستخدام فئات جديدة FileLogger وDy memoryLogger وDyventLogger. تعد سجلات SDK أداة مهمة لشركة Microsoft لتشخيص المشكلات التي أبلغ عنها العميل. تسهل هذه الفئات الجديدة على العملاء دمج سجلات Speech SDK في نظام التسجيل الخاص بهم.
- جميع لغات البرمجة: لدى PronciationAssessmentConfig الآن خصائص لتعيين الأبجدية الصوتية المطلوبة (IPA أو SAPI) وN-Best Phoneme Count (تجنب الحاجة إلى تأليف تكوين JSON وفقا لقضية GitHub 1284). أيضا، يتم الآن دعم إخراج مستوى المقطع.
- Android وiOS وMacOS (جميع لغات البرمجة): لم تعد هناك حاجة إلى GStreamer لدعم شبكات النطاق الترددي المحدود. يستخدم SpeechSynthesizer الآن قدرات فك ترميز الصوت لنظام التشغيل لفك تشفير الصوت المضغوط المتدفق من خدمة تحويل النص إلى كلام.
- جميع لغات البرمجة: يدعم SpeechSynthesizer الآن ثلاثة تنسيقات جديدة للإخراج الخام Opus (بدون حاوية)، والتي تستخدم على نطاق واسع في سيناريوهات البث المباشر.
- JavaScript: تمت إضافة واجهة برمجة تطبيقات getVoicesAsync() إلى SpeechSynthesizer لاسترداد قائمة أصوات التركيب المدعومة (GitHub الإصدار 1350)
- JavaScript: تمت إضافة واجهة برمجة تطبيقات getWaveFormat() إلى AudioStreamFormat لدعم تنسيقات موجة غير PCM (GitHub المشكلة 452)
- JavaScript: واجهات برمجة تطبيقات JavaScript المضافة getter/setter و mute()/unmute() إلى SpeakerAudioDestination (GitHub المشكلة 463)
إصلاحات الأخطاء
- C++، وC#، وJava، وJavaScript، و Objective-C، و Swift: إصلاح لإزالة تأخير 10 ثوان أثناء إيقاف أداة التعرف على الكلام التي تستخدم PushAudioInputStream. هذا هو الحال حيث لا يتم دفع أي صوت جديد بعد استدعاء StopContinuousRecognition (GitHub المشكلات 1318، 331)
- Unity على Android وUWP: تم إصلاح ملفات تعريف Unity ل UWP وAndroid ARM64 نظام Windows الفرعي لـ Android (WSA) ARM64 (GitHub المشكلة 1360)
- iOS: تم الآن إصلاح تجميع تطبيق Speech SDK على أي جهاز iOS عند استخدام CocoaPods (GitHub الإصدار 1320)
- iOS: عند تكوين SpeechSynthesizer لإخراج الصوت مباشرة إلى سماعة، توقف التشغيل في البداية في حالات نادرة. تم إصلاح ذلك.
- JavaScript: استخدم معالج البرنامج النصي الاحتياطي لإدخال الميكروفون إذا لم يتم العثور على أي عمل صوتي (GitHub المشكلة 455)
- JavaScript: إضافة بروتوكول إلى العامل للتخفيف من الخطأ الذي تم العثور عليه مع تكامل Sentry (GitHub المشكلة 465)
عينات GitHub
- نماذج C++، وC#، وPython، وJava توضح كيفية الحصول على نتائج التعرف التفصيلية. تتضمن التفاصيل نتائج التعرف البديلة، ودرجة الثقة، والنموذج المعجمي، والنموذج العادي، والنموذج المقنع الذي تمت تسويته، مع توقيت على مستوى الكلمات لكل منها.
- تمت إضافة نموذج iOS باستخدام AVFoundation كمصدر صوت خارجي.
- تمت إضافة نموذج Java لإظهار كيفية الحصول على تنسيق SRT (نص SubRip) باستخدام حدث WordBoundary.
- عينات Android لتقييم النطق.
- يعرض C++، C# استخدام فئات تسجيل التشخيص الجديدة.
Speech SDK 1.19.0: إصدار 2021-نوفمبر
أهم العناصر المميّزة
خدمة التعرف على المتحدث متاحة بشكل عام (GA) الآن. تتوفر واجهات برمجة تطبيقات Speech SDK على C++، وC#، وJava، وJavaScript. باستخدام التعرف على المتحدث، يمكنك التحقق من السماعات وتحديدها بدقة من خلال خصائصها الصوتية الفريدة. راجع الوثائق لمزيد من التفاصيل.
لقد أسقطنا الدعم ل Ubuntu 16.04 بالتزامن مع Azure DevOps GitHub. وصل Ubuntu 16.04 إلى نهاية الحياة مرة أخرى في أبريل 2021. يرجى ترحيل مهام سير عمل Ubuntu 16.04 إلى Ubuntu 18.04 أو أحدث.
تم تغيير ارتباط OpenSSL في ثنائيات Linux إلى ديناميكي. تم تقليل الحجم الثنائي لنظام Linux بنسبة 50٪ تقريبا.
تمت إضافة دعم السيليكون المستند إلى Mac M1 ARM.
ميزات جديدة
C++/C#/Java: تمت إضافة واجهات برمجة تطبيقات جديدة لتمكين دعم معالجة الصوت لإدخال الكلام باستخدام Microsoft Audio Stack. الوثائق هنا.
C++: واجهات برمجة التطبيقات الجديدة للتعرف على الهدف لتسهيل مطابقة النمط الأكثر تقدما. ويشمل ذلك كيانات القائمة والأعداد الصحيحة التي تم إنشاؤها مسبقا بالإضافة إلى دعم أهداف التجميع والكيانات كنماذج (الوثائق والتحديثات والعينات قيد التطوير وسيتم نشرها في المستقبل القريب).
Mac: دعم حزم السيليكون المستندة إلى ARM64 (M1) لحزم Cocoapod وPython وJava وNuGet المتعلقة بالقضية GitHub 1244.
iOS/Mac: يتم الآن حزم ثنائيات iOS وmacOS في xcframework المتعلقة بإصدار GitHub 919.
iOS/Mac: دعم محفز Mac المتعلق بإصدار GitHub 1171.
Linux: تمت إضافة حزمة tar جديدة ل CentOS7 حول Speech SDK. تحتوي حزمة Linux .tar الآن على مكتبات محددة ل RHEL/CentOS 7 في
lib/centos7-x64. لا تزال مكتبات Speech SDK في lib/x64 قابلة للتطبيق على جميع توزيعات Linux x64 المدعومة الأخرى (بما في ذلك RHEL/CentOS 8) ولن تعمل على RHEL/CentOS 7.JavaScript: واجهات برمجة تطبيقات VoiceProfile & SpeakerRecognizer غير متزامنة/قابلة للانتظار.
JavaScript: تمت إضافة الدعم لمناطق Azure الحكومية الأمريكية.
Windows: تمت إضافة الدعم للتشغيل على النظام الأساسي العام لـ Windows (UWP).
إصلاحات الأخطاء
Android: تحديث أمان OpenSSL (محدث إلى الإصدار 1.1.1l) لحزم Android.
Python: تم حل الخطأ حيث يفشل تحديد جهاز السماعة على Python.
Core: إعادة الاتصال تلقائيا عند فشل محاولة الاتصال.
iOS: تم تعطيل ضغط الصوت على حزم iOS بسبب عدم الاستقرار ومشاكل إنشاء bitcode عند استخدام GStreamer. تتوفر التفاصيل عبر GitHub الإصدار 1209.
عينات GitHub
Mac/iOS: العينات المحدثة وقوالب التشغيل السريع لاستخدام حزمة xcframework.
.NET: تم تحديث العينات لاستخدام إصدار .NET core 3.1.
JavaScript: تمت إضافة عينة للمساعدين الصوتيين.
Speech SDK 1.18.0: إصدار 2021-يوليو
ملاحظة: ابدأ باستخدام Speech SDK هنا.
ملخص أهم النقاط
- بلغ Ubuntu 16.04 نهاية العمر الافتراضي في أبريل 2021. بالتزامن مع Azure DevOps GitHub، سننخفض الدعم ل 16.04 في سبتمبر 2021. يرجى ترحيل مهام سير عمل ubuntu-16.04 إلى ubuntu-18.04 أو أحدث قبل ذلك.
ميزات جديدة
- C++: يسهل الآن مطابقة نمط اللغة البسيط مع Intent Recognizer تنفيذ سيناريوهات التعرف على الهدف البسيطة.
- C++/C#/Java: أضفنا واجهة برمجة تطبيقات جديدة إلى
GetActivationPhrasesAsync()VoiceProfileClientالفئة لتلقي قائمة بعبارات التنشيط الصالحة في مرحلة تسجيل التعرف على المتحدث لسيناريوهات التعرف المستقلة.- هام: ميزة التعرف على المتحدث في المعاينة. سيتم إيقاف جميع ملفات التعريف الصوتية التي تم إنشاؤها في المعاينة بعد 90 يوما من نقل ميزة التعرف على المتحدث خارج المعاينة إلى التوفر العام. عند هذه النقطة، ستتوقف ملفات تعريف الصوت Preview عن العمل.
- Python: دعم إضافي لتعريف اللغة المستمر (LID) على العناصر
SpeechRecognizerالموجودة والعناصرTranslationRecognizer. - Python: تمت إضافة كائن Python جديد باسم
SourceLanguageRecognizerللقيام ب LID لمرة واحدة أو مستمرة (دون التعرف أو الترجمة). - JavaScript:
getActivationPhrasesAsyncتمت إضافة واجهة برمجة التطبيقات إلىVoiceProfileClientالفئة لتلقي قائمة بعبارات التنشيط الصالحة في مرحلة تسجيل التعرف على المتحدث لسيناريوهات التعرف المستقلة. - JavaScript
VoiceProfileClient' senrollProfileAsyncAPI هو الآن غير متزامنة في انتظار. راجع رمز التعريف المستقل هذا على سبيل المثال الاستخدام.
التحسينات
- Java: تمت إضافة دعم AutoCloseable إلى العديد من كائنات Java. الآن يتم دعم نموذج try-with-resources لتحرير الموارد. راجع هذا النموذج الذي يستخدم try-with-resources. راجع أيضا البرنامج التعليمي لوثائق Oracle Java لبيان تجربة الموارد للتعرف على هذا النمط.
- تم تقليل بصمة القرص بشكل كبير للعديد من الأنظمة الأساسية والبنى. أمثلة للثنائي
Microsoft.CognitiveServices.Speech.core: x64 Linux أصغر ب 475 كيلوبايت (تقليل بنسبة 8.0٪)؛ ARM64 Windows UWP أصغر ب 464 كيلوبايت (تقليل بنسبة 11.5٪)؛ x86 Windows أصغر ب 343 كيلوبايت (تقليل بنسبة 17.5٪)؛ وx64 Windows أصغر ب 451 كيلوبايت (تقليل بنسبة 19.4٪).
إصلاحات الأخطاء
- Java: تم إصلاح خطأ التركيب عندما يحتوي نص التركيب على أحرف بديلة. التفاصيل هنا.
- JavaScript: تستخدم
AudioWorkletNodeمعالجة صوت ميكروفون المستعرض الآن بدلا من إهمال .ScriptProcessorNodeالتفاصيل هنا. - JavaScript: حافظ على بقاء المحادثات على قيد الحياة بشكل صحيح أثناء سيناريوهات ترجمة المحادثات طويلة الأمد. التفاصيل هنا.
- JavaScript: تم إصلاح مشكلة إعادة اتصال أداة التعرف ب mediastream في التعرف المستمر. التفاصيل هنا.
- JavaScript: تم إصلاح مشكلة إعادة اتصال أداة التعرف ب pushStream في التعرف المستمر. التفاصيل هنا.
- JavaScript: حساب إزاحة مستوى الكلمة المصحح في نتائج التعرف التفصيلية. التفاصيل هنا.
عينات
- تم تحديث نماذج التشغيل السريع ل Java هنا.
- تم تحديث نماذج التعرف على مكبر صوت JavaScript لإظهار الاستخدام الجديد ل
enrollProfileAsync(). راجع العينات هنا.
Speech SDK 1.17.0: إصدار 2021-May
ملاحظة
ابدأ باستخدام Speech SDK هنا.
ملخص أهم النقاط
- بصمة أصغر - نواصل تقليل الذاكرة وبصمة القرص ل Speech SDK ومكوناته.
- تتيح لك واجهة برمجة تطبيقات تعريف اللغة المستقلة الجديدة التعرف على اللغة التي يتم التحدث بها.
- تطوير تطبيقات الحقيقة المختلطة والألعاب الممكنة للكلام باستخدام Unity على macOS.
- يمكنك الآن استخدام تحويل النص إلى كلام بالإضافة إلى التعرف على الكلام من لغة البرمجة Go.
- تم وضع علامة على العديد من إصلاحات الأخطاء لمعالجة المشكلات التي قمت أنت، عملائنا القيمين، بوضع علامة عليها على GitHub! شكرا! استمر في تقديم الملاحظات!
ميزات جديدة
- C++/C#: At-Start مستقل جديد واكتشاف اللغة المستمرة عبر
SourceLanguageRecognizerواجهة برمجة التطبيقات. إذا كنت تريد فقط الكشف عن اللغة (اللغات) المنطوقة في محتوى الصوت، فهذه هي واجهة برمجة التطبيقات للقيام بذلك. راجع تفاصيل C++وC#. - C++/C#: يدعم التعرف على الكلام والتعرف على الترجمة الآن تعريف اللغة في البداية والمستمر حتى تتمكن من تحديد اللغة (اللغات) التي يتم التحدث بها برمجيا قبل نسخها أو ترجمتها. راجع الوثائق هنا للتعرف على الكلاموهنا لترجمة الكلام.
- C#: دعم إضافي ل Unity لدعم macOS (x64). هذا يفتح التعرف على الكلام وحالات استخدام تركيب الكلام في الحقيقة المختلطة والألعاب!
- Go: أضفنا دعما لتجميع الكلام/تحويل النص إلى كلام إلى لغة البرمجة Go لتوفير تركيب الكلام في حالات استخدام أكثر. راجع دليل التشغيل السريع أو وثائقنا المرجعية.
- C++/C#/Java/Python/Objective-C/Go: يدعم
connectionتركيب الكلام الآن الكائن. يساعدك هذا على إدارة الاتصال بخدمة Speech ومراقبته، وهو مفيد بشكل خاص للاتصال المسبق لتقليل زمن الانتقال. راجع الوثائق هنا. - C++/C#/Java/Python/Objective-C/Go: نكشف الآن زمن الانتقال ونقل الوقت لمساعدتك في
SpeechSynthesisResultمراقبة مشكلات زمن انتقال تركيب الكلام وتشخيصها. راجع تفاصيل C++، C#، Java، Python، Objective-CوGo. - C++/C#/Java/Python/Objective-C: يستخدم تحويل النص إلى كلام الآن أصواتا عصبية بشكل افتراضي عندما لا تحدد صوتا لاستخدامه. يمنحك هذا إخراج دقة أعلى بشكل افتراضي، ولكنه يزيد أيضا السعر الافتراضي. يمكنك تحديد أي من أكثر من 70 صوتا قياسيا أو أكثر من 130 صوتا عصبيا لتغيير الإعداد الافتراضي.
- C++/C#/Java/Python/Objective-C/Go: أضفنا خاصية "الجنس" إلى المعلومات الصوتية التركيبية لتسهيل تحديد الأصوات استنادا إلى نوع الجنس. يعالج هذا GitHub المشكلة #1055.
- C++، C#، Java، JavaScript: ندعم الآن
retrieveEnrollmentResultAsync،getAuthorizationPhrasesAsyncو، وgetAllProfilesAsync()في التعرف على السماعة لتسهيل إدارة المستخدم لجميع ملفات التعريف الصوتية لحساب معين. راجع وثائق C++، وC#، وJava، وJavaScript. يعالج هذا GitHub المشكلة #338. - JavaScript: أضفنا إعادة المحاولة لفشل الاتصال الذي سيجعل تطبيقات الكلام المستندة إلى JavaScript أكثر قوة.
التحسينات
- تم تحديث ثنائيات Linux وAndroid Speech SDK لاستخدام أحدث إصدار من OpenSSL (1.1.1k)
- تحسينات حجم التعليمات البرمجية:
- يتم الآن تقسيم فهم اللغة إلى مكتبة "lu" منفصلة.
- Windows انخفض الحجم الثنائي الأساسي x64 بنسبة 14.4٪.
- انخفض الحجم الثنائي الأساسي ل Android ARM64 بنسبة 13.7٪.
- كما انخفضت المكونات الأخرى في الحجم.
إصلاحات الأخطاء
- الكل: تم إصلاح مشكلة GitHub #842 ل ServiceTimeout. يمكنك الآن نسخ ملفات صوتية طويلة جدا باستخدام Speech SDK دون الاتصال بالخدمة التي تنتهي بهذا الخطأ. ومع ذلك، ما زلنا نوصي باستخدام النسخ الدفعي للملفات الطويلة.
- C#: تم إصلاح مشكلة GitHub #947 حيث لا يمكن لإدخال الكلام ترك تطبيقك في حالة سيئة.
- Java: تم إصلاح مشكلة GitHub #997 حيث يتعطل Java Speech SDK 1.16 عند استخدام DialogServiceConnector دون اتصال بالشبكة أو مفتاح اشتراك غير صالح.
- تم إصلاح العطل عند إيقاف التعرف على الكلام فجأة (على سبيل المثال، استخدام CTRL+C على تطبيق وحدة التحكم).
- Java: تمت إضافة إصلاح لحذف الملفات المؤقتة على Windows عند استخدام Java Speech SDK.
- Java: تم إصلاح مشكلة GitHub #994 حيث قد يؤدي الاستدعاء
DialogServiceConnector.stopListeningAsyncإلى حدوث خطأ. - Java: تم إصلاح مشكلة العميل في التشغيل السريع المساعد الظاهري.
- JavaScript: تم إصلاح مشكلة GitHub #366 حيث
ConversationTranslatorتم طرح خطأ "this.cancelSpeech ليست دالة". - JavaScript: تم إصلاح مشكلة GitHub #298 حيث تم تشغيل عينة "الحصول على النتيجة كتدفق في الذاكرة" بصوت عال.
- JavaScript: تم إصلاح مشكلة GitHub #350 حيث قد يؤدي الاستدعاء
AudioConfigإلى "ReferenceError: MediaStream غير محدد". - JavaScript: تم إصلاح تحذير UnhandledPromiseRejection في Node.js للجلسات طويلة الأمد.
عينات
- وثائق عينات Unity المحدثة لنظام التشغيل macOS هنا.
- يتوفر الآن نموذج React Native لخدمة التعرف على الكلام للخدمات المعرفية هنا.
Speech SDK 1.16.0: إصدار 2021-مارس
ملاحظة
تعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشتركة ل Visual Studio 2015 و2017 و2019. قم بتنزيله هنا.
ميزات جديدة
- C++/C#/Java/Python: انتقل إلى أحدث إصدار من GStreamer (1.18.3) لإضافة دعم لنسخ أي تنسيق وسائط على Windows وLinux وAndroid. راجع الوثائق هنا.
- C++/C#/Java/Objective-C/Python: تمت إضافة دعم لفك ترميز الصوت المضغوط TTS/المركب إلى SDK. إذا قمت بتعيين تنسيق صوت الإخراج إلى PCM وكان GStreamer متوفرا على النظام الخاص بك، فسيطلب SDK الصوت المضغوط تلقائيا من الخدمة لحفظ النطاق الترددي وفك تشفير الصوت على العميل. يمكنك تعيين
SpeechServiceConnection_SynthEnableCompressedAudioTransmissionلتعطيلfalseهذه الميزة. تفاصيل C ++، C#، Java، Objective-C، Python. - JavaScript: يمكن للمستخدمين Node.js الآن استخدام
AudioConfig.fromWavFileInputواجهة برمجة التطبيقات. يعالج هذا GitHub المشكلة #252. - C++/C#/Java/Objective-C/Python: طريقة إضافية
GetVoicesAsync()ل TTS لإرجاع جميع الأصوات التركيبية المتوفرة. تفاصيل C++، C#، Java، Objective-C، وPython. - C++/C#/Java/JavaScript/Objective-C/Python: حدث إضافي
VisemeReceivedلتركيب TTS/الكلام لإرجاع حركة viseme متزامنة. راجع الوثائق هنا. - C++/C#/Java/JavaScript/Objective-C/Python: حدث إضافي
BookmarkReachedل TTS. يمكنك تعيين الإشارات المرجعية في إدخال SSML والحصول على إزاحات الصوت لكل إشارة مرجعية. راجع الوثائق هنا. - Java: دعم إضافي لواجهات برمجة تطبيقات التعرف على المتحدث. التفاصيل هنا.
- C++/C#/Java/JavaScript/Objective-C/Python: تمت إضافة تنسيقين جديدين لصوت الإخراج باستخدام حاوية WebM ل TTS (Webm16Khz16BitMonoOpus وWebm24Khz16BitMonoOpus). هذه تنسيقات أفضل لبث الصوت باستخدام برنامج ترميز Opus. تفاصيل C ++، C#، Java، JavaScript، Objective-C، Python.
- C++/C#/Java: تمت إضافة دعم لاسترداد ملف التعريف الصوتي لسيناريو التعرف على المتحدث. تفاصيل C++، وC#، وJava.
- C++/C#/Java/Objective-C/Python: تمت إضافة دعم لمكتبة مشتركة منفصلة لميكروفون الصوت والتحكم في السماعة. يسمح هذا للمطور باستخدام SDK في البيئات التي لا تحتوي على تبعيات مكتبة الصوت المطلوبة.
- Objective-C/Swift: دعم إضافي لإطار عمل الوحدة النمطية مع رأس مظلة. يسمح هذا للمطور باستيراد Speech SDK كوحدة نمطية في تطبيقات iOS/Mac Objective-C/Swift. يعالج هذا GitHub المشكلة #452.
- Python: تمت إضافة دعم ل Python 3.9 وتراجع الدعم ل Python 3.5 لكل نهاية حياة Python لمدة 3.5.
المشكلات المعروفة
- C++/C#/Java:
DialogServiceConnectorلا يمكن استخدامCustomCommandsConfigللوصول إلى تطبيق أوامر مخصصة وستواجه بدلا من ذلك خطأ في الاتصال. يمكن حل هذه المشكلة عن طريق إضافة معرف التطبيق يدويا إلى الطلب باستخدامconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). ستتم استعادة السلوكCustomCommandsConfigالمتوقع في الإصدار التالي.
التحسينات
- كجزء من جهودنا متعددة الإصدارات لتقليل استخدام ذاكرة Speech SDK وبصمة القرص، أصبحت ثنائيات Android الآن أصغر بنسبة 3٪ إلى 5٪ .
- الأقسام المحسنة للدقة وقابلية القراءة والاطلاع أيضا على الوثائق المرجعية ل C# هنا.
إصلاحات الأخطاء
- JavaScript: يتم الآن تحليل رؤوس ملفات WAV الكبيرة بشكل صحيح (يزيد شريحة الرأس إلى 512 بايت). يعالج هذا GitHub المشكلة #962.
- JavaScript: تم تصحيح مشكلة توقيت الميكروفون إذا انتهى دفق الميكروفون قبل إيقاف التعرف، ومعالجة مشكلة عدم عمل "التعرف على الكلام" في Firefox.
- JavaScript: نتعامل الآن بشكل صحيح مع وعد التهيئة عندما يفرض المستعرض إيقاف تشغيل الميكروفون قبل اكتمال turnOn.
- JavaScript: استبدلنا تبعية عنوان URL بتحليل url. يعالج هذا GitHub المشكلة #264.
- Android: عمليات رد الاتصال الثابتة لا تعمل عند
minifyEnabledتعيينها إلى true. - C++/C#/Java/Objective-C/Python:
TCP_NODELAYسيتم تعيينه بشكل صحيح إلى IO مأخذ التوصيل الأساسي ل TTS لتقليل زمن الانتقال. - C++/C#/Java/Python/Objective-C/Go: تم إصلاح العطل العرضي عند تدمير أداة التعرف بعد بدء التعرف.
- C++/C#/Java: تم إصلاح تعطل عرضي في تدمير أداة التعرف على المتحدث.
عينات
- JavaScript: لم تعد عينات المستعرض تتطلب تنزيل ملف مكتبة JavaScript منفصلا.
Speech SDK 1.15.0: إصدار 2021-يناير
ملاحظة
تعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشتركة ل Visual Studio 2015 و2017 و2019. قم بتنزيله هنا.
ملخص أهم النقاط
- ذاكرة أصغر وبصمة القرص مما يجعل SDK أكثر كفاءة.
- تتوفر تنسيقات إخراج دقة أعلى للمعاينة الخاصة بالصوت العصبي المخصص.
- يمكن ل Intent Recognizer الآن الحصول على عائد أكثر من الهدف الأعلى، مما يمنحك القدرة على إجراء تقييم منفصل حول هدف العميل الخاص بك.
- أصبح إعداد المساعدين الصوتيين والروبوتات أسهل الآن، ويمكنك جعله يتوقف عن الاستماع على الفور، وممارسة تحكم أكبر في كيفية استجابته للأخطاء.
- تم تحسين أداء الجهاز من خلال جعل الضغط اختياريا.
- استخدم Speech SDK على Windows ARM/ARM64.
- تحسين تصحيح الأخطاء منخفض المستوى.
- تتوفر الآن ميزة تقييم النطق على نطاق أوسع.
- تم وضع علامة على العديد من إصلاحات الأخطاء لمعالجة المشكلات التي قمت أنت، عملاؤنا القيمون، بوضع علامة عليها على GitHub! شكرا! استمر في تقديم الملاحظات!
التحسينات
- أصبح Speech SDK الآن أكثر كفاءة وخفة الوزن. لقد بدأنا جهدا متعدد الإصدارات لتقليل استخدام ذاكرة Speech SDK وبصمة القرص. كخطوة أولى، قمنا بإجراء تخفيضات كبيرة في حجم الملفات في المكتبات المشتركة على معظم الأنظمة الأساسية. مقارنة بإصدار 1.14:
- مكتبات Windows المتوافقة مع UWP 64 بت أصغر بنسبة 30٪ تقريبا.
- لا ترى مكتبات Windows 32 بت بعد تحسنا في الحجم.
- مكتبات Linux أصغر بنسبة 20-25٪ .
- مكتبات Android أصغر بنسبة 3-5٪ .
ميزات جديدة
- الكل: تتوفر تنسيقات إخراج 48 كيلوهرتز جديدة للمعاينة الخاصة للصوت العصبي المخصص من خلال TTS speech synthesis API: Audio48Khz192KBitRateMonoMp3، audio-48khz-192kbitrate-mono-mp3، Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
- الكل: الصوت المخصص أسهل أيضا في الاستخدام. تمت إضافة دعم لإعداد الصوت المخصص عبر
EndpointId(C++، C#، Java، JavaScript، Objective-C، Python). قبل هذا التغيير، كان المستخدمون الصوتيون المخصصون بحاجة إلى تعيين عنوان URL لنقطة النهاية عبرFromEndpointالأسلوب . الآن يمكن للعملاء استخدامFromSubscriptionالأسلوب تماما مثل الأصوات التي تم إنشاؤها مسبقا، ثم توفير معرف النشر عن طريق إعدادEndpointId. وهذا يبسط إعداد الأصوات المخصصة. - C++/C#/Java/Objective-C/Python: احصل على أكثر من الهدف الأعلى من
IntentRecognizer. وهو يدعم الآن تكوين نتيجة JSON التي تحتوي على جميع الأهداف وليس فقط هدف تسجيل النقاط الأعلى عبرLanguageUnderstandingModel FromEndpointالأسلوب باستخدامverbose=trueمعلمة uri. يعالج هذا GitHub المشكلة #880. راجع الوثائق المحدثة هنا. - C++/C#/Java: اجعل المساعد الصوتي أو الروبوت يتوقف عن الاستماع على الفور.
DialogServiceConnector(C++، C#، Java) الآن لديهStopListeningAsync()أسلوب لمرافقتهListenOnceAsync(). سيؤدي هذا إلى إيقاف التقاط الصوت على الفور والانتظار بأمان للحصول على نتيجة، ما يجعله مثاليا للاستخدام مع سيناريوهات الضغط على زر "التوقف الآن". - C++/C#/Java/JavaScript: اجعل المساعد الصوتي أو الروبوت يتفاعل بشكل أفضل مع أخطاء النظام الأساسية.
DialogServiceConnector(C++، C#، Java، JavaScript) لديه الآن معالج أحداث جديدTurnStatusReceived. تتوافق هذه الأحداث الاختيارية مع كلITurnContextدقة على الروبوت وستبلغ عن فشل التنفيذ عند حدوثها، على سبيل المثال، نتيجة استثناء غير معالج أو مهلة أو انخفاض في الشبكة بين Direct Line Speech والروبوت.TurnStatusReceivedيسهل الاستجابة لشروط الفشل. على سبيل المثال، إذا استغرق الروبوت وقتا طويلا في استعلام قاعدة البيانات الخلفية (على سبيل المثال، البحث عن منتج)،TurnStatusReceivedيسمح للعميل بمعرفة أن يتكرر مع "عذرا، لم أحصل على ذلك تماما، هل يمكنك المحاولة مرة أخرى" أو شيء مشابه. - C++/C#: استخدم Speech SDK على المزيد من الأنظمة الأساسية. تدعم حزمة Speech SDK NuGet الآن Windows ثنائيات سطح المكتب الأصلية ARM/ARM64 (تم دعم UWP بالفعل) لجعل Speech SDK أكثر فائدة على المزيد من أنواع الأجهزة.
- Java:
DialogServiceConnectorالآن لديهsetSpeechActivityTemplate()أسلوب تم استبعاده عن غير قصد من اللغة مسبقا. وهذا يعادل تعيين الخاصيةConversation_Speech_Activity_Templateوسيطلب أن تقوم جميع أنشطة Bot Framework المستقبلية التي نشأت بواسطة خدمة Direct Line Speech بدمج المحتوى المقدم في حمولات JSON الخاصة بهم. - Java: تصحيح الأخطاء منخفض المستوى محسن. تحتوي
Connectionالفئة الآن علىMessageReceivedحدث، على غرار لغات البرمجة الأخرى (C++، C#). يوفر هذا الحدث وصولا منخفض المستوى إلى البيانات الواردة من الخدمة ويمكن أن يكون مفيدا للتشخيص وتصحيح الأخطاء. - JavaScript: إعداد أسهل للمساعدين الصوتيين والروبوتات من خلال
BotFrameworkConfig، والذي يحتويfromHost()الآن على أساليب المصنعfromEndpoint()التي تبسط استخدام مواقع الخدمة المخصصة مقابل تعيين الخصائص يدويا. كما قمنا بتوحيد المواصفات الاختياريةbotIdلاستخدام روبوت غير افتراضي عبر مصانع التكوين. - JavaScript: تم تحسينه على أداء الجهاز من خلال خاصية التحكم في السلسلة المضافة لضغط websocket. لأسباب تتعلق بالأداء، قمنا بتعطيل ضغط websocket بشكل افتراضي. يمكن إعادة تمكين هذا لسيناريوهات النطاق الترددي المنخفض. مزيد من التفاصيل هنا. يعالج هذا GitHub المشكلة #242.
- JavaScript: دعم إضافي لتقييم lPronunciation لتمكين تقييم نطق الكلام. راجع التشغيل السريع هنا.
إصلاحات الأخطاء
- الكل (باستثناء JavaScript): تم إصلاح الانحدار في الإصدار 1.14، حيث تم تخصيص الكثير من الذاكرة من قبل أداة التعرف.
- C++: تم إصلاح مشكلة تجميع البيانات المهملة باستخدام
DialogServiceConnector، ومعالجة مشكلة GitHub #794. - C#: تم إصلاح مشكلة إيقاف تشغيل مؤشر الترابط التي تسببت في حظر العناصر لمدة ثانية تقريبا عند التخلص منها.
- C++/C#/Java: تم إصلاح استثناء يمنع التطبيق من تعيين الرمز المميز لتخويل الكلام أو قالب النشاط أكثر من مرة على
DialogServiceConnector. - C++/C#/Java: تم إصلاح تعطل أداة التعرف بسبب حالة تعارض في التمزق.
- JavaScript:
DialogServiceConnectorلم يحترم مسبقا المعلمة الاختياريةbotIdالمحددة فيBotFrameworkConfigالمصانع. جعل ذلك من الضروري تعيين معلمةbotIdسلسلة الاستعلام يدويا لاستخدام روبوت غير افتراضي. تم تصحيحbotIdالخطأ وسيتم احترام القيم المقدمة إلىBotFrameworkConfigالمصانع واستخدامها، بما في ذلك الجديدfromHost()والإضافاتfromEndpoint(). ينطبق هذا أيضا على المعلمةapplicationIdلCustomCommandsConfig. - JavaScript: تم إصلاح مشكلة GitHub #881، مما يسمح بإعادة استخدام كائن أداة التعرف.
- JavaScript: تم إصلاح مشكلة إرسال
speech.configSKD عدة مرات في جلسة TTS واحدة، ما يضيع النطاق الترددي. - JavaScript: معالجة الأخطاء المبسطة على تخويل الميكروفون، ما يسمح بفقاعة رسالة وصفية أكثر عندما لا يسمح المستخدم بإدخال الميكروفون على المستعرض الخاص به.
- JavaScript: تم إصلاح مشكلة GitHub #249 حيث أخطاء النوع في وسببت
ConversationTranscriberخطأ فيConversationTranslatorالتحويل البرمجي لمستخدمي TypeScript. - Objective-C: تم إصلاح مشكلة فشل إنشاء GStreamer لنظام التشغيل iOS على Xcode 11.4، مع معالجة مشكلة GitHub #911.
- Python: تم إصلاح GitHub المشكلة #870، وإزالة "DeprecationWarning: يتم إهمال وحدة imp لصالح importlib".
عينات
- يستخدم نموذج من ملف لمستعرض JavaScript الآن ملفات للتعرف على الكلام. يعالج هذا GitHub المشكلة #884.
Speech SDK 1.14.0: إصدار 2020-أكتوبر
ملاحظة
تعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشتركة ل Visual Studio 2015 و2017 و2019. قم بتنزيله هنا.
ميزات جديدة
- Linux: دعم إضافي ل Debian 10 وUbuntu 20.04 LTS.
- Python/Objective-C: دعم إضافي لواجهة
KeywordRecognizerبرمجة التطبيقات. ستكون الوثائق هنا. - C++/Java/C#: دعم إضافي لتعيين أي
HttpHeaderمفتاح/قيمة عبرServicePropertyChannel::HttpHeader. - JavaScript: دعم إضافي لواجهة
ConversationTranscriberبرمجة التطبيقات. اقرأ الوثائق هنا. - C++/C#: تمت إضافة أسلوب جديد
AudioDataStream FromWavFileInput(لقراءة . ملفات WAV) هنا (C++)وهنا (C#). - C++/C#/Java/Python/Objective-C/Swift: تمت إضافة
stopSpeakingAsync()طريقة لإيقاف تركيب النص إلى كلام. اقرأ الوثائق المرجعية هنا (C++)، هنا (C#)، هنا (Java)، هنا (Python)، وهنا (Objective-C/Swift). - C#، C++، Java: تمت إضافة دالة
FromDialogServiceConnector()Connectionإلى الفئة التي يمكن استخدامها لمراقبة أحداث الاتصال وقطع الاتصال لDialogServiceConnector. اقرأ الوثائق المرجعية هنا (C#)، هنا (C++)، وهنا (Java). - C++/C#/Java/Python/Objective-C/Swift: دعم إضافي لتقييم النطق، الذي يقيم نطق الكلام ويعطي المتحدثين ملاحظات حول دقة الصوت المنطوق وطلاقته. اقرأ الوثائق هنا.
كسر التغيير
- JavaScript: يحتوي PullAudioOutputStream.read() على تغيير نوع إرجاع من وعد داخلي إلى وعد JavaScript أصلي.
إصلاحات الأخطاء
- الكل: تم إصلاح الانحدار 1.13 حيث
SetServicePropertyتم تجاهل القيم ذات أحرف خاصة معينة. - C#: فشلت عينات وحدة التحكم Windows الثابتة في Visual Studio 2019 في العثور على DLLs الأصلية.
- C#: تم إصلاح العطل مع إدارة الذاكرة إذا تم استخدام الدفق كإدخل
KeywordRecognizer. - ObjectiveC/Swift: تم إصلاح العطل مع إدارة الذاكرة إذا تم استخدام الدفق كإدخل أداة التعرف.
- Windows: تم إصلاح مشكلة التعايش مع BT HFP/A2DP على UWP.
- JavaScript: تعيين ثابت لمعرفات الجلسة لتحسين التسجيل والمساعدة في ارتباطات التصحيح/الخدمة الداخلية.
- JavaScript: تمت إضافة إصلاح لتعطيل
DialogServiceConnectorListenOnceالمكالمات بعد إجراء المكالمة الأولى. - JavaScript: تم إصلاح المشكلة حيث سيكون إخراج النتيجة "بسيطا" فقط.
- JavaScript: تم إصلاح مشكلة التعرف المستمر في Safari على macOS.
- JavaScript: تخفيف تحميل وحدة المعالجة المركزية لسيناريو معدل النقل العالي للطلب.
- JavaScript: السماح بالوصول إلى تفاصيل نتيجة تسجيل ملف تعريف الصوت.
- JavaScript: تمت إضافة إصلاح للتعرف المستمر في
IntentRecognizer. - C++/C#/Java/Python/Swift/ObjectiveC: تم إصلاح عنوان url غير صحيح ل australiaeast و brazilsouth في
IntentRecognizer. - C++/C#: تمت إضافته
VoiceProfileTypeكوسيطة عند إنشاء كائنVoiceProfile. - C++/C#/Java/Python/Swift/ObjectiveC: إمكانية
SPX_INVALID_ARGثابتة عند محاولة القراءةAudioDataStreamمن موضع معين. - IOS: تم إصلاح العطل مع التعرف على الكلام على Unity
عينات
- ObjectiveC: تمت إضافة عينة للتعرف على الكلمة الأساسية هنا.
- C#/JavaScript: تمت إضافة التشغيل السريع لنسخ المحادثة هنا (C#)وهنا (JavaScript).
- C++/C#/Java/Python/Swift/ObjectiveC: عينة إضافية لتقييم النطق هنا
- Xamarin: التشغيل السريع المحدث إلى أحدث قالب Visual Studio هنا.
مشكلة معروفة
- شهادة DigiCert Global Root G2 غير مدعومة بشكل افتراضي في HoloLens 2 وAndroid 4.4 (KitKat) ويجب إضافتها إلى النظام لجعل Speech SDK يعمل. ستتم إضافة الشهادة إلى HoloLens صورتي نظام التشغيل في المستقبل القريب. يحتاج عملاء Android 4.4 إلى إضافة الشهادة المحدثة إلى النظام.
اختبار COVID-19 مختصر
نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء اختبار التحقق اليدوي بقدر ما نفعل عادة. لم نجري أي تغييرات نعتقد أنها قد كسرت أي شيء، واجتزت جميع اختباراتنا التلقائية. في حالة عدم احتمالية فاتتنا شيء ما، يرجى إعلامنا GitHub.
ابق بصحة جيدة!
Speech SDK 1.13.0: إصدار 2020-يوليو
ملاحظة
تعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشتركة ل Visual Studio 2015 و2017 و2019. لتحميله وتثبيته من هنا.
ميزات جديدة
- C#: دعم إضافي لنسخ المحادثة غير المتزامنة. راجع الوثائق هنا.
- JavaScript: تمت إضافة دعم التعرف على المتحدث لكل من المتصفحnode.js.
- JavaScript: دعم إضافي لتعريف اللغة/معرف اللغة. راجع الوثائق هنا.
- Objective-C: تمت إضافة دعم للمحادثة متعددة الأجهزةوكتابة المحادثة.
- Python: تمت إضافة دعم صوت مضغوط ل Python على Windows وLinux. راجع الوثائق هنا.
إصلاحات الأخطاء
- الكل: تم إصلاح مشكلة تسببت في عدم تحريك KeywordRecognizer إلى الأمام في التدفقات بعد التعرف.
- الكل: تم إصلاح مشكلة تسببت في عدم احتواء الدفق الذي تم الحصول عليه من KeywordRecognitionResult على الكلمة الأساسية.
- الكل: تم إصلاح مشكلة عدم إرسال SendMessageAsync للرسالة عبر السلك بعد انتهاء المستخدمين من انتظارها.
- الكل: تم إصلاح عطل في واجهات برمجة تطبيقات التعرف على السماعات عندما يتصل المستخدمون بالطريقة VoiceProfileClient::SpeakerRecEnrollProfileAsync عدة مرات ولم ينتظروا حتى تنتهي المكالمات.
- الكل: تم إصلاح تمكين تسجيل الملفات في فئتي VoiceProfileClient و SpeakerRecognizer.
- JavaScript: تم إصلاح مشكلة التقييد عند تصغير المستعرض.
- JavaScript: تم إصلاح مشكلة تسرب الذاكرة على التدفقات.
- JavaScript: إضافة التخزين المؤقت لاستجابات OCSP من NodeJS.
- Java: تم إصلاح مشكلة كانت تتسبب في إرجاع حقول BigInteger دائما 0.
- iOS: تم إصلاح مشكلة نشر التطبيقات المستندة إلى Speech SDK في App Store iOS.
عينات
- C++: تمت إضافة نموذج التعليمات البرمجية للتعرف على المتحدث هنا.
اختبار COVID-19 مختصر
نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء الكثير من اختبارات التحقق اليدوي كما نفعل عادة. لم نجري أي تغييرات نعتقد أنها قد كسرت أي شيء، واجتزت جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، يرجى إعلامنا عن GitHub.
حافظ على صحتك!
Speech SDK 1.12.1: إصدار 2020-يونيو
ميزات جديدة
- C#، C++: معاينة التعرف على المتحدث: تمكن هذه الميزة تحديد المتحدث (من يتحدث؟) والتحقق من المتحدث (هل المتحدث هو الذي يدعي أنه؟). ابدأ بنظرة عامة، واقرأ مقالة أساسيات التعرف على المتحدث، أو مستندات مرجع واجهة برمجة التطبيقات.
إصلاحات الأخطاء
- C#، C++: لم يكن تسجيل الميكروفون الثابت يعمل في 1.12 في التعرف على السماعة.
- JavaScript: إصلاحات لتحويل النص إلى كلام في Firefox، وSafari على macOS وiOS.
- إصلاح Windows تعطل انتهاك الوصول إلى مدقق التطبيق عند كتابة المحادثة عند استخدام دفق ثماني قنوات.
- إصلاح Windows تعطل انتهاك الوصول إلى مدقق التطبيق على ترجمة المحادثات متعددة الأجهزة.
عينات
- C#: نموذج التعليمات البرمجية للتعرف على المتحدث.
- C++: نموذج التعليمات البرمجية للتعرف على المتحدث.
- Java: نموذج التعليمات البرمجية للتعرف على الهدف على Android.
اختبار COVID-19 مختصر
نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء الكثير من اختبارات التحقق اليدوي كما نفعل عادة. لم نجري أي تغييرات نعتقد أنها قد كسرت أي شيء، واجتزت جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، يرجى إعلامنا عن GitHub.
حافظ على صحتك!
Speech SDK 1.12.0: إصدار 2020-May
ميزات جديدة
- Go: دعم لغة Go الجديدة للتعرف على الكلاموالمساعد الصوتي المخصص. إعداد بيئة التطوير الخاصة بك هنا. للحصول على نموذج التعليمات البرمجية، راجع قسم Samples أدناه.
- JavaScript: دعم مستعرض إضافي لتحويل النص إلى كلام. راجع الوثائق هنا.
- C++، C#، Java: كائن جديد
KeywordRecognizerوواجهات برمجة التطبيقات مدعومة على الأنظمة الأساسية Windows وAndroid وLinux & iOS. اقرأ الوثائق هنا. للحصول على نموذج التعليمات البرمجية، راجع قسم Samples أدناه. - Java: تمت إضافة محادثة متعددة الأجهزة مع دعم الترجمة. راجع المستند المرجعي هنا.
& تحسينات التحسين
- JavaScript: تحسين تنفيذ ميكروفون المستعرض لتحسين دقة التعرف على الكلام.
- Java: الروابط المعاد بناء التعليمات البرمجية باستخدام تنفيذ JNI المباشر دون SWIG. يقلل هذا التغيير بمقدار 10 أضعاف حجم الروابط لجميع حزم Java المستخدمة في Windows وAndroid وLinux وMac ويسهل تطوير تطبيق Speech SDK Java.
- Linux: وثائق الدعم المحدثة مع أحدث ملاحظات RHEL 7 المحددة.
- تحسين منطق الاتصال لمحاولة الاتصال عدة مرات عند حدوث أخطاء في الخدمة والشبكة.
- تحديث صفحة portal.azure.com Speech Quickstart لمساعدة المطورين على اتخاذ الخطوة التالية في رحلة Azure Speech.
إصلاحات الأخطاء
- C#، Java: تم إصلاح مشكلة في تحميل مكتبات SDK على Linux ARM (كل من 32 بت و64 بت).
- C#: تم إصلاح التخلص الصريح من المقابض الأصلية ل TranslationRecognizer و IntentRecognizer وعناصر الاتصال.
- C#: تم إصلاح إدارة مدة بقاء إدخال الصوت لكائن ConversationTranscriber.
- تم إصلاح مشكلة
IntentRecognizerعدم تعيين سبب النتيجة بشكل صحيح عند التعرف على الأهداف من العبارات البسيطة. - تم إصلاح مشكلة
SpeechRecognitionEventArgsعدم تعيين إزاحة النتيجة بشكل صحيح. - تم إصلاح حالة تعارض حيث كانت SDK تحاول إرسال رسالة شبكة قبل فتح اتصال websocket. كان قابلا للتكرار أثناء
TranslationRecognizerإضافة المشاركين. - تسرب الذاكرة الثابتة في محرك أداة التعرف على الكلمة الأساسية.
عينات
- Go: تمت إضافة قوالب التشغيل السريع للتعرف على الكلاموالمساعد الصوتي المخصص. ابحث عن نموذج التعليمات البرمجية هنا.
- JavaScript: تمت إضافة قوالب تشغيل سريعة لتحويل النص إلى كلاموالترجمةوالتعرف على الهدف.
- نماذج التعرف على الكلمات الأساسية ل C#وJava (Android).
اختبار COVID-19 مختصر
نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء الكثير من اختبارات التحقق اليدوي كما نفعل عادة. لم نجري أي تغييرات نعتقد أنها قد كسرت أي شيء، واجتزت جميع اختباراتنا التلقائية. إذا فاتنا شيء ما، يرجى إعلامنا على GitHub.
حافظ على صحتك!
Speech SDK 1.11.0: إصدار 2020-مارس
ميزات جديدة
- Linux: تمت إضافة دعم ل Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 مع إرشادات حول كيفية تكوين نظام Speech SDK.
- Linux: دعم إضافي ل .NET Core C# على Linux ARM32 و ARM64. اقرأ المزيد هنا.
- C#، C++: تمت إضافته
UtteranceIdفيConversationTranscriptionResult، معرف متناسق عبر جميع النتيجة الوسيطة والنهائي للتعرف على الكلام. تفاصيل C#، C++. - Python: تمت إضافة دعم ل
Language ID. راجع speech_sample.py في مستودع GitHub. - Windows: إضافة دعم تنسيق إدخال صوت مضغوط على النظام الأساسي Windows لجميع تطبيقات وحدة تحكم win32. التفاصيل هنا.
- JavaScript: دعم تركيب الكلام (تحويل النص إلى كلام) في NodeJS. تعرف على المزيد من هنا.
- JavaScript: إضافة واجهات برمجة تطبيقات جديدة لتمكين فحص جميع الرسائل المرسلة والمستلمة. تعرف على المزيد من هنا.
إصلاحات الأخطاء
- C#، C++: تم إصلاح مشكلة، لذا
SendMessageAsyncيرسل الآن رسالة ثنائية كنوع ثنائي. تفاصيل C#، C++. - C#، C++: تم إصلاح مشكلة حيث قد يتسبب استخدام
Connection MessageReceivedالحدث في حدوث عطل إذاRecognizerتم التخلص منه قبلConnectionالكائن. تفاصيل C#، C++. - Android: انخفض حجم المخزن المؤقت للصوت من الميكروفون من 800 مللي ثانية إلى 100 مللي ثانية لتحسين زمن الانتقال.
- Android: تم إصلاح مشكلة محاكي Android x86 في Android Studio.
- JavaScript: دعم إضافي للمناطق في الصين باستخدام
fromSubscriptionواجهة برمجة التطبيقات. التفاصيل هنا. - JavaScript: أضف المزيد من معلومات الخطأ لفشل الاتصال من NodeJS.
عينات
- Unity: تم إصلاح العينة العامة للتعرف على الهدف، حيث فشل استيراد LUIS json. التفاصيل هنا.
- Python: تمت إضافة عينة ل
Language ID. التفاصيل هنا.
اختبار Covid19 المختصر: نظرا للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء الكثير من اختبارات التحقق اليدوي من الجهاز كما نفعل عادة. على سبيل المثال، تعذر علينا اختبار إدخال الميكروفون وإخراج السماعة على Linux وiOS وmacOS. لم نجري أي تغييرات نعتقد أنها قد كسرت أي شيء على هذه الأنظمة الأساسية، وتم اجتياز جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، يرجى إعلامنا عن GitHub.
نشكرك على دعمك المستمر. كما هو الحال دائما، يرجى نشر الأسئلة أو الملاحظات حول GitHub أو Stack Overflow.
حافظ على صحتك!
Speech SDK 1.10.0: إصدار 2020-فبراير
ميزات جديدة
- تمت إضافة حزم Python لدعم الإصدار الجديد 3.8 من Python.
- دعم Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++، C#، Java، Python).
ملاحظة
يجب على العملاء تكوين OpenSSL وفقا لهذه الإرشادات.
- دعم Linux ARM32 ل Debian وUbuntu.
- يدعم DialogServiceConnector الآن معلمة اختيارية "معرف الروبوت" على BotFrameworkConfig. تسمح هذه المعلمة باستخدام عدة روبوتات Direct Line Speech مع مورد كلام Azure واحد. بدون تحديد المعلمة، سيتم استخدام الروبوت الافتراضي (كما تحدده صفحة تكوين قناة Direct Line Speech).
- يحتوي DialogServiceConnector الآن على خاصية SpeechActivityTemplate. سيتم استخدام محتويات سلسلة JSON هذه بواسطة Direct Line Speech لملء مجموعة واسعة من الحقول المدعومة مسبقا في جميع الأنشطة التي تصل إلى روبوت Direct Line Speech، بما في ذلك الأنشطة التي يتم إنشاؤها تلقائيا استجابة لأحداث مثل التعرف على الكلام.
- يستخدم TTS الآن مفتاح الاشتراك للمصادقة، ما يقلل من زمن انتقال البايت الأول من نتيجة التركيب الأولى بعد إنشاء تركيب.
- نماذج التعرف على الكلام المحدثة ل 19 لغة لمتوسط تقليل معدل خطأ الكلمات بنسبة 18.6٪ (es-ES، es-MX، fr-CA، fr-FR، it-IT، ja-JP، ko-KR، pt-BR، zh-CN، zh-HK، nb-NO، fi-FL، ru-RU، pl-PL، ca-ES، zh-TW، th-TH، pt-PT، tr-TR). تجلب النماذج الجديدة تحسينات كبيرة عبر مجالات متعددة بما في ذلك سيناريوهات الإملاء والنسخ Call-Center وفهرسة الفيديو.
إصلاحات الأخطاء
- تم إصلاح الخطأ حيث لم ينتظر ناسخ المحادثة بشكل صحيح في واجهات برمجة تطبيقات JAVA
- إصلاح محاكي Android x86 لقضية Xamarin GitHub
- إضافة مفقود (الحصول على| تعيين)أساليب الخاصية إلى AudioConfig
- إصلاح خطأ TTS حيث تعذر إيقاف audioDataStream عند فشل الاتصال
- قد يؤدي استخدام نقطة نهاية بدون منطقة إلى فشل USP لمترجم المحادثة
- يستخدم إنشاء المعرف في تطبيقات Windows العالمية الآن خوارزمية GUID فريدة بشكل مناسب؛ تم افتراضيا سابقا وغير مقصود لتنفيذ متقلب غالبا ما ينتج عنه تضاربات على مجموعات كبيرة من التفاعلات.
عينات
- نموذج Unity لاستخدام Speech SDK مع ميكروفون Unity وتدفق وضع الدفع
تغييرات أخرى
Speech SDK 1.9.0: إصدار 2020-يناير
ميزات جديدة
- محادثة متعددة الأجهزة: قم بتوصيل أجهزة متعددة بنفس الكلام أو المحادثة المستندة إلى النص، وترجمة الرسائل المرسلة بينها اختياريا. تعرف على المزيد في هذه المقالة.
- تمت إضافة دعم التعرف على الكلمة الأساسية لحزمة Android
.aarوإضافة دعم لنكهات x86 وx64. - Objective-C:
SendMessageوالأساليبSetMessagePropertyالمضافة إلىConnectionالكائن. راجع الوثائق هنا. - يدعم
std::wstringTTS C++ api الآن كإدخال نص تركيبي، مما يزيل الحاجة إلى تحويل wstring إلى سلسلة قبل تمريره إلى SDK. راجع التفاصيل هنا. - C#: معرف اللغةوتكوين لغة المصدر متوفران الآن.
- JavaScript: تمت إضافة ميزة للعنصر
Connectionللتمرير عبر الرسائل المخصصة من خدمة الكلام كرد اتصالreceivedServiceMessage. - JavaScript: تمت إضافة دعم
FromHost APIلتسهيل الاستخدام مع الحاويات الموجودة في الموقع والسحب السيادية. راجع الوثائق هنا. - JavaScript: نكرم
NODE_TLS_REJECT_UNAUTHORIZEDالآن بفضل مساهمة من orgads. راجع التفاصيل هنا.
كسر التغييرات
OpenSSLتم تحديثه إلى الإصدار 1.1.1b ويرتبط بشكل ثابت بمكتبة Speech SDK الأساسية لنظام Linux. قد يؤدي هذا إلى انقطاع إذا لم يتم تثبيت علبة الواردOpenSSLعلى/usr/lib/sslالدليل في النظام. يرجى التحقق من وثائقنا ضمن مستندات Speech SDK لحل المشكلة.- لقد قمنا بتغيير نوع البيانات الذي تم إرجاعه ل C#
WordLevelTimingResult.Offsetمنintإلىlongللسماح بالوصول إلىWordLevelTimingResultsعندما تكون بيانات الكلام أطول من دقيقتين. PushAudioInputStreamوالآنPullAudioInputStreamأرسل معلومات رأس wav إلى خدمة الكلام استناداAudioStreamFormatإلى ، محددة اختياريا عند إنشائها. يجب على العملاء الآن استخدام تنسيق إدخال الصوت المدعوم. ستحصل أي تنسيقات أخرى على نتائج التعرف دون المستوى الأمثل أو قد تتسبب في مشكلات أخرى.
إصلاحات الأخطاء
OpenSSLراجع التحديث ضمن كسر التغييرات أعلاه. لقد أصلحنا كلا من الأعطال المتقطعة ومشكلات الأداء (تنازع التأمين تحت التحميل العالي) في Linux وJava.- Java: تم إدخال تحسينات على إغلاق الكائن في سيناريوهات التزامن العالية.
- إعادة هيكلة حزمة NuGet الخاصة بنا. قمنا بإزالة النسخ الثلاث من
Microsoft.CognitiveServices.Speech.core.dllمجلدات lib وتحتهاMicrosoft.CognitiveServices.Speech.extension.kws.dll، مما جعل حزمة NuGet أصغر وأسرع للتنزيل، وأضفنا الرؤوس اللازمة لتجميع بعض تطبيقات C++ الأصلية. - تم إصلاح نماذج التشغيل السريع هنا. كانت هذه الإنهاء دون عرض استثناء "الميكروفون غير موجود" على Linux وmacOS Windows.
- تم إصلاح تعطل SDK مع نتائج التعرف على الكلام الطويلة على مسارات تعليمات برمجية معينة مثل هذه العينة.
- تم إصلاح خطأ نشر SDK في بيئة Azure Web App لمعالجة مشكلة العميل هذه.
- تم إصلاح خطأ TTS أثناء استخدام علامة أو
<audio>علامة متعددة<voice>لمعالجة مشكلة العميل هذه. - تم إصلاح خطأ TTS 401 عند استرداد SDK من معلق.
- JavaScript: تم إصلاح استيراد دائري للبيانات الصوتية بفضل مساهمة من euirim.
- JavaScript: تمت إضافة دعم لإعداد خصائص الخدمة، كما تمت إضافته في 1.7.
- JavaScript: تم إصلاح مشكلة حيث قد يؤدي خطأ في الاتصال إلى محاولات إعادة اتصال websocket مستمرة وغير ناجحة.
عينات
- تمت إضافة عينة التعرف على الكلمة الأساسية لنظام التشغيل Android هنا.
- تمت إضافة نموذج TTS لسيناريو الخادم هنا.
- تمت إضافة قوالب تشغيل سريعة للمحادثة متعددة الأجهزة ل C# وC++ هنا.
تغييرات أخرى
- حجم مكتبة SDK الأساسية المحسن على Android.
- يدعم SDK في الإصدار 1.9.0 وما بعده كلا النوعين
intوstringفي حقل إصدار التوقيع الصوتي لمناشر المحادثة.
Speech SDK 1.8.0: إصدار 2019-نوفمبر
ميزات جديدة
- تمت إضافة
FromHost()واجهة برمجة تطبيقات، لتسهيل الاستخدام مع الحاويات الموجودة في الموقع والسحب السيادية. - تمت إضافة تعريف لغة المصدر للتعرف على الكلام (بلغة Java وC++)
- تمت إضافة
SourceLanguageConfigكائن للتعرف على الكلام، يستخدم لتحديد لغات المصدر المتوقعة (بلغة Java وC++) - تمت إضافة
KeywordRecognizerدعم على Windows (UWP) وAndroid وiOS من خلال حزم NuGet وUnity - تمت إضافة واجهة برمجة تطبيقات Java للمحادثة عن بعد للقيام بنسخ المحادثة في دفعات غير متزامنة.
كسر التغييرات
- تم نقل وظائف ناسخ المحادثة ضمن مساحة
Microsoft.CognitiveServices.Speech.Transcriptionالاسم . - يتم نقل أجزاء من أساليب ناسخ المحادثة إلى فئة جديدة
Conversation. - تم إسقاط الدعم لنظام التشغيل iOS 32 بت (ARMv7 وx86)
إصلاحات الأخطاء
- إصلاح التعطل إذا تم استخدام محلي
KeywordRecognizerبدون مفتاح اشتراك خدمة Speech صالح
عينات
- عينة Xamarin ل
KeywordRecognizer - عينة Unity ل
KeywordRecognizer - نماذج C++ وJava لتحديد لغة المصدر التلقائي.
Speech SDK 1.7.0: إصدار 2019-سبتمبر
ميزات جديدة
- تمت إضافة دعم بيتا ل Xamarin على النظام الأساسي العام لـ Windows (UWP) وAndroid وiOS
- إضافة دعم iOS ل Unity
- إضافة
Compressedدعم إدخال ل ALaw و Mulaw و FLAC و على Android و iOS و Linux - تمت إضافته
SendMessageAsyncفيConnectionفئة لإرسال رسالة إلى الخدمة - تمت الإضافة
SetMessagePropertyفيConnectionفئة لإعداد خاصية لرسالة - أضافت TTS روابط ل Java (JRE وAndroid) وPython وSwift و Objective-C
- أضافت TTS دعم التشغيل ل macOS وiOS وAndroid.
- تمت إضافة معلومات "حد كلمة" ل TTS.
إصلاحات الأخطاء
- تم إصلاح مشكلة إصدار IL2CPP على Unity 2019 for Android
- تم إصلاح مشكلة معالجة الرؤوس غير الصحيحة في إدخال ملف wav بشكل غير صحيح
- تم إصلاح مشكلة عدم تفرد UUIDs في بعض خصائص الاتصال
- تم إصلاح بعض التحذيرات حول محددات قابلية القيم الخالية في روابط Swift (قد تتطلب تغييرات صغيرة في التعليمات البرمجية)
- إصلاح الخطأ الذي تسبب في إغلاق اتصالات websocket بشكل غير لائق ضمن تحميل الشبكة
- تم إصلاح مشكلة على Android تؤدي في بعض الأحيان إلى تكرار معرفات مرات الظهور المستخدمة من قبل
DialogServiceConnector - تحسينات على استقرار الاتصالات عبر التفاعلات متعددة الأدوار والإبلاغ عن حالات الفشل (عبر
Canceledالأحداث) عند حدوثها معDialogServiceConnector DialogServiceConnectorستوفر جلسة العمل الآن الأحداث بشكل صحيح، بما في ذلك عند الاتصالListenOnceAsync()أثناء نشطStartKeywordRecognitionAsync()- معالجة عطل مرتبط بالأنشطة
DialogServiceConnectorالتي يتم تلقيها
عينات
- التشغيل السريع ل Xamarin
- تحديث CPP Quickstart مع معلومات Linux ARM64
- التشغيل السريع ل Unity المحدث مع معلومات iOS
Speech SDK 1.6.0: إصدار 2019-يونيو
عينات
- نماذج التشغيل السريع ل Text To Speech على UWP وUnity
- نموذج التشغيل السريع ل Swift على iOS
- نماذج Unity للتعرف على هدف الكلام & والترجمة
- نماذج التشغيل السريع المحدثة ل
DialogServiceConnector
التحسينات / التغييرات
- مساحة اسم مربع الحوار:
- تمت إعادة تسمية
SpeechBotConnectorإلىDialogServiceConnector - تمت إعادة تسمية
BotConfigإلىDialogServiceConfig BotConfig::FromChannelSecret()تم إعادة تعيينه إلىDialogServiceConfig::FromBotSecret()- يستمر دعم جميع عملاء Direct Line Speech الحاليين بعد إعادة التسمية
- تمت إعادة تسمية
- تحديث محول TTS REST لدعم الوكيل والاتصال المستمر
- تحسين رسالة الخطأ عند تمرير منطقة غير صالحة
- Swift/Objective-C:
- تحسين الإبلاغ عن الأخطاء: الأساليب التي يمكن أن تؤدي إلى حدوث خطأ موجودة الآن في إصدارين: أحدهما يعرض كائنا
NSErrorلمعالجة الأخطاء، والآخر يثير استثناء. الأول معرض ل Swift. يتطلب هذا التغيير تعديلات على التعليمات البرمجية Swift الموجودة. - معالجة الأحداث المحسنة
- تحسين الإبلاغ عن الأخطاء: الأساليب التي يمكن أن تؤدي إلى حدوث خطأ موجودة الآن في إصدارين: أحدهما يعرض كائنا
إصلاحات الأخطاء
- إصلاح TTS: حيث
SpeakTextAsyncتم إرجاع المستقبل دون انتظار حتى يكتمل العرض الصوتي - إصلاح تنظيم السلاسل في C# لتمكين دعم اللغة الكامل
- إصلاح مشكلة تطبيق .NET core لتحميل المكتبة الأساسية مع إطار عمل هدف net461 في العينات
- إصلاح المشكلات العرضية لنشر المكتبات الأصلية إلى مجلد الإخراج في العينات
- إصلاح إغلاق مأخذ توصيل الويب بشكل موثوق
- إصلاح الأعطال المحتملة أثناء فتح اتصال تحت الحمل الثقيل على Linux
- إصلاح بيانات التعريف المفقودة في مجموعة إطار العمل لنظام التشغيل macOS
- إصلاح المشاكل المتعلقة ب
pip install --useron Windows
Speech SDK 1.5.1
هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلية/المدارة. لا يؤثر على إصدار JavaScript من SDK.
إصلاحات الأخطاء
- إصلاح FromSubscription عند استخدامه مع كتابة المحادثة.
- إصلاح الخطأ في تحديد الكلمة الأساسية للمساعدين الصوتيين.
Speech SDK 1.5.0: إصدار 2019-May
ميزات جديدة
- اكتشاف الكلمة الأساسية (KWS) متاح الآن Windows وLinux. قد تعمل وظيفة KWS مع أي نوع ميكروفون، ومع ذلك، يقتصر دعم KWS الرسمي حاليا على صفائف الميكروفون الموجودة في أجهزة Azure Kinect DK أو Speech Devices SDK.
- تتوفر وظيفة تلميح العبارة من خلال SDK. لمزيد من المعلومات، راجع هنا .
- تتوفر وظيفة كتابة المحادثة من خلال SDK. انظر هنا.
- إضافة دعم المساعدين الصوتيين باستخدام قناة Direct Line Speech.
عينات
- تمت إضافة عينات للميزات الجديدة أو الخدمات الجديدة التي يدعمها SDK.
التحسينات / التغييرات
- تمت إضافة خصائص أداة التعرف المختلفة لضبط سلوك الخدمة أو نتائج الخدمة (مثل إخفاء الألفاظ النابية وغيرها).
- يمكنك الآن تكوين أداة التعرف من خلال خصائص التكوين القياسية، حتى إذا قمت بإنشاء أداة
FromEndpointالتعرف . - Objective-C:
OutputFormatتمت إضافة خاصية إلىSPXSpeechConfiguration. - يدعم SDK الآن Debian 9 كتوزع Linux.
إصلاحات الأخطاء
- تم إصلاح مشكلة حيث تم إلغاء هيكلة مورد المتحدث مبكرا جدا في تحويل النص إلى كلام.
Speech SDK 1.4.2
هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلية/المدارة. لا يؤثر على إصدار JavaScript من SDK.
Speech SDK 1.4.1
هذا إصدار JavaScript فقط. لم تتم إضافة أي ميزات. تم إجراء الإصلاحات التالية:
- منع حزمة الويب من تحميل https-proxy-agent.
Speech SDK 1.4.0: إصدار 2019-أبريل
ميزات جديدة
- يدعم SDK الآن خدمة تحويل النص إلى كلام كإصدار بيتا. وهو مدعوم على Windows وLinux Desktop من C++ وC#. لمزيد من المعلومات، تحقق من نظرة عامة حول تحويل النص إلى كلام.
- يدعم SDK الآن ملفات الصوت MP3 وOpus/OGG كملفات إدخال دفق. تتوفر هذه الميزة فقط على Linux من C++ وC# وهي حاليا في الإصدار التجريبي (مزيد من التفاصيل هنا).
- اكتسبت Speech SDK ل Java و.NET core وC++ و Objective-C دعم macOS. دعم Objective-C لنظام التشغيل macOS قيد الإصدار التجريبي حاليا.
- iOS: يتم الآن نشر Speech SDK لنظام التشغيل iOS (Objective-C) أيضا ك CocoaPod.
- JavaScript: دعم الميكروفون غير الافتراضي كجهاز إدخال.
- JavaScript: دعم الوكيل Node.js.
عينات
- تمت إضافة نماذج لاستخدام Speech SDK مع C++ ومع Objective-C على macOS.
- تمت إضافة عينات توضح استخدام خدمة تحويل النص إلى كلام.
التحسينات / التغييرات
- Python: يتم الآن عرض خصائص إضافية لنتائج التعرف عبر الخاصية
properties. - للحصول على دعم إضافي للتطوير وتصحيح الأخطاء، يمكنك إعادة توجيه معلومات تسجيل وتشخيص SDK إلى ملف سجل (مزيد من التفاصيل هنا).
- JavaScript: تحسين أداء معالجة الصوت.
إصلاحات الأخطاء
- Mac/iOS: تم إصلاح الخطأ الذي أدى إلى انتظار طويل عند تعذر تأسيس اتصال بخدمة الكلام.
- Python: تحسين معالجة الأخطاء للوسيطات في عمليات رد اتصال Python.
- JavaScript: تم إصلاح تقارير الحالة الخاطئة للكلام التي انتهت عند RequestSession.
Speech SDK 1.3.1: تحديث 2019-فبراير
هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلية/المدارة. لا يؤثر على إصدار JavaScript من SDK.
إصلاح الأخطاء
- تم إصلاح تسرب الذاكرة عند استخدام إدخال الميكروفون. لا يتأثر الإدخال المستند إلى الدفق أو الملف.
Speech SDK 1.3.0: إصدار 2019-فبراير
ميزات جديدة
- يدعم Speech SDK تحديد ميكروفون الإدخال من خلال
AudioConfigالفئة . يسمح لك هذا ببث البيانات الصوتية إلى خدمة الكلام من ميكروفون غير افتراضي. لمزيد من المعلومات، راجع الوثائق التي تصف تحديد جهاز إدخال الصوت. هذه الميزة غير متوفرة بعد من JavaScript. - يدعم Speech SDK الآن Unity في إصدار بيتا. تقديم ملاحظات من خلال قسم المشكلة في مستودع عينة GitHub. يدعم هذا الإصدار Unity على Windows x86 وx64 (تطبيقات سطح المكتب أو النظام الأساسي العام لـ Windows)، وAndroid (ARM32/64، x86). تتوفر المزيد من المعلومات في التشغيل السريع ل Unity.
- لم تعد هناك حاجة إلى الملف
Microsoft.CognitiveServices.Speech.csharp.bindings.dll(الذي تم شحنه في الإصدارات السابقة). تم دمج الوظيفة الآن في SDK الأساسية.
عينات
يتوفر المحتوى الجديد التالي في مستودع العينة الخاص بنا:
- نماذج إضافية ل
AudioConfig.FromMicrophoneInput. - نماذج Python إضافية للتعرف على الهدف والترجمة.
- نماذج إضافية لاستخدام
Connectionالكائن في iOS. - نماذج Java إضافية للترجمة مع إخراج الصوت.
- عينة جديدة لاستخدام واجهة برمجة تطبيقات REST للنسخ الدفعي.
التحسينات / التغييرات
- Python
- تحسين التحقق من المعلمات ورسائل الخطأ في
SpeechConfig. - إضافة دعم للكائن
Connection. - دعم Python 32 بت (x86) على Windows.
- Speech SDK ل Python خارج بيتا.
- تحسين التحقق من المعلمات ورسائل الخطأ في
- iOS
- تم الآن إنشاء SDK مقابل الإصدار 12.1 من iOS SDK.
- يدعم SDK الآن إصدارات iOS 9.2 والإصدارات الأحدث.
- تحسين الوثائق المرجعية وإصلاح العديد من أسماء الخصائص.
- JavaScript
- إضافة دعم للكائن
Connection. - إضافة ملفات تعريف النوع ل JavaScript المجمعة
- الدعم الأولي والتنفيذ لتلميحات العبارات.
- إرجاع مجموعة الخصائص مع خدمة JSON للتعرف
- إضافة دعم للكائن
- تحتوي Windows DLLs الآن على مورد إصدار.
- إذا قمت بإنشاء أداة
FromEndpointالتعرف ، يمكنك إضافة معلمات مباشرة إلى عنوان URL لنقطة النهاية.FromEndpointلا يمكنك استخدام تكوين أداة التعرف من خلال خصائص التكوين القياسية.
إصلاحات الأخطاء
- لم يتم التعامل مع اسم المستخدم الوكيل الفارغ وكلمة مرور الوكيل بشكل صحيح. باستخدام هذا الإصدار، إذا قمت بتعيين اسم المستخدم الوكيل وكلمة مرور الوكيل إلى سلسلة فارغة، فلن يتم إرسالهما عند الاتصال بالوكيل.
- لم يكن SessionId الذي تم إنشاؤه بواسطة SDK دائما عشوائيا حقا لبعض اللغات / البيئات. تمت إضافة تهيئة منشئ عشوائي لإصلاح هذه المشكلة.
- تحسين معالجة رمز التخويل المميز. إذا كنت تريد استخدام رمز التخويل المميز، فحدد في
SpeechConfigواترك مفتاح الاشتراك فارغا. ثم قم بإنشاء أداة التعرف كالمعتاد. - في بعض الحالات،
Connectionلم يتم تحرير الكائن بشكل صحيح. تم إصلاح هذه المشكلة. - تم إصلاح عينة JavaScript لدعم إخراج الصوت لتجميع الترجمة أيضا على Safari.
Speech SDK 1.2.1
هذا إصدار JavaScript فقط. لم تتم إضافة أي ميزات. تم إجراء الإصلاحات التالية:
- نهاية إطلاق الدفق في turn.end، وليس في speech.end.
- إصلاح الخطأ في مضخة الصوت التي لم تقم بجدولة الإرسال التالي إذا فشل الإرسال الحالي.
- إصلاح التعرف المستمر باستخدام رمز المصادقة المميز.
- إصلاح الأخطاء لمعرف / نقاط نهاية مختلفة.
- تحسينات الوثائق.
Speech SDK 1.2.0: إصدار 2018-ديسمبر
ميزات جديدة
- Python
- يتوفر الإصدار بيتا من دعم Python (3.5 وما فوق) مع هذا الإصدار. لمزيد من المعلومات، راجع هنا](.. /.. /quickstart-python.md).
- JavaScript
ConnectionالكائنRecognizerمن ، يمكنك الوصول إلى كائنConnection. يسمح لك هذا الكائن ببدء اتصال الخدمة بشكل صريح والاشتراك في الاتصال وقطع الاتصال بالأحداث. (هذه الميزة غير متوفرة بعد من JavaScript وPython.)
- دعم Ubuntu 18.04.
- Android
- دعم ProGuard الممكن أثناء إنشاء APK.
التحسينات
- تحسينات في استخدام مؤشر الترابط الداخلي، ما يقلل من عدد مؤشرات الترابط والأقفال وكتم الصوت.
- تحسين الإبلاغ عن الأخطاء / المعلومات. في عدة حالات، لم يتم نشر رسائل الخطأ على طول الطريق.
- تبعيات التطوير المحدثة في JavaScript لاستخدام وحدات نمطية محدثة.
إصلاحات الأخطاء
- تم إصلاح تسرب الذاكرة بسبب عدم تطابق النوع في
RecognizeAsync. - وفي بعض الحالات تسريب استثناءات.
- إصلاح تسرب الذاكرة في وسيطات أحداث الترجمة.
- تم إصلاح مشكلة تأمين عند إعادة الاتصال في جلسات عمل طويلة الأمد.
- تم إصلاح مشكلة قد تؤدي إلى فقدان النتيجة النهائية للترجمات الفاشلة.
- C#: إذا
asyncلم يتم انتظار عملية في مؤشر الترابط الرئيسي، فمن الممكن التخلص من أداة التعرف قبل اكتمال المهمة غير المتزامنة. - Java: تم إصلاح مشكلة تؤدي إلى تعطل جهاز Java الظاهري.
- Objective-C: تعيين التعداد الثابت؛ تم إرجاع RecognizedIntent بدلا من
RecognizingIntent. - JavaScript: قم بتعيين تنسيق الإخراج الافتراضي إلى "بسيط" في
SpeechConfig. - JavaScript: إزالة عدم التناسق بين الخصائص على كائن التكوين في JavaScript واللغات الأخرى.
عينات
- تم تحديث العديد من العينات وإصلاحها (على سبيل المثال أصوات الإخراج للترجمة، وما إلى ذلك).
- تمت إضافة عينات Node.js في مستودع العينة.
Speech SDK 1.1.0
ميزات جديدة
- دعم Android x86/x64.
- دعم الوكيل: في
SpeechConfigالكائن، يمكنك الآن استدعاء دالة لتعيين معلومات الوكيل (اسم المضيف والمنفذ واسم المستخدم وكلمة المرور). هذه الميزة غير متوفرة بعد على iOS. - رمز الخطأ والرسائل المحسنة. إذا أرجع التعرف خطأ، فهذا قد تم تعيينه
Reasonبالفعل (في حدث تم إلغاؤه) أوCancellationDetails(في نتيجة التعرف) إلىError. يحتوي الحدث الذي تم إلغاؤه الآن على عضوين إضافيين،ErrorCodeوErrorDetails. إذا أرجع الخادم معلومات خطأ إضافية مع الخطأ الذي تم الإبلاغ عنه، فسيكون متوفرا الآن في الأعضاء الجدد.
التحسينات
- تمت إضافة تحقق إضافي في تكوين أداة التعرف، وإضافة رسالة خطأ إضافية.
- معالجة محسنة للصمت لفترة طويلة في منتصف ملف صوتي.
- حزمة NuGet: بالنسبة للمشاريع .NET Framework، فإنها تمنع الإنشاء باستخدام تكوين AnyCPU.
إصلاحات الأخطاء
- تم إصلاح العديد من الاستثناءات الموجودة في أدوات التعرف. بالإضافة إلى ذلك، يتم اكتشاف الاستثناءات وتحويلها إلى
Canceledحدث. - إصلاح تسرب الذاكرة في إدارة الخصائص.
- تم إصلاح الخطأ حيث يمكن أن يتعطل ملف إدخال الصوت في أداة التعرف.
- تم إصلاح خطأ حيث يمكن تلقي الأحداث بعد حدث إيقاف جلسة العمل.
- تم إصلاح بعض شروط السباق في الترابط.
- تم إصلاح مشكلة توافق iOS التي قد تؤدي إلى حدوث عطل.
- تحسينات الاستقرار لدعم ميكروفون Android.
- تم إصلاح خطأ حيث يتجاهل أداة التعرف في JavaScript لغة التعرف.
- تم إصلاح خطأ يمنع إعداد
EndpointId(في بعض الحالات) في JavaScript. - تغيير ترتيب المعلمة في AddIntent في JavaScript، وإضافة توقيع JavaScript مفقود
AddIntent.
عينات
- تمت إضافة عينات C++ وC# لسحب ودفع استخدام الدفق في مستودع العينة.
Speech SDK 1.0.1
تحسينات الموثوقية وإصلاحات الأخطاء:
- إصلاح خطأ فادح محتمل بسبب حالة السباق في أداة التعرف على التخلص
- تم إصلاح الخطأ الفاديح المحتمل عند حدوث خصائص غير محددة.
- تمت إضافة تدقيق إضافي للخطأ والمعلمة.
- Objective-C: تم إصلاح الخطأ الفادحي المحتمل بسبب تجاوز الاسم في NSString.
- Objective-C: الرؤية المعدلة لواجهة برمجة التطبيقات
- JavaScript: تم إصلاحه فيما يتعلق بالأحداث حمولاتها.
- تحسينات الوثائق.
في مستودع العينة الخاص بنا، تمت إضافة عينة جديدة ل JavaScript.
Cognitive Services Speech SDK 1.0.0: إصدار 2018-سبتمبر
ميزات جديدة
- دعم Objective-C على iOS. تحقق من التشغيل السريع Objective-C لنظام التشغيل iOS.
- دعم JavaScript في المستعرض. تحقق من التشغيل السريع ل JavaScript.
كسر التغييرات
- مع هذا الإصدار، يتم تقديم عدد من التغييرات العاجلة. تحقق من هذه الصفحة للحصول على التفاصيل.
Cognitive Services Speech SDK 0.6.0: إصدار 2018-أغسطس
ميزات جديدة
- يمكن لتطبيقات UWP التي تم إنشاؤها باستخدام Speech SDK الآن تمرير Windows App Certification Kit (WACK). تحقق من التشغيل السريع ل UWP.
- دعم .NET Standard 2.0 على Linux (Ubuntu 16.04 x64).
- تجريبي: دعم Java 8 على Windows (64 بت) وLinux (Ubuntu 16.04 x64). تحقق من التشغيل السريع لبيئة وقت تشغيل Java.
تغيير وظيفي
- كشف معلومات تفاصيل الخطأ الإضافية حول أخطاء الاتصال.
كسر التغييرات
- على Java (Android)،
SpeechFactory.configureNativePlatformBindingWithDefaultCertificateلم تعد الوظيفة تتطلب معلمة مسار. الآن يتم الكشف عن المسار تلقائيا على جميع الأنظمة الأساسية المدعومة. - تمت إزالة ملحق الحصول على الخاصية
EndpointUrlفي Java وC# .
إصلاحات الأخطاء
- في Java، يتم الآن تنفيذ نتيجة تركيب الصوت على أداة التعرف على الترجمة.
- تم إصلاح خطأ قد يتسبب في مؤشرات ترابط غير نشطة وعدد متزايد من مآخذ التوصيل المفتوحة وغير المستخدمة.
- تم إصلاح مشكلة، حيث يمكن إنهاء التعرف طويل الأمد في منتصف الإرسال.
- تم إصلاح حالة تعارض في إيقاف تشغيل أداة التعرف.
Cognitive Services Speech SDK 0.5.0: إصدار 2018-يوليو
ميزات جديدة
- دعم نظام Android الأساسي (API 23: Android 6.0 Marshmallow أو أعلى). تحقق من التشغيل السريع ل Android.
- دعم .NET Standard 2.0 على Windows. تحقق من التشغيل السريع ل .NET Core.
- تجريبي: دعم UWP على Windows (الإصدار 1709 أو أحدث).
- تحقق من التشغيل السريع ل UWP.
- لاحظ أن تطبيقات UWP التي تم إنشاؤها باستخدام Speech SDK لا تمرر بعد Windows App Certification Kit (WACK).
- دعم التعرف طويل الأمد مع إعادة الاتصال التلقائي.
التغييرات الوظيفية
StartContinuousRecognitionAsync()يدعم التعرف طويل الأمد.- تحتوي نتيجة التعرف على المزيد من الحقول. تتم إزاحتها من بداية الصوت ومدته (سواء في علامات التجزئة) للنص الذي تم التعرف عليه والقيم الإضافية التي تمثل حالة التعرف، على سبيل المثال،
InitialSilenceTimeoutوInitialBabbleTimeout. - دعم AuthorizationToken لإنشاء مثيلات المصنع.
كسر التغييرات
- أحداث التعرف:
NoMatchتم دمج نوع الحدث فيErrorالحدث. - تمت إعادة تسمية
OutputFormatSpeechOutputFormat في C# للبقاء على محاذاة مع C++. - تغير نوع الإرجاع لبعض أساليب الواجهة
AudioInputStreamقليلا:- في Java،
readيرجعlongالأسلوب الآن بدلا منint. - في C#،
Readيرجعuintالأسلوب الآن بدلا منint. - في C++، يتم الآن إرجاع
size_tالأسلوبينReadوGetFormatبدلا منint.
- في Java،
- C++: يمكن تمرير مثيلات تدفقات إدخال الصوت الآن فقط ك
shared_ptr.
إصلاحات الأخطاء
- تم إصلاح قيم الإرجاع غير الصحيحة في النتيجة عند
RecognizeAsync()المهلة. - تمت إزالة التبعية على مكتبات أساس الوسائط على Windows. يستخدم SDK الآن واجهات برمجة تطبيقات الصوت الأساسية.
- إصلاح الوثائق: تمت إضافة صفحة مناطق لوصف المناطق المدعومة.
مشكلة معروفة
- لا يقوم Speech SDK لنظام Android بالإبلاغ عن نتائج تركيب الكلام للترجمة. سيتم إصلاح هذه المشكلة في الإصدار التالي.
Cognitive Services Speech SDK 0.4.0: إصدار 2018-يونيو
التغييرات الوظيفية
AudioInputStream
يمكن أن تستهلك أداة التعرف الآن دفق كمصدر الصوت. لمزيد من المعلومات، راجع الدليل الإرشادي ذي الصلة.
تنسيق الإخراج التفصيلي
عند إنشاء
SpeechRecognizer، يمكنك طلبDetailedتنسيق أوSimpleإخراجه.DetailedSpeechRecognitionResultيحتوي على درجة الثقة والنص المتعرف عليه والشكل المعجمي الخام والنموذج الذي تمت تسويته والنموذج الذي تمت تسويته بألفاظ نابية مقنعة.
كسر التغيير
- تم التغيير إلى
SpeechRecognitionResult.TextمنSpeechRecognitionResult.RecognizedTextفي C#.
إصلاحات الأخطاء
- تم إصلاح مشكلة رد الاتصال المحتملة في طبقة USP أثناء إيقاف التشغيل.
- إذا استهلك أداة التعرف ملف إدخال صوت، فإنه كان يحتفظ بمعالج الملف لفترة أطول من اللازم.
- إزالة العديد من حالات التوقف التام بين مضخة الرسالة وأداة التعرف.
- إطلاق نتيجة
NoMatchعند انتهاء مهلة الاستجابة من الخدمة. - يتم تحميل مكتبات أساس الوسائط على Windows تأخير. هذه المكتبة مطلوبة لإدخال الميكروفون فقط.
- تقتصر سرعة تحميل البيانات الصوتية على ضعف سرعة الصوت الأصلية تقريبا.
- في Windows، أصبحت تجميعات C# .NET الآن قوية المسماة.
- إصلاح الوثائق:
Regionهو المعلومات المطلوبة لإنشاء أداة التعرف.
تمت إضافة المزيد من العينات ويجري تحديثها باستمرار. للحصول على أحدث مجموعة من العينات، راجع عينات Speech SDK GitHub المستودع.
Cognitive Services Speech SDK 0.2.12733: إصدار 2018-May
هذا الإصدار هو أول إصدار معاينة عامة من Cognitive Services Speech SDK.