ما الجديد في Azure الذكاء الاصطناعي Speech؟

يتم تحديث Azure الذكاء الاصطناعي Speech بشكل مستمر. للبقاء على اطلاع بآخر التطورات، توفر لك هذه المقالة معلومات حول الإصدارات والميزات الجديدة.

أهم النقاط الأخيرة

ملاحظات الإصدار

اختيار خدمة أو مورد

الخطط القادمة لمستخدمي Linux وAndroid:

تنبيه

تشير هذه المقالة إلى CentOS، وهو توزيع Linux يقترب من حالة نهاية العمر الافتراضي (EOL). يرجى مراعاة استخدامك والتخطيط وفقا لذلك. لمزيد من المعلومات، راجع إرشادات نهاية العمر الافتراضي CentOS.

  • وصل Ubuntu 18.04 أيضا إلى نهاية العمر الافتراضي في أبريل 2023، لذلك يجب على المستخدمين الاستعداد لنا لنقل الحد الأدنى من الإصدار إلى Ubuntu 20.04.

Speech SDK 1.37.0: إصدار 2024-أبريل

الميزات الجديدة

  • أضف دعما لتدفق نص الإدخال في تركيب الكلام.
  • تغيير صوت تركيب الكلام الافتراضي إلى en-US-AvaMultilingualNeural.
  • تحديث إصدارات Android لاستخدام OpenSSL 3.x.

إصلاح الأخطاء

العينات

  • تم تحديثه للميزات الجديدة.

Speech SDK 1.36.0: إصدار 2024-مارس

الميزات الجديدة

  • إضافة دعم لتعريف اللغة في الترجمة متعددة اللغات على نقاط النهاية v2 باستخدام AutoDetectSourceLanguageConfig::FromOpenRange().

إصلاح الأخطاء

  • لم يتم تشغيل حدث Fix SynthesisCanceled إذا تم استدعاء الإيقاف أثناء حدث SynthesisStarted.

  • إصلاح مشكلة الضوضاء في تركيب الكلام المضمن.

  • إصلاح عطل في التعرف على الكلام المضمن عند تشغيل عدة أدوات التعرف بالتوازي.

  • إصلاح إعداد وضع الكشف عن العبارة على نقاط النهاية v1/v2.

  • تصحيحات لمختلف المشكلات المتعلقة ب Microsoft Audio Stack.

العينات

  • التحديثات للميزات الجديدة.

Speech SDK 1.35.0: إصدار فبراير 2024

الميزات الجديدة

  • تغيير النص الافتراضي إلى صوت الكلام من en-US-JennyMultilingualNeural إلى en-US-AvaNeural.
  • دعم التفاصيل على مستوى الكلمات في نتائج ترجمة الكلام المضمنة باستخدام تنسيق الإخراج التفصيلي.

إصلاح الأخطاء

  • إصلاح AudioDataStream position getter API في Python.
  • إصلاح ترجمة الكلام باستخدام نقاط النهاية v2 دون الكشف عن اللغة.
  • إصلاح تعطل عشوائي وتكرار أحداث حد الكلمات في نص مضمن إلى كلام.
  • إرجاع رمز خطأ إلغاء صحيح لخطأ خادم داخلي على اتصالات WebSocket.
  • إصلاح الفشل في تحميل مكتبة FPIEProcessor.dll عند استخدام MAS مع C#‎.

العينات

  • تحديثات التنسيق الثانوية لعينات التعرف المضمنة.

Speech SDK 1.34.1: إصدار يناير 2024

كسر التغييرات

  • إصلاحات الأخطاء فقط

الميزات الجديدة

  • إصلاحات الأخطاء فقط

إصلاح الأخطاء

  • إصلاح الانحدار الذي تم تقديمه في 1.34.0 حيث تم إنشاء عنوان URL لنقطة نهاية الخدمة مع معلومات محلية سيئة للمستخدمين في العديد من مناطق الصين.

Speech SDK 1.34.0: إصدار نوفمبر 2023

كسر التغييرات

  • تم تحديث SpeechRecognizer لاستخدام نقطة نهاية جديدة بشكل افتراضي (أي عند عدم تحديد عنوان URL بشكل صريح) الذي لم يعد يدعم معلمات سلسلة الاستعلام لمعظم الخصائص. بدلا من تعيين معلمات سلسلة الاستعلام مباشرة باستخدام ServicePropertyChannel.UriQueryParameter، يرجى استخدام وظائف واجهة برمجة التطبيقات المقابلة.

الميزات الجديدة

  • التوافق مع .NET 8 (إصلاح باستثناء https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 التحذير حول centos7-x64)
  • دعم مقاييس أداء الكلام المضمنة التي يمكن استخدامها لتقييم قدرة الجهاز على تشغيل الكلام المضمن.
  • دعم تحديد لغة المصدر في الترجمة متعددة اللغات المضمنة.
  • دعم تحويل الكلام إلى نص المضمن والنص إلى كلام والترجمة لنظامي التشغيل iOS وSwift/Objective-C الذي تم إصداره في المعاينة.
  • يتم توفير الدعم المضمن في MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

إصلاح الأخطاء

  • إصلاح ل iOS SDK x2 مرات نمو الحجم الثنائي · المشكلة رقم 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • إصلاح تعذر الحصول على الطوابع الزمنية على مستوى الكلمات من azure speech إلى واجهة برمجة التطبيقات النصية · المشكلة رقم 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • إصلاح مرحلة تدمير DialogService الاتصال أو قطع اتصال الأحداث بشكل صحيح. كان هذا يسبب أعطال في بعض الأحيان.
  • إصلاح الاستثناء أثناء إنشاء أداة التعرف عند استخدام MAS.
  • FPIEProcessor.dll من حزمة Microsoft.CognitiveServices.Speech.Extension.MAS NuGet ل Windows UWP x64 وARM64 كانت تعتمد على مكتبات وقت تشغيل VC ل C++الأصلية. تم تصحيح المشكلة عن طريق تحديث التبعية لتصحيح مكتبات وقت تشغيل VC (ل UWP).
  • إصلاح استدعاءات [MAS] المتكررة لقراءات الوصول إلى عميل متوقع ل recognizeOnceAsync إلى SPXERR_ALREADY_INITIALIZED عند استخدام MAS · المشكلة رقم 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • إصلاح تعطل التعرف على الكلام المضمن عند استخدام قوائم العبارات.

العينات

  • نماذج iOS المضمنة لتحويل الكلام إلى نص والنص إلى كلام والترجمة.

Speech CLI 1.34.0: إصدار نوفمبر 2023

الميزات الجديدة

  • دعم إخراج أحداث حدود الكلمة عند تركيب الكلام.

إصلاح الأخطاء

  • تحديث تبعية JMESPath إلى أحدث إصدار، وتحسين تقييمات السلسلة

Speech SDK 1.33.0: إصدار أكتوبر 2023

إشعار التغيير العاجل

  • مطلوب الآن تضمين حزمة NuGet الجديدة المضافة ل Microsoft Audio Stack (MAS) من قبل التطبيقات التي تستخدم MAS في ملفات تكوين الحزمة الخاصة بها.

الميزات الجديدة

  • تمت إضافة حزمة NuGet الجديدة Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg، والتي توفر أداء محسنا لإلغاء الارتداد عند استخدام مكدس الصوت من Microsoft
  • تقييم النطق: دعم إضافي لتقييم التجسيد والمحتوى، والذي يمكن أن يقيم الكلام المنطوق من حيث التجسيد والمفردات والنحو والموضوع.

إصلاح الأخطاء

العينات

Speech CLI 1.33.0: إصدار أكتوبر 2023

الميزات الجديدة

  • دعم إخراج أحداث حدود الكلمة عند تركيب الكلام.

إصلاح الأخطاء

  • لا شيء

Speech SDK 1.32.1: إصدار سبتمبر 2023

إصلاح الأخطاء

  • حزم تحديثات Android مع أحدث إصلاحات الأمان من OpenSSL1.1.1v
  • JS – تمت إضافة خاصية WebWorkerLoadType للسماح بتجاوز تحميل عنوان URL للبيانات لعامل المهلة
  • JS – إصلاح قطع اتصال ترجمة المحادثة بعد 10 دقائق
  • JS – يتم الآن نشر الرمز المميز لمصادقة ترجمة المحادثة من المحادثة إلى اتصال خدمة الترجمة

العينات

Speech SDK 1.31.0: إصدار أغسطس 2023

ميزات جديدة

  • يتوفر دعم اليوميات في الوقت الحقيقي في المعاينة العامة باستخدام Speech SDK 1.31.0. تتوفر هذه الميزة في SDKs التالية: C# وC++وJava وJavaScript وPython و Objective-C/Swift.

  • حد كلمة تجميع الكلام المتزامن وأحداث viseme مع تشغيل الصوت

كسر التغييرات

  • تتم إعادة تسمية سيناريو "كتابة المحادثة" السابق إلى "نسخ الاجتماع". على سبيل المثال، استخدم MeetingTranscriber بدلا من ConversationTranscriber، واستخدم CreateMeetingAsync بدلا من CreateConversationAsync. على الرغم من تغيير أسماء كائنات SDK وأساليبها، فإن إعادة التسمية لا تغير الميزة نفسها. استخدم كائنات نسخ الاجتماعات لنسخ الاجتماعات باستخدام ملفات تعريف المستخدمين والتوقيعات الصوتية. راجع نسخ الاجتماع للحصول على مزيد من المعلومات. لا تتأثر كائنات وأساليب "ترجمة المحادثة" بهذه التغييرات. لا يزال بإمكانك استخدام ConversationTranslator الكائن وأساليبه لسيناريوهات ترجمة الاجتماع.
  • لليوميات في الوقت الحقيقي، يتم تقديم عنصر جديد ConversationTranscriber . نموذج عنصر "كتابة المحادثة" الجديد وأنماط الاستدعاء مشابهة للتعرف المستمر مع SpeechRecognizer الكائن. يتمثل الاختلاف الرئيسي في ConversationTranscriber أن العنصر مصمم لاستخدامه في سيناريو محادثة حيث تريد تمييز عدة مكبرات صوت (يوميات). ملفات تعريف المستخدمين والتوقيعات الصوتية غير قابلة للتطبيق. راجع البدء السريع للمذكرات في الوقت الحقيقي لمزيد من المعلومات.

يعرض هذا الجدول أسماء الكائنات السابقة والجديدة لليوميات في الوقت الحقيقي وكتابة الاجتماع. يوجد اسم السيناريو في العمود الأول، وأسماء الكائنات السابقة في العمود الثاني، وأسماء الكائنات الجديدة موجودة في العمود الثالث.
اسم السيناريو أسماء الكائنات السابقة أسماء الكائنات الجديدة
يوميات في الوقت الحقيقي ‏‫غير متوفر‬ ConversationTranscriber
نسخ الاجتماع ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant1
ParticipantChangedReason1
User1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting2

1ParticipantParticipantChangedReasonتنطبق العناصر و و User على كل من سيناريوهات كتابة الاجتماع وترجمة الاجتماع.

2 الكائن Meeting جديد ويستخدم مع MeetingTranscriber الكائن.

إصلاح الأخطاء

العينات

Speech SDK 1.30.0: إصدار يوليو 2023

ميزات جديدة

  • C++، C#، Java - تمت إضافة دعم ل DisplayWords في النتيجة التفصيلية للتعرف على الكلام المضمنة.
  • Objective-C/Swift - دعم إضافي للحدث ConnectionMessageReceived في Objective-C/Swift.
  • Objective-C/Swift - نماذج محسنة لتحديد الكلمة الأساسية لنظام التشغيل iOS. أدى هذا التغيير إلى زيادة حجم حزم معينة، والتي تحتوي على ثنائيات iOS (مثل NuGet وXCFramework). نحن نعمل على تقليل حجم الإصدارات المستقبلية.

إصلاح الأخطاء

  • تم إصلاح تسرب الذاكرة عند استخدام أداة التعرف على الكلام مع PhraseListGrammar، كما تم الإبلاغ عنه من قبل العميل (مشكلة GitHub).
  • تم إصلاح حالة توقف تام في واجهة برمجة تطبيقات اتصال فتح النص إلى الكلام.

ملاحظات إضافية

  • Java - تم تغيير بعض أساليب واجهة برمجة تطبيقات Java المستخدمة public داخليا إلى حزمة internalأو protected .private لا ينبغي أن يكون لهذا التغيير تأثير على المطورين، لأننا لا نتوقع أن تستخدم التطبيقات هذه التطبيقات. تمت الإشارة هنا من أجل الشفافية.

العينات

Speech SDK 1.29.0: إصدار يونيو 2023

ميزات جديدة

  • C++، C#، Java - معاينة واجهات برمجة تطبيقات ترجمة الكلام المضمنة. الآن يمكنك القيام بترجمة الكلام دون اتصال سحابي!
  • JavaScript - تعريف اللغة المستمر (LID) ممكن الآن لترجمة الكلام.
  • JavaScript - مساهمة المجتمع لإضافة LocaleName خاصية إلى VoiceInfo الفئة. شكرا لك مستخدم GitHub shivsarthak لطلب السحب.
  • C++، C#، Java - تمت إضافة دعم لإعادة تعيين النص المضمن إلى إخراج الكلام من معدل عينة 16 كيلوهرتز إلى 48 كيلوهرتز.
  • تمت إضافة دعم للإعدادات hi-IN المحلية في Intent Recognizer باستخدام Simple Pattern Matching.

إصلاح الأخطاء

  • تم إصلاح العطل الناجم عن حالة تعارض في Speech Recognizer أثناء تدمير الكائنات، كما هو الحال في بعض اختبارات Android
  • تم إصلاح حالات التوقف التام المحتملة في Intent Recognizer باستخدام Simple Pattern Matcher

العينات

  • نماذج ترجمة الكلام المضمنة الجديدة

Speech SDK 1.28.0: إصدار مايو 2023

كسر التغيير

  • JavaScript SDK: تمت إزالة بروتوكول حالة الشهادة عبر الإنترنت (OCSP). يسمح هذا للعملاء بالتوافق بشكل أفضل مع معايير المتصفح والعقدة لمعالجة الشهادات. لن يتضمن الإصدار 1.28 وما بعده وحدة OCSP المخصصة.

ميزات جديدة

  • يتم الآن إرجاع NoMatchReason::EndSilenceTimeout "التعرف على الكلام المضمن" عند حدوث مهلة الصمت في نهاية التعبير. يطابق هذا السلوك عند إجراء التعرف باستخدام خدمة الكلام في الوقت الحقيقي.
  • JavaScript SDK: تعيين الخصائص على SpeechTranslationConfig استخدام PropertyId قيم التعداد.

إصلاح الأخطاء

  • C# على Windows - إصلاح حالة السباق المحتملة/حالة التوقف التام في ملحق صوت Windows. في السيناريوهات التي يقوم كل منهما بالتخلص من عارض الصوت بسرعة وأيضا استخدام أسلوب Synthesizer للتوقف عن الكلام، لم تتم إعادة تعيين الحدث الأساسي عن طريق الإيقاف، وقد يتسبب في عدم التخلص من كائن العارض مطلقا، كل ذلك في حين أنه قد يكون يحمل تأمينا عموميا للتخلص منه، وتجميد مؤشر ترابط dotnet GC.

العينات

  • تمت إضافة نموذج كلام مضمن ل MAUI.
  • تحديث نموذج الكلام المضمن ل Android Java لتضمين نص إلى كلام.

Speech SDK 1.27.0: إصدار أبريل 2023

إعلام حول التغييرات القادمة

  • نخطط لإزالة بروتوكول حالة الشهادة عبر الإنترنت (OCSP) في إصدار JavaScript SDK التالي. يسمح هذا للعملاء بالتوافق بشكل أفضل مع معايير المتصفح والعقدة لمعالجة الشهادات. الإصدار 1.27 هو الإصدار الأخير الذي يتضمن وحدة OCSP المخصصة.

ميزات جديدة

  • JavaScript – دعم إضافي لإدخال الميكروفون من المتصفح باستخدام تعريف السماعة والتحقق منها.
  • التعرف على الكلام المضمن - تحديث دعم PropertyId::Speech_SegmentationSilenceTimeoutMs الإعداد.

إصلاح الأخطاء

  • عام - تحديثات الموثوقية في منطق إعادة توصيل الخدمة (جميع لغات البرمجة باستثناء JavaScript).
  • عام - إصلاح تحويلات السلسلة التي تسرب الذاكرة على Windows (جميع لغات البرمجة ذات الصلة باستثناء JavaScript).
  • التعرف على الكلام المضمن - إصلاح العطل في التعرف على الكلام الفرنسي عند استخدام إدخالات معينة في القائمة النحوية.
  • وثائق التعليمات البرمجية المصدر - تصحيحات لتعليقات الوثائق المرجعية ل SDK المتعلقة بتسجيل الصوت على الخدمة.
  • التعرف على الهدف - إصلاح أولويات مطابق النمط المتعلقة بكيانات القائمة.

العينات

  • معالجة فشل المصادقة بشكل صحيح في نموذج كتابة محادثة C# (CTS).
  • تمت إضافة مثال لتقييم النطق المتدفق ل Python وJavaScript و Objective-C و Swift.

Speech SDK 1.26.0: إصدار مارس 2023

كسر التغييرات

  • تم تعطيل Bitcode في جميع أهداف iOS في الحزم التالية: Cocoapod مع xcframework وNuGet (ل Xamarin وMAUI) وUnity. ويرجع التغيير إلى إهمال Apple لدعم bitcode من Xcode 14 وما بعده. يعني هذا التغيير أيضا إذا كنت تستخدم إصدار Xcode 13 أو قمت بتمكين رمز البت بشكل صريح على التطبيق الخاص بك باستخدام Speech SDK، فقد تواجه خطأ يقول "إطار العمل لا يحتوي على bitcode ويجب إعادة إنشائه". لحل هذه المشكلة، تأكد من تعطيل bitcode لأهدافك.
  • تمت ترقية الحد الأدنى من هدف توزيع iOS إلى 11.0 في هذا الإصدار، مما يعني أن armv7 HW لم يعد مدعوما.

الميزات الجديدة

  • يدعم التعرف على الكلام المضمن (على الجهاز) الآن صوت إدخال معدل أخذ العينات 8 و16 كيلوهرتز (16 بت لكل عينة، PCM أحادي).
  • يقوم Speech Synthesis الآن بالإبلاغ عن الاتصال وزمن انتقال الشبكة والخدمة في النتيجة للمساعدة في تحسين زمن الانتقال من طرف إلى طرف.
  • قواعد جديدة لكسر التعادل للتعرف على الهدف مع مطابقة نمط بسيط. كلما زاد عدد وحدات بايت الأحرف المتطابقة، ستفوز على تطابقات النمط مع عدد البايت الأقل للأحرف. مثال: سيفوز النمط "Select {something} في أعلى اليمين" على "Select {something}"

إصلاح الأخطاء

  • تركيب الكلام: قم بإصلاح خطأ حيث لا يكون رمز المشاعر صحيحا في أحداث حدود الكلمات.
  • التعرف على الهدف باستخدام فهم لغة المحادثة (CLU):
    • تظهر الأهداف من سير عمل CLU Orchestrator الآن بشكل صحيح.
    • تتوفر نتيجة JSON الآن عبر معرف LanguageUnderstandingServiceResponse_JsonResultالخاصية .
  • التعرف على الكلام مع تنشيط الكلمة الأساسية: إصلاح للصوت المفقود ~150 مللي ثانية بعد التعرف على الكلمة الأساسية.
  • إصلاح إصدار Speech SDK NuGet iOS MAUI، الذي أبلغ عنه العميل (مشكلة GitHub)

العينات

  • إصلاح عينة Swift iOS، التي أبلغ عنها العميل (مشكلة GitHub)

Speech SDK 1.25.0: إصدار يناير 2023

كسر التغييرات

  • تم تبسيط واجهات برمجة التطبيقات لتحديد اللغة (معاينة). إذا قمت بتحديث Speech SDK 1.25 وشاهدت فاصل بناء، فيرجى زيارة صفحة تحديد اللغة للتعرف على الخاصية SpeechServiceConnection_LanguageIdModeالجديدة . تحل هذه الخاصية الفردية محل الخاصيتين السابقتين SpeechServiceConnection_SingleLanguageIdPriority و SpeechServiceConnection_ContinuousLanguageIdPriority. لم يعد تحديد الأولويات بين زمن الانتقال المنخفض والدقة العالية ضروريا بعد تحسينات النموذج الأخيرة. الآن، تحتاج فقط إلى تحديد ما إذا كنت تريد تشغيل تعريف اللغة في البداية أو المستمر عند إجراء التعرف المستمر على الكلام أو الترجمة.

الميزات الجديدة

  • C#/C++/Java: تم الآن إصدار Embedded Speech SDK ضمن معاينة عامة مسورة. راجع وثائق الكلام المضمن (معاينة). يمكنك الآن إجراء تحويل الكلام إلى نص ونص إلى كلام على الجهاز عندما يكون الاتصال السحابي متقطعا أو غير متوفر. مدعوم على أنظمة Android وLinux وmacOS وWindows الأساسية
  • C# MAUI: تمت إضافة الدعم لأهداف iOS وMac Catalyst في Speech SDK NuGet (مشكلة العميل)
  • Unity: تمت إضافة بنية android x86_64 إلى حزمة Unity (مشكلة العميل)
  • الانتقال:
    • تمت إضافة دعم الدفق المباشر ALAW/MULAW للتعرف على الكلام (مشكلة العميل)
    • دعم إضافي ل PhraseListGrammar. شكرا لك مستخدم GitHub czkoko لمساهمة المجتمع!
  • C#/C++: يدعم Intent Recognizer الآن نماذج Conversational Language Understanding في C++ وC# مع التنسيق على خدمة Microsoft

إصلاح الأخطاء

  • إصلاح تعليق عرضي في KeywordRecognizer عند محاولة إيقافه
  • Python:
    • إصلاح للحصول على نتائج تقييم النطق عند PronunciationAssessmentGranularity.FullText تعيين (مشكلة العميل)
    • إصلاح خاصية الجنس لأصوات الذكور التي لا يتم استردادها، عند الحصول على أصوات تركيب الكلام
  • جافا سكريبت
    • إصلاح لتحليل بعض ملفات WAV التي تم تسجيلها على أجهزة iOS (مشكلة العميل)
    • يتم الآن إنشاء JS SDK دون استخدام npm-force-resolutions (مشكلة العميل)
    • يقوم المترجم المحادثة الآن بتعيين نقطة نهاية الخدمة بشكل صحيح عند استخدام مثيل speechConfig تم إنشاؤه باستخدام SpeechConfig.fromEndpoint()

العينات

  • عينات مضافة توضح كيفية استخدام الكلام المضمن

  • تمت إضافة Speech إلى نموذج نصي ل MAUI

    راجع مستودع عينات Speech SDK.

Speech SDK 1.24.2: إصدار نوفمبر 2022

الميزات الجديدة

  • لا توجد ميزات جديدة، فقط إصلاح محرك مضمن لدعم ملفات النموذج الجديدة.

إصلاح الأخطاء

  • جميع لغات البرمجة
    • تم إصلاح مشكلة تتعلق بتشفير نماذج التعرف على الكلام المضمنة.

Speech SDK 1.24.1: إصدار نوفمبر 2022

الميزات الجديدة

إصلاح الأخطاء

  • جميع لغات البرمجة
    • إصلاح تعطل TTS المضمن عندما لا يكون الخط الصوتي مدعوما
    • لا يمكن لإصلاح stopSpeaking() إيقاف التشغيل على Linux (#1686)
  • JavaScript SDK
    • تم إصلاح الانحدار في كيفية قيام ناسخ المحادثة ببوابة الصوت.
  • Java
    • تم نشر ملفات POM وJavadocs المحدثة مؤقتا إلى Maven Central لتمكين مسار المستندات من تحديث المستندات المرجعية عبر الإنترنت.
  • Python
    • إصلاح الانحدار حيث ترجع Python speak_text (ssml) فراغا.

Speech SDK 1.24.0: إصدار أكتوبر 2022

الميزات الجديدة

  • جميع لغات البرمجة: تمت إضافة AMR-WB (16khz) إلى القائمة المدعومة من تنسيقات إخراج صوت النص إلى الكلام
  • Python: تمت إضافة الحزمة ل Linux ARM64 لتوزيعات Linux المدعومة.
  • C#/C++/Java/Python: تمت إضافة الدعم للتدفق المباشر ل ALAW و MULAW إلى خدمة الكلام (بالإضافة إلى دفق PCM الحالي) باستخدام AudioStreamWaveFormat.
  • C# MAUI: تم تحديث حزمة NuGet لدعم أهداف Android لمطوري .NET MAUI (مشكلة العميل)
  • Mac: تمت إضافة XCframework منفصل لنظام التشغيل Mac، والذي لا يحتوي على أي ثنائيات iOS. يوفر هذا خيارا للمطورين الذين يحتاجون إلى ثنائيات Mac فقط باستخدام حزمة XCframework أصغر.
  • مكدس الصوت من Microsoft (MAS):
    • عند تحديد زوايا تشكيل الحزم، سيتم منع الصوت الذي ينشأ خارج النطاق المحدد بشكل أفضل.
    • انخفاض بنسبة 70٪ تقريبا في حجم libMicrosoft.CognitiveServices.Speech.extension.mas.so ل Linux ARM32 وLinux ARM64.
  • التعرف على الهدف باستخدام مطابقة النمط:
    • إضافة دعم تقويم اللغات frو deو esو jp
    • تمت إضافة دعم عدد صحيح تم إنشاؤه مسبقا للغة es.

إصلاح الأخطاء

  • iOS: إصلاح خطأ تركيب الكلام على iOS 16 بسبب فشل فك ترميز الصوت المضغوط (مشكلة العميل).
  • JavaScript:
    • إصلاح الرمز المميز للمصادقة الذي لا يعمل عند الحصول على قائمة صوت تجميع الكلام (مشكلة العميل).
    • استخدم عنوان URL للبيانات لتحميل العامل (مشكلة العميل).
    • إنشاء worklet لمعالج الصوت فقط عندما يكون AudioWorklet مدعوما في المستعرض (مشكلة العميل). كانت هذه مساهمة مجتمعية من قبل ويليام وونغ. شكرا لك ويليام!
    • إصلاح رد الاتصال الذي تم التعرف عليه عندما تكون استجابة connectionMessage LUIS فارغة (مشكلة العميل).
    • تعيين مهلة تجزئة الكلام بشكل صحيح.
  • التعرف على الهدف باستخدام مطابقة النمط:
    • سيتم الآن تحميل الأحرف غير json داخل النماذج بشكل صحيح.
    • إصلاح مشكلة معلقة عند recognizeOnceAsync(text) استدعاؤها أثناء التعرف المستمر.

Speech SDK 1.23.0: إصدار يوليو 2022

الميزات الجديدة

  • C#، C++، Java: دعم إضافي للغات zh-cn وzh-hkفي التعرف على الهدف باستخدام مطابقة النمط.
  • C#‎: دعم إضافي لبنيات AnyCPU .NET Framework

إصلاح الأخطاء

  • Android: تم إصلاح ثغرة OpenSSL الأمنية CVE-2022-2068 عن طريق تحديث OpenSSL إلى 1.1.1q
  • Python: إصلاح التعطل عند استخدام PushAudioInputStream
  • iOS: إصلاح "EXC_BAD_ACCESS: محاولة إلغاء مرجعية المؤشر الفارغ" كما تم الإبلاغ عنه على iOS (مشكلة GitHub)

Speech SDK 1.22.0: إصدار يونيو 2022

الميزات الجديدة

  • Java: IntentRecognitionResult API ل getEntities()، وتطبيقLanguageModels()، و recognizeOnceAsync(text) المضافة لدعم محرك "مطابقة النمط البسيط".
  • Unity: دعم إضافي لـ Mac M1 (Apple Silicon) لحزمة Unity (مشكلة GitHub)
  • C#‎: دعم إضافي x86_64 لـ Xamarin Android (مشكلة GitHub)
  • C#‎: تم إيقاف الإصدار الأدنى من .NET framework إلى الإصدار 4.6.2 لحزمة SDK C# كما تم إيقاف الإصدار 4.6.1 (راجع نهج دورة حياة المكون في Microsoft .NET Framework)
  • Linux: دعم إضافي لـ Debian 11 وUbuntu 22.04 LTS. يتطلب Ubuntu 22.04 LTS التثبيت اليدوي ل libssl1.1 إما كحزمة ثنائية من هنا (على سبيل المثال، libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb أو أحدث للإصدار x64)، أو عن طريق التحويل البرمجي من المصادر.

إصلاح الأخطاء

  • UWP: تمت إزالة تبعية OpenSSL من مكتبات UWP واستبدالها بـ WinRT websocket وHTTP APIs لتلبية التوافق الأمني والبصمة الثنائية الأصغر.
  • Mac: تم إصلاح مشكلة "MicrosoftCognitiveServicesSpeech Module Not Found" عند استخدام مشاريع Swift التي تستهدف نظام macOS الأساسي
  • Windows، Mac: تم إصلاح مشكلة خاصة بالنظام الأساسي حيث كانت مصادر الصوت التي تم تكوينها عبر الخصائص للبث بمعدل الوقت الحقيقي متخلفة في بعض الأحيان وتجاوزت السعة في النهاية

عينات (GitHub)

  • C#‎: تم تحديث نماذج إطار عمل .NET لاستخدام الإصدار 4.6.2
  • Unity: تم إصلاح عينة المساعد الظاهري لنظامي Android وUWP
  • Unity: تم تحديث نماذج Unity لإصدار Unity 2020 LTS

Speech SDK 1.21.0: إصدار أبريل 2022

الميزات الجديدة

  • Java وJavaScript: دعم إضافي لتحديد اللغة المستمرة عند استخدام كائن SpeechRecognizer
  • JavaScript: تمت إضافة واجهات برمجة تطبيقات التشخيص لتمكين مستوى تسجيل وحدة التحكم وتسجيل الملفات (العقدة فقط)، لمساعدة Microsoft على استكشاف المشكلات التي أبلغ عنها العميل وإصلاحها
  • Python: دعم إضافي لنسخ المحادثة
  • Go: دعم إضافي للتعرف على المتحدث
  • C++ وC#: تمت إضافة دعم لمجموعة مطلوبة من الكلمات في Intent Recognizer (مطابقة النمط البسيط). على سبيل المثال: "(set|start|begin) مؤقت" حيث يجب أن تكون "set" أو "start" أو "begin" موجودة للقصد الذي سيتم التعرف عليه.
  • جميع لغات البرمجة، تجميع الكلام: تمت إضافة خاصية المدة في أحداث حد الكلمات. إضافة دعم لحدود علامات الترقيم ونقط الجملة
  • Objective-C/Swift/Java: تمت إضافة نتائج على مستوى الكلمات على كائن نتيجة تقييم النطق (مشابه لـ C#). لم يعد التطبيق بحاجة إلى تحليل سلسلة نتائج JSON للحصول على معلومات على مستوى الكلمات (مشكلة GitHub)
  • النظام الأساسي لنظام التشغيل iOS: دعم تجريبي إضافي لبنية ARMv7

إصلاح الأخطاء

  • نظام iOS الأساسي: إصلاح للسماح بإنشاء الهدف "أي جهاز iOS"، عند استخدام CocoaPod (مشكلة GitHub)
  • نظام Android الأساسي: تم تحديث إصدار OpenSSL إلى 1.1.1n لإصلاح الثغرة الأمنية CVE-2022-0778
  • JavaScript: إصلاح مشكلة عدم تحديث رأس wav بحجم الملف (مشكلة GitHub)
  • JavaScript: إصلاح مشكلة توقف معرف الطلب عن العمل (مشكلة GitHub)
  • JavaScript: إصلاح المشكلة عند إنشاء مثيل SpeakerAudioDestination دون دفق (مشكلة GitHub]
  • C++‎: إصلاح عناوين C++ لإزالة تحذير عند التحويل البرمجي لـ C++17 أو أحدث

عينات GitHub

  • عينات Java جديدة للتعرف على الكلام مع تعريف اللغة
  • عينات PythonوJava جديدة لنسخ المحادثة
  • نموذج Go جديد للتعرف على السماعة
  • أداة C++ وC# جديدة لنظام التشغيل Windows تقوم بتعداد جميع أجهزة التقاط الصوت وعرضها، للعثور على معرف الجهاز الخاص بها. هذا المعرف مطلوب بواسطة Speech SDK إذا كنت تخطط لالتقاط الصوت من جهاز غير افتراضي أو عرض الصوت إليه.

Speech SDK 1.20.0: إصدار يناير 2022

الميزات الجديدة

  • Objective-C وSwift وPython: دعم إضافي لـ DialogServiceConnector، المستخدم لسيناريوهات مساعد الصوت.
  • Python: تمت إضافة دعم Python 3.10. تمت إزالة دعم Python 3.6، لكل end-of-life 3.6.
  • Unity: يتم الآن دعم Speech SDK لتطبيقات Unity على Linux.
  • C++، C#‎: IntentRecognizer باستخدام مطابقة النمط مدعوم الآن في C#. بالإضافة إلى ذلك، يتم الآن دعم السيناريوهات ذات الكيانات المخصصة والمجموعات الاختيارية وأدوار الكيان في C++ وC#.
  • C++، C#‎: تسجيل تتبع التشخيص المحسن باستخدام فئات جديدة FileLogger وDy memoryLogger وDyventLogger. تعد سجلات SDK أداة مهمة لـ Microsoft لتشخيص المشكلات التي أبلغ عنها العميل. تسهل هذه الفئات الجديدة على العملاء دمج سجلات Speech SDK في نظام التسجيل الخاص بهم.
  • جميع لغات البرمجة: يحتوي PronunciationAssessmentConfig الآن على خصائص لتعيين الأبجدية الصوتية المطلوبة (IPA أو SAPI) وN-Best Phoneme Count (تجنب الحاجة إلى تأليف تكوين JSON وفقا لإصدار GitHub 1284). أيضاً، يتم الآن دعم إخراج مستوى المقطع.
  • Android وiOS وmacOS (جميع لغات البرمجة): لم تعد هناك حاجة إلى GStreamer لدعم شبكات النطاق الترددي المحدود. يستخدم SpeechSynthesizer الآن قدرات فك ترميز الصوت لنظام التشغيل لفك تشفير الصوت المضغوط المتدفق من النص إلى خدمة الكلام.
  • جميع لغات البرمجة: يدعم SpeechSynthesizer الآن ثلاثة تنسيقات جديدة للمخرجات الأولية (دون حاوية)، والتي تستخدم على نطاق واسع في سيناريوهات البث المباشر.
  • JavaScript: تمت إضافة واجهة برمجة تطبيقات getVoicesAsync() إلى SpeechSynthesizer لاسترداد قائمة أصوات التوليف المدعومة (إصدار GitHub 1350)
  • JavaScript: تمت إضافة واجهة برمجة تطبيقات getWaveFormat() إلى AudioStreamFormat لدعم تنسيقات موجة غير PCM (إصدار GitHub 452)
  • JavaScript: تمت إضافة واجهات برمجة تطبيقات getter/setter وmute()/unmute() إلى SpeakerAudioDestination (إصدار GitHub 463)

إصلاح الأخطاء

  • C++، وC#، وJava، وJavaScript، وObjective-C، وSwift: إصلاح لإزالة تأخير 10 ثوانٍ أثناء إيقاف أداة التعرف على الكلام التي تستخدم PushAudioInputStream. هذا هو الحال حيث يتم دفع أي صوت جديد بعد استدعاء StopContinuousRecognition (مشكلات GitHub 1318، 331)
  • Unity على Android وUWP: تم إصلاح ملفات تعريف Unity لـ UWP وAndroid ARM64 نظام Windows الفرعي لـ Android (WSA) ARM64 (إصدار GitHub 1360)
  • iOS: يتم الآن إصلاح تجميع تطبيق Speech SDK على أي جهاز iOS عند استخدام CocoaPods (إصدار GitHub 1320)
  • iOS: عند تكوين SpeechSynthesizer لإخراج الصوت مباشرة إلى مكبر الصوت، توقف التشغيل في البداية في حالات نادرة. تم إصلاح هذا.
  • JavaScript: استخدام معالج البرنامج النصي الاحتياطي لإدخال الميكروفون إذا لم يتم العثور على عمل صوتي (GitHub المشكلة 455)
  • JavaScript: إضافة بروتوكول إلى العامل للتخفيف من الأخطاء التي تم العثور عليها مع تكامل Sentry (إصدار GitHub 465)

عينات GitHub

  • نماذج C++‎، وC#، وPython، وJava توضح كيفية الحصول على نتائج التعرف التفصيلية. تتضمن التفاصيل نتائج التعرف البديلة، ودرجة الثقة، والنموذج المعجمي، والنموذج العادي، والنموذج المقنع الذي تمت تسويته، مع توقيت على مستوى الكلمات لكل منها.
  • تمت إضافة عينة iOS باستخدام AVFoundation كمصدر صوت خارجي.
  • تمت إضافةنموذج Java لإظهار كيفية الحصول على تنسيق SRT (نص فرعي) باستخدام حدث WordBoundary.
  • عينات Android لتقييم النطق.
  • يعرض C++‎، C#‎ استخدام فئات تسجيل التشخيص الجديدة.

Speech SDK 1.19.0: إصدار 2021 - نوفمبر

النقاط الرئيسية

  • خدمة التعرف على المتحدث متاحة بشكل عام (GA) الآن. تتوفر واجهات برمجة تطبيقات Speech SDK على C++، وC#، وJava، وJavaScript. باستخدام التعرف على المتحدث، يمكنك التحقق من السماعات وتحديدها بدقة من خلال خصائصها الصوتية الفريدة. لمزيد من المعلومات حول هذا الموضوع، راجع الوثائق.

  • لقد أسقطنا الدعم عن Ubuntu 16.04 بالتزامن مع Azure DevOps وGitHub. وصل Ubuntu 16.04 إلى نهاية العمر الافتراضي مرة أخرى في أبريل 2021. ترحيل مهام سير عمل Ubuntu 16.04 إلى Ubuntu 18.04 أو أحدث.

  • تم تغيير ارتباط OpenSSL في ثنائيات Linux إلى ديناميكي. تم تقليل الحجم الثنائي لنظام Linux بنسبة 50٪ تقريبا.

  • تمت إضافة دعم السيليكون المستند إلى Mac M1 ARM.

الميزات الجديدة

  • C++/C#/Java: تمت إضافة واجهات برمجة تطبيقات جديدة لتمكين دعم معالجة الصوت لإدخال الكلام باستخدام Microsoft Audio Stack. الوثائق هنا.

  • C++‎: واجهات برمجة التطبيقات الجديدة للتعرف على الهدف لتسهيل مطابقة النمط الأكثر تقدما. ويشمل ذلك كيانات القائمة والأعداد الصحيحة التي تم إنشاؤها مسبقاً بالإضافة إلى دعم أهداف التجميع والكيانات كنماذج (الوثائق والتحديثات والعينات قيد التطوير وسيتم نشرها في المستقبل القريب).

  • Mac: دعم حزم ARM64 (M1) المستندة إلى Silicon ل CocoaPod وPython وJava وNuGet المتعلقة بإصدار GitHub 1244.

  • iOS/Mac: يتم الآن حزم ثنائيات iOS وmacOS في xcframework المتعلقة بإصدار GitHub 919.

  • iOS/Mac: دعم محفز Mac المتعلق بإصدار GitHub 1171.

  • Linux: تمت إضافة حزمة tar جديدة لـ CentOS7 بشأن Speech SDK. تحتوي حزمة Linux .tar الآن على مكتبات محددة لـ RHEL/CentOS 7 في lib/centos7-x64. لا تزال مكتبات Speech SDK في lib/x64 قابلة للتطبيق على جميع توزيعات Linux x64 المدعومة الأخرى (بما في ذلك RHEL/CentOS 8) ولن تعمل على RHEL/CentOS 7.

  • JavaScript: واجهات برمجة تطبيقات VoiceProfile و SpeakerRecognizer غير متزامنة/قابلة للانتظار.

  • JavaScript: تمت إضافة دعم لمناطق Azure التابعة للحكومة الأمريكية.

  • Windows: تمت إضافة الدعم للتشغيل على النظام الأساسي العام لـ Windows (UWP).

إصلاح الأخطاء

  • Android: تحديث أمان OpenSSL (محدث إلى الإصدار 1.1.1l) لحزم Android.

  • Python: تم حل الخطأ حيث فشل اختيار جهاز مكبر الصوت على Python.

  • Core: إعادة الاتصال تلقائياً عند فشل محاولة الاتصال.

  • iOS: تم تعطيل ضغط الصوت على حزم iOS بسبب عدم الاستقرار ومشاكل إنشاء bitcode عند استخدام GStreamer. تتوفر التفاصيل عبر إصدار GitHub 1209.

عينات GitHub

  • Mac/iOS: العينات المحدثة وقوالب التشغيل السريع لاستخدام حزمة xcframework.

  • .NET: تم تحديث العينات لاستخدام إصدار .NET core 3.1.

  • JavaScript: تمت إضافة عينة للمساعدين الصوتيين.

Speech SDK 1.18.0: إصدار 2021-يوليو

ملاحظة: ابدأ باستخدام Speech SDK هنا.

ملخص أهم النقاط

  • بلغ Ubuntu 16.04 نهاية العمر الافتراضي في أبريل 2021. باستخدام Azure DevOps وGitHub، سنسقط الدعم ل 16.04 في سبتمبر 2021. ترحيل مهام سير عمل ubuntu-16.04 إلى ubuntu-18.04 أو أحدث قبل ذلك.

الميزات الجديدة

  • C++‎: يسهل الآن مطابقة نمط اللغة البسيط مع Intent Recognizer تنفيذ سيناريوهات التعرف على الهدف البسيطة.
  • C++/C#/Java: أضفنا واجهة برمجة تطبيقات جديدة إلى GetActivationPhrasesAsync()VoiceProfileClient الفئة لتلقي قائمة بعبارات التنشيط الصالحة في مرحلة تسجيل التعرف على المتحدث لسيناريوهات التعرف المستقلة.
    • هام: ميزة التعرف على المتحدث في الإصدار الأولي. سيتم إيقاف جميع ملفات التعريف الصوتية التي تم إنشاؤها في المعاينة بعد 90 يوماً من نقل ميزة التعرف على المتحدث خارج المعاينة إلى التوفر العام. عند هذه النقطة ستتوقف معاينة ملفات تعريف الصوت عن العمل.
  • Python: دعم إضافي لتعريف اللغة المستمر (LID) على العناصر SpeechRecognizer الموجودة والعناصر TranslationRecognizer.
  • Python: تمت إضافة كائن Python جديد باسم SourceLanguageRecognizer للقيام بـ LID لمرة واحدة أو مستمرة (دون التعرف أو الترجمة).
  • JavaScript: getActivationPhrasesAsync تمت إضافة واجهة برمجة التطبيقات إلى VoiceProfileClient الفئة لتلقي قائمة بعبارات التنشيط الصالحة في مرحلة تسجيل التعرف على المتحدث لسيناريوهات التعرف المستقلة.
  • JavaScriptVoiceProfileClient' s enrollProfileAsync API هو الآن غير متزامنة في انتظار. راجع رمز التعريف المستقل هذا، على سبيل المثال، الاستخدام.

التحسينات

  • Java: تمت إضافة دعم AutoCloseable إلى العديد من عناصر Java. الآن يتم دعم نموذج try-with-resources لتحرير الموارد. راجع هذا النموذج الذي يستخدم try-with-resources. راجع أيضاً البرنامج التعليمي لوثائق Oracle Java لبيان تجربة الموارد للتعرف على هذا النمط.
  • تم تقليل بصمة القرص بشكل كبير للعديد من الأنظمة الأساسية والبنى. أمثلة للثنائي Microsoft.CognitiveServices.Speech.core : x64 Linux أصغر بـ 475 كيلوبايت (تقليل بنسبة 8.0٪)؛ ARM64 Windows UWP أصغر بـ 464 كيلوبايت (تخفيض بنسبة 11.5٪)؛ x86 Windows أصغر بـ 343 كيلوبايت (تخفيض بنسبة 17.5٪)؛ وx64 Windows أصغر بـ 451 كيلوبايت (تخفيض بنسبة 19.4٪).

إصلاح الأخطاء

  • Java: تم إصلاح خطأ التركيب عندما يحتوي نص التركيب على أحرف بديلة. التفاصيل هنا.
  • JavaScript: تستخدم AudioWorkletNode معالجة صوت ميكروفون المستعرض الآن بدلاً من إهمال.ScriptProcessorNode التفاصيل هنا.
  • JavaScript: حافظ على بقاء المحادثات على قيد الحياة بشكل صحيح أثناء سيناريوهات ترجمة المحادثات طويلة الأمد. التفاصيل هنا.
  • JavaScript: تم إصلاح مشكلة إعادة اتصال أداة التعرف بـ mediastream في التعرف المستمر. التفاصيل هنا.
  • JavaScript: تم إصلاح مشكلة إعادة اتصال أداة التعرف بـ pushStream في التعرف المستمر. التفاصيل هنا.
  • JavaScript: حساب إزاحة مستوى الكلمة المصحح في نتائج التعرف التفصيلية. التفاصيل هنا.

العينات

  • تم تحديث نماذج التشغيل السريع لـ Java هنا.
  • تم تحديث نماذج التعرف على مكبر صوت JavaScript لإظهار الاستخدام الجديد لـ enrollProfileAsync(). راجع العينات هنا.

Speech SDK 1.17.0: إصدار 2021-May

إشعار

ابدأ باستخدام Speech SDK هنا.

ملخص أهم النقاط

  • بصمة أصغر - نواصل تقليل الذاكرة وبصمة القرص لـ Speech SDK ومكوناته.
  • تتيح لك واجهة برمجة تطبيقات تعريف اللغة المستقلة الجديدة التعرف على اللغة التي يتم التحدث بها.
  • تطوير تطبيقات الحقيقة المختلطة والألعاب الممكنة للكلام باستخدام Unity على macOS.
  • يمكنك الآن استخدام النص إلى كلام بالإضافة إلى التعرف على الكلام من لغة البرمجة Go.
  • تم وضع علامة على GitHub العديد من إصلاحات الأخطاء لمعالجة المشكلات التي قمت أنت، عملائنا الكرام، بوضع علامة عليها! شكراً لك! استمر في تقديم الملاحظات!

الميزات الجديدة

  • C++/C#: At-Start مستقل جديد واكتشاف اللغة المستمرة عبر SourceLanguageRecognizer واجهة برمجة التطبيقات. إذا كنت تريد فقط الكشف عن اللغة (اللغات) المنطوقة في محتوى الصوت، فهذه هي واجهة برمجة التطبيقات للقيام بذلك. راجع تفاصيل C++‎وC#.
  • C++/C#: تدعم ميزة التعرف على الكلام والتعرف على الترجمة الآن تعريف اللغة في البداية والمستمر حتى تتمكن من تحديد اللغة (اللغات) التي يتم التحدث بها برمجيا قبل نسخها أو ترجمتها. راجع الوثائق هنا للتعرف على الكلاموهنا لترجمة الكلام.
  • C#‎: دعم إضافي لـ Unity لدعم macOS (x64). هذا يفتح التعرف على الكلام وحالات استخدام تركيب الكلام في الحقيقة المختلطة والألعاب!
  • Go: أضفنا دعما لنص تركيب الكلام إلى الكلام إلى لغة برمجة Go لجعل تركيب الكلام متاحا في المزيد من حالات الاستخدام. راجع دليل التشغيل السريع أو الوثائق المرجعية الخاصة بنا.
  • C++/C#/Java/Python/Objective-C/Go: يدعم تركيب الكلام الآن لكائن connection. يساعدك هذا على إدارة الاتصال بخدمة Speech ومراقبته، وهو مفيد بشكل خاص للاتصال المسبق لتقليل زمن الانتقال. انظر الوثائق هنا.
  • C++/C#/Java/Python/Objective-C/Go: نكشف الآن زمن الانتقال ونقل الوقت لمساعدتك في SpeechSynthesisResult مراقبة مشكلات زمن انتقال تركيب الكلام وتشخيصها. راجع تفاصيل C++‎، C#‎، Java، Python، Objective-CوGo.
  • C++/C#/Java/Python/Objective-C: يستخدم النص إلى كلام الآن الأصوات العصبية بشكل افتراضي عندما لا تحدد صوتا لاستخدامه. يمنحك هذا إخراج دقة أعلى بشكل افتراضي، ولكنه يزيد أيضاً السعر الافتراضي. يمكنك تحديد أي من أكثر من 70 صوتا قياسياً أو أكثر من 130 صوتاً عصبياً لتغيير الإعداد الافتراضي.
  • C++/C#/Java/Python/Objective-C/Go: أضفنا خاصية "الجنس" إلى المعلومات الصوتية التركيبية لتسهيل تحديد الأصوات استناداً إلى نوع الجنس. يعالج هذا مشكلة GitHub #1055.
  • C++، وC#، وJava، وJavaScript: ندعم الآن retrieveEnrollmentResultAsync، getAuthorizationPhrasesAsync وgetAllProfilesAsync() في التعرف على المتحدث لتسهيل إدارة المستخدم لجميع ملفات التعريف الصوتية لحساب معين. راجع وثائق C++‎، C#‎، Java، JavaScript. يعالج هذا مشكلة GitHub #338.
  • JavaScript: أضفنا إعادة المحاولة لفشل الاتصال الذي سيجعل تطبيقات الكلام المستندة إلى JavaScript أكثر قوة.

التحسينات

  • تم تحديث ثنائيات Linux وAndroid Speech SDK لاستخدام أحدث إصدار من OpenSSL (1.1.1k)
  • تحسينات حجم التعليمات البرمجية:
    • يتم الآن تقسيم فهم اللغة إلى مكتبة "lu" منفصلة.
    • انخفض الحجم الثنائي الأساسي لـ Windows x64 بنسبة 14.4٪.
    • انخفض حجم ثنائي Android ARM64 الأساسي بنسبة 13.7٪.
    • كما انخفض حجم المكونات الأخرى.

إصلاح الأخطاء

  • الكل: تم إصلاح مشكلة GitHub #842 لـ ServiceTimeout. يمكنك الآن نسخ ملفات صوتية طويلة باستخدام Speech SDK دون الاتصال بالخدمة التي تنتهي بهذا الخطأ. ومع ذلك، ما زلنا نوصي باستخدام النسخ الدفعي للملفات الطويلة.
  • C#‎: تم إصلاح مشكلة GitHub #947 حيث لا يمكن لإدخال الكلام ترك تطبيقك في حالة سيئة.
  • Java: تم إصلاح مشكلة GitHub #997 حيث يتعطل Speech SDK لـ Java 1.16 عند استخدام DialogServiceConnector دون اتصال بالشبكة أو مفتاح اشتراك غير صالح.
  • تم إصلاح العطل عند إيقاف التعرف على الكلام فجأة (على سبيل المثال، استخدام CTRL+C على تطبيق وحدة التحكم).
  • Java: تمت إضافة إصلاح لحذف الملفات المؤقتة على Windows عند استخدام Speech SDK لـ Java.
  • Java: تم إصلاح مشكلة GitHub #994 حيث قد يؤدي الاستدعاء DialogServiceConnector.stopListeningAsync إلى حدوث خطأ.
  • Java: تم إصلاح مشكلة العميل في التشغيل السريع المساعد الظاهري.
  • JavaScript: تم إصلاح مشكلة GitHub #366 حيث ConversationTranslator ألقى خطأ 'this.cancelSpeech ليست دالة'.
  • JavaScript: تم إصلاح مشكلة GitHub #298 حيث تم تشغيل عينة "الحصول على النتيجة كتدفق في الذاكرة" بصوت عال.
  • JavaScript: تم إصلاح مشكلة GitHub #350 حيث قد يؤدي الاستدعاء AudioConfig إلى 'ReferenceError: MediaStream غير محدد'.
  • JavaScript: تم إصلاح تحذير UnhandledPromiseRejection في Node.js للجلسات طويلة الأمد.

العينات

Speech SDK 1.16.0: إصدار 2021-مارس

إشعار

يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك لـ Visual Studio 2015 و2017 و2019. قم بتنزيله من هنا.

الميزات الجديدة

  • C++/C#/Java/Python: انتقل إلى أحدث إصدار من GStreamer (1.18.3) لإضافة دعم لنسخ أي تنسيق وسائط على Windows وLinux وAndroid. انظر الوثائق هنا.
  • C++/C#/Java/Objective-C/Python: تمت إضافة دعم لفك ترميز الصوت المضغوط TTS/المركب إلى SDK. إذا قمت بتعيين تنسيق صوت الإخراج إلى PCM وكان GStreamer متوفراً على النظام الخاص بك، فسيطلب SDK الصوت المضغوط تلقائياً من الخدمة لحفظ النطاق الترددي وفك تشفير الصوت على العميل. يمكنك تعيين SpeechServiceConnection_SynthEnableCompressedAudioTransmission لـ false لتعطيل هذه الميزة. تفاصيل C ++، C#‎، Java، Objective-C، Python.
  • JavaScript: يمكن للمستخدمين Node.js الآن استخدام AudioConfig.fromWavFileInput واجهة برمجة التطبيقات. يعالج هذا مشكلة GitHub #252.
  • C++/C#/Java/Objective-C/Python: طريقة إضافية GetVoicesAsync() لـ TTS لإرجاع جميع الأصوات التركيبية المتوفرة. تفاصيل C++‎، C#‎، Java، Objective-C، وPython.
  • C++/C#/Java/JavaScript/Objective-C/Python: حدث إضافي VisemeReceived لتركيب TTS/الكلام لإرجاع حركة viseme متزامنة. انظر الوثائق هنا.
  • C++/C#/Java/JavaScript/Objective-C/Python: حدث إضافي BookmarkReached لـ TTS. يمكنك تعيين الإشارات المرجعية في إدخال SSML والحصول على إزاحات الصوت لكل إشارة مرجعية. انظر الوثائق هنا.
  • Java: دعم إضافي لواجهات برمجة تطبيقات التعرف على المتحدث. التفاصيل هنا.
  • C++/C#/Java/JavaScript/Objective-C/Python: تمت إضافة تنسيقين جديدين لصوت الإخراج باستخدام حاوية WebM لـ TTS (Webm16Khz16BitMonoOpus وWebm24Khz16BitMonoOpus). هذه تنسيقات أفضل لبث الصوت باستخدام برنامج ترميز Opus. تفاصيل C ++، C#‎، Java، JavaScript، Objective-C، Python.
  • C++/C#/Java: تمت إضافة دعم لاسترداد ملف التعريف الصوتي لسيناريو التعرف على المتحدث. تفاصيل C++‎، وC#، وJava.
  • C++/C#/Java/Objective-C/Python: تمت إضافة دعم لمكتبة مشتركة منفصلة لميكروفون الصوت والتحكم في السماعة. يسمح هذا للمطور باستخدام SDK في البيئات التي لا تحتوي على تبعيات مكتبة الصوت المطلوبة.
  • Objective-C/Swift: دعم إضافي لإطار عمل الوحدة النمطية مع رأس مظلة. يسمح هذا للمطور باستيراد Speech SDK كوحدة نمطية في تطبيقات iOS/Mac Objective-C/Swift. يعالج هذا مشكلة GitHub #452.
  • Python: تمت إضافة دعم لـ Python 3.9 وتراجع الدعم لـ Python 3.5 لكل نهاية حياة Python لمدة 3.5.

المشاكل المعروفة

  • C++/C#/Java: DialogServiceConnector لا يمكن استخدام CustomCommandsConfig للوصول إلى تطبيق أوامر مخصصة وسيواجه بدلا من ذلك خطأ في الاتصال. يمكن حل هذه المشكلة عن طريق إضافة معرف التطبيق يدوياً إلى الطلب باستخدام config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). ستتم استعادة السلوك CustomCommandsConfig المتوقع في الإصدار التالي.

التحسينات

  • كجزء من جهودنا متعددة الإصدارات لتقليل استخدام ذاكرة Speech SDK وبصمة القرص، أصبحت ثنائيات Android الآن أصغر بنسبة 3٪ إلى 5٪.
  • الأقسام المحسنة للدقة وقابلية القراءة والاطلاع أيضاً على الوثائق المرجعية لـ C#‎ هنا.

إصلاح الأخطاء

  • JavaScript: يتم الآن تحليل عناوين ملفات WAV الكبيرة بشكل صحيح (يزيد شريحة العنوان إلى 512 بايت). يعالج هذا مشكلة GitHub #962.
  • JavaScript: تم تصحيح مشكلة توقيت الميكروفون إذا انتهى دفق الميكروفون قبل إيقاف التعرف، ومعالجة مشكلة عدم عمل "التعرف على الكلام" في Firefox.
  • JavaScript: نتعامل الآن بشكل صحيح مع وعد التهيئة عندما يفرض المستعرض إيقاف تشغيل الميكروفون قبل اكتمال turnOn.
  • JavaScript: استبدلنا تبعية عنوان URL بتحليل url. يعالج هذا مشكلة GitHub #264.
  • Android: عمليات رد الاتصال الثابتة لا تعمل عندما يتم تعيين minifyEnabled إلى true.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY سيتم تعيينه بشكل صحيح إلى IO مأخذ التوصيل الأساسي لـ TTS لتقليل زمن الانتقال.
  • C++/C#/Java/Python/Objective-C/Go: تم إصلاح العطل العرضي عند تدمير أداة التعرف بعد بدء التعرف.
  • C++/C#/Java: تم إصلاح تعطل عرضي في تدمير أداة التعرف على المتحدث.

العينات

Speech SDK 1.15.0: إصدار 2021-يناير

إشعار

يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك لـ Visual Studio 2015 و2017 و2019. قم بتنزيله من هنا.

ملخص أهم النقاط

  • ذاكرة أصغر وبصمة القرص ما يجعل SDK أكثر كفاءة.
  • تتوفر تنسيقات إخراج عالية الدقة للمعاينة الخاصة للصوت العصبي المخصص.
  • يمكن أن تحصل أداة Intent Recognizer الآن على عائد أكبر من الهدف الأعلى، ما يمنحك القدرة على إجراء تقييم منفصل بشأن نية عميلك.
  • أصبح إعداد المساعدين الصوتيين والروبوتات أسهل الآن، ويمكنك جعله يتوقف عن الاستماع على الفور، وممارسة تحكم أكبر في كيفية استجابته للأخطاء.
  • تم تحسين أداء الجهاز من خلال جعل الضغط اختيارياً.
  • استخدم Speech SDK على Windows ARM/ARM64.
  • تحسين التصحيح منخفض المستوى.
  • تتوفر الآن ميزة تقييم النطق على نطاق أوسع.
  • تم وضع علامة على GitHub العديد من إصلاحات الأخطاء لمعالجة المشكلات التي قمت أنت، عملائنا الكرام، بوضع علامة عليها! شكراً لك! استمر في تقديم الملاحظات!

التحسينات

  • أصبح Speech SDK الآن أكثر كفاءة وخفة الوزن. لقد بدأنا جهداً متعدد الإصدارات لتقليل استخدام ذاكرة Speech SDK وبصمة القرص. كخطوة أولى، قمنا بإجراء تخفيضات كبيرة في حجم الملفات في المكتبات المشتركة على معظم الأنظمة الأساسية. مقارنة بإصدار 1.14:
    • مكتبات Windows المتوافقة مع UWP 64 بت أصغر بنسبة 30٪ تقريباً.
    • مكتبات Windows 32 بت لا ترى بعد تحسنا في الحجم.
    • مكتبات Linux أصغر بنسبة 20-25٪.
    • مكتبات Android أصغر بنسبة 3-5٪.

الميزات الجديدة

  • الكل: تنسيقات إخراج 48 كيلوهرتز جديدة متاحة للمعاينة الخاصة للصوت العصبي المخصص من خلال واجهة برمجة تطبيقات تركيب كلام TTS: Audio48Khz192 كيلوبايت itRateMonoMp3، audio-48khz-192kbitrate-mono-mp3، Audio48Khz96 كيلوبايت itRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • الكل: الصوت المخصص أسهل أيضاً في الاستخدام. تمت إضافة دعم لإعداد الصوت المخصص عبر EndpointId (C++‎، C#‎، Java، JavaScript، Objective-C، Python). قبل هذا التغيير، كان مستخدمو الصوت المخصصون بحاجة إلى تعيين عنوان URL لنقطة النهاية عبر الأسلوب FromEndpoint. الآن يمكن للعملاء استخدام الأسلوب FromSubscription تماماً مثل الأصوات التي تم إنشاؤها مسبقاً، ثم توفير معرف النشر عن طريق إعداد EndpointId. وهذا يبسط إعداد الأصوات المخصصة.
  • C++/C#/Java/Objective-C/Python: احصل على أكثر من الهدف الأعلى منIntentRecognizer. وهو يدعم الآن تكوين نتيجة JSON التي تحتوي على جميع الأهداف وليس فقط هدف تسجيل النقاط الأعلى عبر LanguageUnderstandingModel FromEndpoint الأسلوب باستخدام verbose=true معلمة uri. يعالج هذا مشكلة GitHub #880. راجع الوثائق المحدثة هنا.
  • C++/C#/Java: اجعل المساعد الصوتي أو الروبوت يتوقف عن الاستماع على الفور. DialogServiceConnector (C++‎، C#‎، Java) الآن لديه StopListeningAsync() أسلوب لمرافقته ListenOnceAsync(). سيؤدي هذا إلى إيقاف التقاط الصوت فوراً وانتظار نتيجة برشاقة، ما يجعلها مثالية للاستخدام مع سيناريوهات الضغط على الزر "التوقف الآن".
  • C++/C#/Java/JavaScript: اجعل المساعد الصوتي أو الروبوت يتفاعل بشكل أفضل مع أخطاء النظام الأساسية. DialogServiceConnector (C++‎، C#‎، JavaJavaScript) لديه الآن معالج أحداث جديد TurnStatusReceived. تتوافق هذه الأحداث الاختيارية مع كل حل ITurnContext على الروبوت وستقوم بالإبلاغ عن حالات فشل التنفيذ عند حدوثها، على سبيل المثال، نتيجة استثناء غير معالج أو انتهاء المهلة أو انقطاع الشبكة بين Direct Line Speech والروبوت. TurnStatusReceived يسهل الاستجابة لشروط الفشل. على سبيل المثال، إذا استغرق برنامج الروبوت وقتاً طويلاً في استعلام قاعدة بيانات خلفية (على سبيل المثال، البحث عن منتج)، TurnStatusReceived يسمح للعميل بمعرفة إعادة المحاولة بـ "آسف، لم أفهم ذلك تماماً، هل يمكنك من فضلك المحاولة مرة أخرى "أو شيء من هذا القبيل.
  • C++/C#: استخدم Speech SDK على المزيد من الأنظمة الأساسية. تدعم حزمة Speech SDK NuGet الآن ثنائيات سطح المكتب الأصلية لـ Windows ARM/ARM64 (تم دعم UWP بالفعل) لجعل Speech SDK أكثر فائدة على المزيد من أنواع الأجهزة.
  • Java: DialogServiceConnector الآن لديه setSpeechActivityTemplate() أسلوب تم استبعاده عن غير قصد من اللغة مسبقاً. وهذا يعادل تعيين الخاصية Conversation_Speech_Activity_Template وسيطلب أن تقوم جميع أنشطة Bot Framework المستقبلية التي نشأت بواسطة خدمة Direct Line Speech بدمج المحتوى المقدم في حمولات JSON الخاصة بهم.
  • Java: تصحيح الأخطاء منخفض المستوى محسن. تحتوي Connection الفئة الآن على MessageReceived حدث، على غرار لغات البرمجة الأخرى (C++، C#). يوفر هذا الحدث وصولاً منخفض المستوى إلى البيانات الواردة من الخدمة ويمكن أن يكون مفيداً للتشخيص وتصحيح الأخطاء.
  • JavaScript: إعداد أسهل للمساعدين الصوتيين والروبوتات من خلال BotFrameworkConfig، والذي يحتوي fromHost() الآن على أساليب المصنع fromEndpoint() التي تبسط استخدام مواقع الخدمة المخصصة مقابل تعيين الخصائص يدوياً. كما قمنا بتوحيد المواصفات الاختيارية botId لاستخدام روبوت غير افتراضي عبر مصانع التكوين.
  • JavaScript: تم تحسينه على أداء الجهاز من خلال خاصية التحكم في السلسلة المضافة لضغط websocket. لأسباب تتعلق بالأداء، قمنا بتعطيل ضغط websocket افتراضياً. يمكن إعادة تمكين هذا لسيناريوهات النطاق الترددي المنخفض. مزيد من التفاصيل هنا. يعالج هذا مشكلة GitHub #242.
  • JavaScript: دعم إضافي لتقييم lPronunciation لتمكين تقييم نطق الكلام. راجع التشغيل السريع هنا.

إصلاح الأخطاء

  • الكل (باستثناء JavaScript): تم إصلاح الانحدار في الإصدار 1.14، حيث تم تخصيص الكثير من الذاكرة من قبل أداة التعرف.
  • C++‎: تم إصلاح مشكلة تجميع البيانات المهملة مع DialogServiceConnector، ومعالجة مشكلة GitHub #794.
  • C#‎: تم إصلاح مشكلة إيقاف تشغيل مؤشر الترابط التي تسببت في حظر العناصر لمدة ثانية تقريبا عند التخلص منها.
  • C++/C#/Java: تم إصلاح استثناء يمنع التطبيق من تعيين الرمز المميز لتخويل الكلام أو قالب النشاط أكثر من مرة على DialogServiceConnector.
  • C++/C#/Java: تم إصلاح تعطل أداة التعرف بسبب حالة تعارض في حالة الانهيار.
  • JavaScript: DialogServiceConnector لم يحترم مسبقاً المعلمة الاختيارية botId المحددة في BotFrameworkConfigالمصانع. جعل ذلك من الضروري تعيين معلمة botId سلسلة الاستعلام يدوياً لاستخدام روبوت غير افتراضي. تم تصحيح botId الخطأ وسيتم احترام القيم المقدمة إلى BotFrameworkConfigالمصانع واستخدامها، بما في ذلك الجديد fromHost() والإضافات fromEndpoint(). ينطبق هذا أيضاً على المعلمة applicationId لـ CustomCommandsConfig.
  • JavaScript: تم إصلاح مشكلة GitHub #881، ما يسمح بإعادة استخدام عنصر أداة التعرف.
  • JavaScript: تم إصلاح مشكلة إرسال speech.config SKD عدة مرات في جلسة TTS واحدة، ما يضيع النطاق الترددي.
  • JavaScript: معالجة الأخطاء المبسطة على تخويل الميكروفون، ما يسمح بظرف رسالة وصفية أكثر عندما لا يسمح المستخدم بإدخال الميكروفون على متصفحه.
  • JavaScript: تم إصلاح مشكلة GitHub #249 حيث أخطاء النوع في وتسببت ConversationTranslator في ConversationTranscriber حدوث خطأ في التحويل البرمجي لمستخدمي TypeScript.
  • Objective-C: تم إصلاح مشكلة فشل إنشاء GStreamer لنظام التشغيل iOS على Xcode 11.4، مع معالجة مشكلة GitHub #911.
  • Python: تم إصلاح مشكلة GitHub #870، وإزالة "DeprecationWarning: يتم إهمال وحدة imp لصالح importlib".

العينات

Speech SDK 1.14.0: إصدار 2020-أكتوبر

إشعار

يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك لـ Visual Studio 2015 و2017 و2019. قم بتنزيله من هنا.

الميزات الجديدة

  • Linux: دعم إضافي لـ Debian 10 وUbuntu 20.04 LTS.
  • Python/Objective-C: دعم إضافي لواجهة KeywordRecognizer برمجة التطبيقات. ستكون الوثائق هنا.
  • C++/Java/C#: دعم إضافي لتعيين أي HttpHeader مفتاح/قيمة عبر ServicePropertyChannel::HttpHeader.
  • JavaScript: دعم إضافي لواجهة ConversationTranscriber برمجة التطبيقات. اقرأ الوثائق من هنا.
  • C++/C#: تمت إضافة أسلوب جديد AudioDataStream FromWavFileInput (لقراءة . ملفات WAV) هنا (C++)وهنا (C#).
  • C++/C#/Java/Python/Objective-C/Swift: تمت إضافة stopSpeakingAsync() طريقة لإيقاف النص إلى تركيب الكلام. اقرأ الوثائق المرجعية هنا (C++)، هنا (C#)، هنا (Java)، هنا (Python)، وهنا (Objective-C/Swift).
  • C#، C++، Java: تمت إضافة دالة FromDialogServiceConnector()Connection إلى الفئة التي يمكن استخدامها لمراقبة أحداث الاتصال وقطع الاتصال لـ DialogServiceConnector. اقرأ الوثائق المرجعية هنا (C#)، هنا (C++)، وهنا (Java).
  • C ++ / C # / Java / Python / Objective-C / Swift : تمت إضافة دعم لتقييم النطق، والذي يقيم نطق الكلام ويقدم للمتحدثين ملاحظات بشأن دقة الصوت المنطوق وطلاقة. اقرأ الوثائق من هنا.

كسر التغيير

  • JavaScript: يحتوي PullAudioOutputStream.read() على تغيير نوع إرجاع من تعهد داخلي إلى تعهد JavaScript أصلي.

إصلاح الأخطاء

  • الكل: تم إصلاح الانحدار 1.13 حيث SetServiceProperty تم تجاهل القيم ذات أحرف خاصة معينة.
  • C#‎: فشلت عينات وحدة تحكم Windows الثابتة في Visual Studio 2019 في العثور على DLLs الأصلية.
  • C#‎: تم إصلاح العطل مع إدارة الذاكرة إذا تم استخدام الدفق كإدخال KeywordRecognizer.
  • ObjectiveC/Swift: تم إصلاح العطل مع إدارة الذاكرة إذا تم استخدام الدفق كإدخال لأداة التعرف.
  • Windows: تم إصلاح مشكلة التعايش مع BT HFP/A2DP على UWP.
  • JavaScript: تعيين ثابت لمعرفات الجلسة لتحسين التسجيل والمساعدة في ارتباطات التصحيح/الخدمة الداخلية.
  • JavaScript: تمت إضافة إصلاح لتعطيل DialogServiceConnectorListenOnce المكالمات بعد إجراء المكالمة الأولى.
  • JavaScript: تم إصلاح المشكلة حيث سيكون إخراج النتيجة "بسيطاً" فقط.
  • JavaScript: تم إصلاح مشكلة التعرف المستمر في Safari على macOS.
  • JavaScript: تخفيف تحميل وحدة المعالجة المركزية لسيناريو معدل النقل العالي للطلب.
  • JavaScript: السماح بالوصول إلى تفاصيل نتيجة تسجيل ملف تعريف الصوت.
  • JavaScript: تمت إضافة إصلاح للتعرف المستمر في IntentRecognizer.
  • C++/C#/Java/Python/Swift/ObjectiveC: تم إصلاح عنوان url غير صحيح لـ australiaeast وbrazilsouth في IntentRecognizer.
  • C++/C#: تمت إضافته VoiceProfileType كوسيطة عند إنشاء عنصر VoiceProfile.
  • C++/C#/Java/Python/Swift/ObjectiveC: إمكانية SPX_INVALID_ARG ثابتة عند محاولة القراءة AudioDataStream من موضع معين.
  • IOS: تم إصلاح العطل مع التعرف على الكلام على Unity

العينات

  • ObjectiveC: تمت إضافة عينة للتعرف على الكلمة الأساسية هنا.
  • C#/JavaScript: تمت إضافة التشغيل السريع لنسخ المحادثة هنا (C#)وهنا (JavaScript).
  • C++/C#/Java/Python/Swift/ObjectiveC: تمت إضافة عينة لتقييم النطق هنا
  • Xamarin: التشغيل السريع المحدث لأحدث قالب Visual Studio هنا.

المشكلة المعروفة

  • لا يتم دعم شهادة DigiCert Global Root G2 افتراضياً في HoloLens 2 وAndroid 4.4 (KitKat) وتحتاج إلى إضافتها إلى النظام لجعل Speech SDK يعمل. ستتم إضافة الشهادة إلى صور نظام التشغيل HoloLens 2 في المستقبل القريب. يحتاج عملاء Android 4.4 إلى إضافة الشهادة المحدثة إلى النظام.

اختبار COVID-19 المختصر

نظراً للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء الكثير من اختبارات التحقق اليدوي كما نفعل عادة. لم نجري أي تغييرات نعتقد أنها قد كسرت أي شيء، واجتزت جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، يرجى إعلامنا على GitHub.
حافظ على صحتك!

Speech SDK 1.13.0: إصدار 2020-يوليو

إشعار

يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك لـ Visual Studio 2015 و2017 و2019. لتحميله وتثبيته من هنا.

الميزات الجديدة

  • C#‎: دعم إضافي لنسخ المحادثة غير المتزامنة. انظر الوثائق هنا.
  • JavaScript: تمت إضافة دعم التعرف على المتحدث لكل من المتصفحNode.js.
  • JavaScript: دعم إضافي لتعريف اللغة/معرف اللغة. انظر الوثائق هنا.
  • Objective-C: دعم إضافي للمحادثة متعددة الأجهزة وكتابة المحادثة.
  • Python: تمت إضافة دعم صوت مضغوط لـ Python على Windows وLinux. انظر الوثائق هنا.

إصلاح الأخطاء

  • الكل: تم إصلاح مشكلة تسببت في عدم تحريك KeywordRecognizer إلى الأمام في التدفقات بعد التعرف.
  • الكل: تم إصلاح مشكلة تسببت في عدم احتواء الدفق الذي تم الحصول عليه من KeywordRecognitionResult على الكلمة الأساسية.
  • الكل: تم إصلاح مشكلة عدم قيام SendMessageAsync بإرسال الرسالة عبر السلك بعد انتهاء المستخدمين من انتظارها.
  • الكل: تم إصلاح عطل في واجهات برمجة تطبيقات التعرف على السماعات عندما يتصل المستخدمون بالطريقة VoiceProfileClient::SpeakerRecEnrollProfileAsync عدة مرات ولم ينتظروا حتى تنتهي المكالمات.
  • الكل: تم إصلاح تمكين تسجيل الملفات في فئتي VoiceProfileClient وSpeakerRecognizer.
  • JavaScript: تم إصلاح مشكلة التقييد عند تصغير المستعرض.
  • JavaScript: تم إصلاح مشكلة تسرب الذاكرة على التدفقات.
  • JavaScript: إضافة التخزين المؤقت لاستجابات OCSP من NodeJS.
  • Java: تم إصلاح مشكلة كانت تتسبب في إرجاع حقول BigInteger دائماً 0.
  • iOS: تم إصلاح مشكلة نشر التطبيقات المستندة إلى Speech SDK في App Store iOS.

العينات

  • C++‎: تمت إضافة نموذج التعليمات البرمجية للتعرف على المتحدث هنا.

اختبار COVID-19 المختصر

نظراً للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء الكثير من اختبارات التحقق اليدوي كما نفعل عادة. لم نجري أي تغييرات نعتقد أنها قد كسرت أي شيء، واجتزت جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، يرجى إعلامنا على GitHub.
حافظ على صحتك!

Speech SDK 1.12.1: إصدار 2020-يونيو

الميزات الجديدة

إصلاح الأخطاء

  • C#، C++‎: لم يكن تسجيل الميكروفون الثابت يعمل في 1.12 في التعرف على السماعة.
  • JavaScript: إصلاحات لتحويل النص إلى كلام في Firefox وSafari على macOS وiOS.
  • إصلاح تعطل انتهاك الوصول إلى مدقق تطبيق Windows عند كتابة المحادثة عند استخدام دفق ثماني قنوات.
  • إصلاح تعطل انتهاك الوصول إلى مدقق تطبيق Windows على ترجمة المحادثات متعددة الأجهزة.

العينات

اختبار COVID-19 المختصر

نظراً للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء الكثير من اختبارات التحقق اليدوي كما نفعل عادة. لم نجري أي تغييرات نعتقد أنها قد كسرت أي شيء، واجتزت جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، يرجى إعلامنا على GitHub.
حافظ على صحتك!

Speech SDK 1.12.0: إصدار 2020-May

الميزات الجديدة

  • Go: دعم لغة Go الجديدة للتعرف على الكلاموالمساعد الصوتي المخصص. إعداد بيئة التطوير الخاص بك هنا. للحصول على نموذج التعليمات البرمجية، راجع قسم Samples أدناه.
  • JavaScript: دعم مستعرض إضافي لتحويل النص إلى كلام. انظر الوثائق هنا.
  • C++، C#، Java: كائن جديد KeywordRecognizer وواجهات برمجة التطبيقات مدعومة على أنظمة Windows وAndroid وLinux وiOS الأساسية. اقرأ الوثائق من هنا. للحصول على نموذج التعليمات البرمجية، راجع قسم Samples أدناه.
  • Java: تمت إضافة محادثة متعددة الأجهزة مع دعم الترجمة. راجع المستند المرجعي هنا.

التحسينات والتحسينات

  • JavaScript: تحسين تنفيذ ميكروفون المستعرض لتحسين دقة التعرف على الكلام.
  • Java: الروابط المعاد بناء التعليمات البرمجية باستخدام تنفيذ JNI المباشر دون SWIG. يقلل هذا التغيير بمقدار 10 أضعاف حجم الروابط لجميع حزم Java المستخدمة لـ Windows وAndroid وLinux وMac ويسهل تطوير تطبيق Speech SDK Java.
  • Linux: وثائق الدعم المحدثة مع أحدث ملاحظات RHEL 7 المحددة.
  • تحسين منطق الاتصال لمحاولة الاتصال عدة مرات عند حدوث أخطاء في الخدمة والشبكة.
  • تحديث صفحة portal.azure.com Speech Quickstart لمساعدة المطورين على اتخاذ الخطوة التالية في رحلة Azure الذكاء الاصطناعي Speech.

إصلاح الأخطاء

  • C#، Java: تم إصلاح مشكلة في تحميل مكتبات SDK على Linux ARM (كل من 32 بت و64 بت).
  • C#‎: تم إصلاح التخلص الصريح من المقابض الأصلية لـ TranslationRecognizer وIntentRecognizer وعناصر الاتصال.
  • C#‎: تم إصلاح إدارة مدة بقاء إدخال الصوت لعنصر ConversationTranscriber.
  • تم إصلاح مشكلة IntentRecognizer عدم تعيين سبب النتيجة بشكل صحيح عند التعرف على الأهداف من العبارات البسيطة.
  • تم إصلاح مشكلة SpeechRecognitionEventArgs عدم تعيين إزاحة النتيجة بشكل صحيح.
  • تم إصلاح حالة تعارض حيث كانت SDK تحاول إرسال رسالة شبكة قبل فتح اتصال websocket. كان قابلاً للتكرار أثناء TranslationRecognizer إضافة المشاركين.
  • تسرب الذاكرة الثابتة في محرك أداة التعرف على الكلمة الأساسية.

العينات

اختبار COVID-19 المختصر

نظراً للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء الكثير من اختبارات التحقق اليدوي كما نفعل عادة. لم نجري أي تغييرات نعتقد أنها قد كسرت أي شيء، واجتزت جميع اختباراتنا التلقائية. إذا فاتنا شيء ما، فيرجى إعلامنا على GitHub.
حافظ على صحتك!

Speech SDK 1.11.0: إصدار 2020-مارس

الميزات الجديدة

  • Linux: تمت إضافة دعم لـ Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 مع إرشادات بشأن كيفية تكوين نظام Speech SDK.
  • Linux: دعم إضافي لـ .NET Core C# على Linux ARM32 وARM64. الاطلاع على المزيد من هنا.
  • C#، C++: تمت إضافته UtteranceId في ConversationTranscriptionResult، معرف متناسق عبر جميع النتيجة الوسيطة والنهائي للتعرف على الكلام. تفاصيل C#‎، C++‎.
  • الدعم الإضافي لـ Python 3.8Language ID. راجع speech_sample.py في مستودع GitHub.
  • Windows: تمت إضافة دعم تنسيق إدخال الصوت المضغوط على نظام Windows الأساسي لجميع تطبيقات وحدة تحكم win32. التفاصيل هنا.
  • JavaScript: دعم تركيب الكلام (نص إلى كلام) في NodeJS. تعرف على المزيد من هنا.
  • JavaScript: إضافة واجهات برمجة تطبيقات جديدة لتمكين فحص جميع الرسائل المرسلة والمستلمة. تعرف على المزيد من هنا.

إصلاح الأخطاء

  • C#، C++: تم إصلاح مشكلة، لذا SendMessageAsync يرسل الآن رسالة ثنائية كنوع ثنائي. تفاصيل C#‎، C++‎.
  • C#، C++: تم إصلاح مشكلة حيث قد يتسبب استخدام Connection MessageReceived الحدث في حدوث عطل إذا تم التخلص من Recognizer قبل العنصر Connection. تفاصيل C#‎، C++‎.
  • Android: انخفاض حجم المخزن المؤقت للصوت من الميكروفون من 800 ملّي ثانية إلى 100 ملّي ثانية لتحسين زمن الوصول.
  • Android: تم إصلاح مشكلة محاكي Android x86 في Android Studio.
  • JavaScript: دعم إضافي للمناطق في الصين باستخدام fromSubscription واجهة برمجة التطبيقات. التفاصيل هنا.
  • JavaScript: أضف المزيد من معلومات الخطأ لفشل الاتصال من NodeJS.

العينات

  • Unity: تم إصلاح العينة العامة للتعرف على الهدف، حيث فشل استيراد LUIS json. التفاصيل هنا.
  • Python: تمت إضافة عينة لـ Language ID. التفاصيل هنا.

اختبار Covid19 المختصر: نظراً للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء الكثير من اختبارات التحقق اليدوي من الجهاز كما نفعل عادة. على سبيل المثال، لم نتمكن من اختبار إدخال الميكروفون وإخراج السماعة على Linux وiOS وmacOS. لم نقم بإجراء أي تغييرات نعتقد أنها قد تكسر أي شيء على هذه الأنظمة الأساسية، وقد اجتازت جميع اختباراتنا الآلية. في حالة عدم وجود شيء غير محتمل، أخبرنا على GitHub.
نشكرك على دعمك المستمر. كما هو الحال دائما، يرجى نشر الأسئلة أو الملاحظات على GitHub أو Stack Overflow.
حافظ على صحتك!

Speech SDK 1.10.0: إصدار 2020-فبراير

الميزات الجديدة

  • تمت إضافة حزم Python لدعم الإصدار الجديد 3.8 من Python.
  • دعم Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++، C#، Java، Python).

    إشعار

    يجب على العملاء تكوين OpenSSL وفقاً لهذه الإرشادات.

  • دعم Linux ARM32 لـ Debian وUbuntu.
  • يدعم DialogServiceConnector الآن معلمة "bot ID" اختيارية في BotFrameworkConfig. تسمح هذه المعلمة باستخدام عدة روبوتات Direct Line Speech مع مورد Speech واحد. دون تحديد المعلمة، سيتم استخدام الروبوت الافتراضي (كما تحدده صفحة تكوين قناة Direct Line Speech).
  • يحتوي DialogServiceConnector الآن على خاصية SpeechActivityTemplate. سيتم استخدام محتويات سلسلة JSON هذه بواسطة Direct Line Speech لملء مجموعة واسعة من الحقول المدعومة مسبقاً في جميع الأنشطة التي تصل إلى روبوت Direct Line Speech، بما في ذلك الأنشطة التي يتم إنشاؤها تلقائياً استجابة لأحداث مثل التعرف على الكلام.
  • يستخدم TTS الآن مفتاح الاشتراك للمصادقة، ما يقلل زمن انتقال البايت الأول لنتيجة التوليف الأولى بعد إنشاء مُركِّب.
  • نماذج التعرف على الكلام المحدثة لـ 19 لغة لمتوسط تقليل معدل خطأ الكلمات بنسبة 18.6٪ (es-ES، es-MX، fr-CA، fr-FR، it-IT، ja-JP، ko-KR، pt-BR، zh-CN، zh-HK، nb-NO، fi-FL، ru-RU، pl-PL، ca-ES، zh-TW، th-TH، pt-PT، tr-TR). تجلب النماذج الجديدة تحسينات كبيرة عبر مجالات متعددة بما في ذلك سيناريوهات الإملاء والنسخ Call-Center وفهرسة الفيديو.

إصلاح الأخطاء

  • تم إصلاح الخطأ حيث لم ينتظر ناسخ المحادثة بشكل صحيح في واجهات برمجة تطبيقات JAVA
  • إصلاح محاكي Android x86 لقضية Xamarin GitHub
  • أضافة أساليب خاصية (Get | Set) المفقودة إلى AudioConfig
  • إصلاح خطأ TTS حيث تعذر إيقاف audioDataStream عند فشل الاتصال
  • قد يؤدي استخدام نقطة نهاية دون منطقة إلى فشل USP لمترجم المحادثة
  • يستخدم إنشاء المعرف في تطبيقات Windows العالمية الآن خوارزمية GUID فريدة بشكل مناسب؛ كان افتراضيا سابقاً وغير مقصود إلى تنفيذ متقلب غالباً ما ينتج عنه تضاربات على مجموعات كبيرة من التفاعلات.

العينات

تغييرات أخرى

Speech SDK 1.9.0: إصدار 2020-يناير

الميزات الجديدة

  • محادثة متعددة الأجهزة: قم بتوصيل أجهزة متعددة بنفس الكلام أو المحادثة النصية، وقم بترجمة الرسائل المرسلة فيما بينها اختيارياً. تعرف على المزيد في هذه المقالة.
  • تمت إضافة دعم التعرف على الكلمة الأساسية لحزمة Android .aar وإضافة دعم لمفضلات x86 وx64.
  • Objective-C: SendMessage والأساليب SetMessageProperty المضافة إلى Connection العنصر. انظر الوثائق هنا.
  • يدعم std::wstring TTS C++ api الآن كإدخال نص تركيبي، ما يزيل الحاجة إلى تحويل wstring إلى سلسلة قبل تمريره إلى SDK. راجع التفاصيل هنا.
  • C#: معرف اللغةوتكوين لغة المصدر متوفران الآن.
  • JavaScript: تمت إضافة ميزة للعنصر Connection للتمرير عبر الرسائل المخصصة من خدمة الكلام كرد اتصال receivedServiceMessage.
  • JavaScript: دعم FromHost API إضافي لتسهيل الاستخدام مع الحاويات المحلية والسحب السيادية. انظر الوثائق هنا.
  • JavaScript: نحن نكرم الآن NODE_TLS_REJECT_UNAUTHORIZED بفضل مساهمة من orgads . راجع التفاصيل هنا.

كسر التغييرات

  • OpenSSL تم تحديثه إلى الإصدار 1.1.1b ويرتبط بشكل ثابت بمكتبة Speech SDK الأساسية لنظام Linux. قد يؤدي هذا إلى انقطاع إذا لم يتم تثبيت علبة الوارد OpenSSL على /usr/lib/ssl الدليل في النظام. تحقق من وثائقنا ضمن مستندات Speech SDK لحل المشكلة.
  • لقد قمنا بتغيير نوع البيانات الذي تم إرجاعه لـ C#‎ WordLevelTimingResult.Offset من int إلى long للسماح بالوصول إلى WordLevelTimingResults عندما تكون بيانات الكلام أطول من دقيقتين.
  • PushAudioInputStream والآن PullAudioInputStream أرسل معلومات عنوان wav إلى خدمة الكلام استناداً AudioStreamFormatإلى، محددة اختيارياً عند إنشائها. يجب على العملاء الآن استخدام تنسيق إدخال الصوت المدعوم. ستحصل أي تنسيقات أخرى على نتائج التعرف دون المستوى الأمثل أو قد تتسبب في مشكلات أخرى.

إصلاح الأخطاء

  • راجع التحديث OpenSSL ضمن كسر التغييرات أعلاه. لقد أصلحنا كلاً من الأعطال المتقطعة ومشكلات الأداء (تنازع التأمين تحت التحميل العالي) في Linux وJava.
  • Java: تم إدخال تحسينات على إغلاق العنصر في سيناريوهات التزامن العالية.
  • إعادة هيكلة حزمة NuGet الخاصة بنا. أزلنا النسخ الثلاث من Microsoft.CognitiveServices.Speech.core.dll وMicrosoft.CognitiveServices.Speech.extension.kws.dll ضمن مجلدات lib، ما جعل حزمة NuGet أصغر حجماً وأسرع في التنزيل، وأضفنا الرؤوس اللازمة لتجميع بعض تطبيقات C++ الأصلية.
  • تم إصلاح نماذج التشغيل السريع هنا. كانت هذه الإنهاء دون عرض استثناء "الميكروفون غير موجود" على Linux وmacOS وWindows.
  • تم إصلاح تعطل SDK مع نتائج التعرف على الكلام الطويلة على مسارات تعليمات برمجية معينة مثل هذه العينة.
  • تم إصلاح خطأ نشر SDK في بيئة تطبيق الويب Azure لمعالجة مشكلة العميل هذه .
  • تم إصلاح خطأ TTS أثناء استخدام علامة أو <voice> علامة متعددة <audio> لمعالجة مشكلة العميل هذه.
  • تم إصلاح خطأ TTS 401 عند استرداد SDK من معلق.
  • JavaScript: تم إصلاح استيراد دائري للبيانات الصوتية بفضل مساهمة من euirim.
  • JavaScript: تمت إضافة دعم لإعداد خصائص الخدمة، كما تمت إضافته في 1.7.
  • JavaScript: تم إصلاح مشكلة حيث قد يؤدي خطأ في الاتصال إلى محاولات إعادة اتصال websocket مستمرة وغير ناجحة.

العينات

  • تمت إضافة عينة التعرف على الكلمة الأساسية لنظام التشغيل Android هنا.
  • تمت إضافة نموذج TTS لسيناريو الخادم هنا.
  • تمت إضافة قوالب تشغيل سريعة للمحادثة متعددة الأجهزة لـ C# وC++ هنا.

تغييرات أخرى

  • حجم مكتبة SDK الأساسية المحسن على Android.
  • يدعم SDK في الإصدار 1.9.0 وما بعده كلا النوعين int وstring في حقل إصدار التوقيع الصوتي لمناشر المحادثة.

Speech SDK 1.8.0: إصدار 2019-نوفمبر

الميزات الجديدة

  • تمت إضافة FromHost() واجهة برمجة تطبيقات، لتسهيل الاستخدام مع الحاويات المحلية والسحب السيادية.
  • تمت إضافة تعريف لغة المصدر للتعرف على الكلام (بلغة Java وC++)
  • تمت إضافة عنصر SourceLanguageConfig للتعرف على الكلام، يستخدم لتحديد لغات المصدر المتوقعة (بلغة Java وC++)
  • دعم إضافي KeywordRecognizer على Windows (UWP) وAndroid وiOS من خلال حزم NuGet وUnity
  • تمت إضافة واجهة برمجة تطبيقات Java للمحادثة عن بعد للقيام بنسخ المحادثة في دفعات غير متزامنة.

كسر التغييرات

  • تم نقل وظائف ناسخ المحادثة ضمن مساحة الاسم Microsoft.CognitiveServices.Speech.Transcription.
  • يتم نقل أجزاء من أساليب ناسخ المحادثة إلى فئة جديدة Conversation.
  • تم إسقاط الدعم لنظام التشغيل iOS 32 بت (ARMv7 وx86)

إصلاح الأخطاء

  • إصلاح التعطل إذا تم استخدام KeywordRecognizer المحلي دون مفتاح اشتراك صالح لخدمة Speech

العينات

  • عينة Xamarin لـ KeywordRecognizer
  • عينة Unity لـ KeywordRecognizer
  • نماذج C++ وJava لتحديد لغة المصدر التلقائي.

Speech SDK 1.7.0: إصدار 2019-سبتمبر

الميزات الجديدة

  • تمت إضافة دعم بيتا لـ Xamarin على النظام الأساسي العام لـ Windows (UWP) وAndroid وiOS
  • إضافة دعم iOS لـ Unity
  • إضافة Compressed دعم إدخال لـ ALaw وMulaw وFLAC وعلى Android وiOS وLinux
  • تمت إضافته SendMessageAsync في فئة Connection لإرسال رسالة إلى الخدمة
  • تمت إضافته SetMessageProperty في فئة Connection لإعداد خاصية لرسالة
  • أضافت TTS روابط لـ Java (JRE وAndroid) وPython وSwift وObjective-C
  • أضافت TTS دعم التشغيل لـ macOS وiOS وAndroid.
  • تمت إضافة معلومات "حد كلمة" لـ TTS.

إصلاح الأخطاء

  • تم إصلاح مشكلة إصدار IL2CPP على Unity 2019 for Android
  • تم إصلاح مشكلة معالجة العناوين غير الصحيحة في إدخال ملف wav بشكل غير صحيح
  • تم إصلاح المشكلة مع UUIDs التي لا تكون فريدة في بعض خصائص الاتصال
  • تم إصلاح بعض التحذيرات بشأن محددات قابلية القيم الخالية في روابط Swift (قد تتطلب تغييرات صغيرة في التعليمات البرمجية)
  • تم إصلاح الخلل الذي تسبب في إغلاق اتصالات websocket بشكل غير لائق تحت تحميل الشبكة
  • تم إصلاح مشكلة على Android تؤدي في بعض الأحيان إلى تكرار معرفات مرات الظهور المستخدمة من قبل DialogServiceConnector
  • تحسينات على استقرار الاتصالات عبر التفاعلات متعددة الأدوار والإبلاغ عن حالات الفشل (عبر الأحداث Canceled) عند حدوثها مع DialogServiceConnector
  • DialogServiceConnector ستوفر جلسة العمل الآن الأحداث بشكل صحيح، بما في ذلك عند الاتصال ListenOnceAsync() أثناء نشط StartKeywordRecognitionAsync()
  • معالجة عطل مرتبط بالأنشطة DialogServiceConnector التي يتم تلقيها

العينات

  • التشغيل السريع لـ Xamarin
  • تحديث CPP Quickstart مع معلومات Linux ARM64
  • التشغيل السريع لـ Unity المحدث مع معلومات iOS

Speech SDK 1.6.0: إصدار 2019-يونيو

العينات

  • نماذج التشغيل السريع لـ Text To Speech على UWP وUnity
  • نموذج التشغيل السريع لـ Swift على iOS
  • نماذج Unity للتعرف على الكلام والقصد والترجمة
  • نماذج التشغيل السريع المحدثة لـ DialogServiceConnector

التحسينات / التغييرات

  • مساحة اسم مربع الحوار:
    • تمت إعادة تسميةSpeechBotConnector إلى DialogServiceConnector
    • تمت إعادة تسميةBotConfig إلى DialogServiceConfig
    • BotConfig::FromChannelSecret() تمت إعادة تعيينه إلى DialogServiceConfig::FromBotSecret()
    • يستمر دعم جميع عملاء Direct Line Speech الحاليين بعد إعادة التسمية
  • تحديث محول TTS REST لدعم الوكيل والاتصال المستمر
  • تحسين رسالة الخطأ عند تمرير منطقة غير صالحة
  • Swift/Objective-C:
    • الإبلاغ المحسّن عن الخطأ: الأساليب التي يمكن أن تؤدي إلى حدوث خطأ موجودة الآن في نسختين: أحدهما يعرض عنصراً NSError لمعالجة الأخطاء والآخر يثير استثناءً. الأول يتعرض لـ Swift. يتطلب هذا التغيير تعديلات على التعليمات البرمجية Swift الموجودة.
    • معالجة الأحداث المحسنة

إصلاح الأخطاء

  • إصلاح TTS: حيث SpeakTextAsync تم إرجاع المستقبل دون انتظار حتى يكتمل العرض الصوتي
  • إصلاح تنظيم السلاسل في C# لتمكين دعم اللغة الكامل
  • إصلاح مشكلة تطبيق .NET core لتحميل المكتبة الأساسية مع إطار عمل هدف net461 في العينات
  • إصلاح المشكلات العرضية لنشر المكتبات الأصلية إلى مجلد الإخراج في العينات
  • إصلاح لإغلاق مأخذ توصيل الويب بشكل موثوق
  • إصلاح الأعطال المحتملة أثناء فتح اتصال تحت الحمل الثقيل على Linux
  • إصلاح بيانات التعريف المفقودة في مجموعة إطار العمل لنظام التشغيل macOS
  • إصلاح المشكلات المتعلقة بـ pip install --user Windows

Speech SDK 1.5.1

هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلية/المدارة. لا يؤثر على إصدار JavaScript من SDK.

إصلاح الأخطاء

  • إصلاح FromSubscription عند استخدامه مع كتابة المحادثة.
  • إصلاح الخطأ في تحديد الكلمة الأساسية للمساعدين الصوتيين.

Speech SDK 1.5.0: إصدار 2019-May

الميزات الجديدة

  • تتوفر الآن ميزة تحديد الكلمة الأساسية (KWS) لنظامي التشغيل Windows وLinux. قد تعمل وظيفة KWS مع أي نوع ميكروفون، ومع ذلك، يقتصر دعم KWS الرسمي حالياً على صفائف الميكروفون الموجودة في أجهزة Azure Kinect DK أو Speech Devices SDK.
  • تتوفر وظيفة تلميح العبارة من خلال SDK. لمزيد من المعلومات، راجع هنا .
  • تتوفر وظيفة كتابة المحادثة من خلال SDK.
  • إضافة دعم المساعدين الصوتيين باستخدام قناة Direct Line Speech.

العينات

  • تمت إضافة عينات للميزات الجديدة أو الخدمات الجديدة التي يدعمها SDK.

التحسينات / التغييرات

  • تمت إضافة خصائص أداة التعرف المختلفة لضبط سلوك الخدمة أو نتائج الخدمة (مثل إخفاء الألفاظ النابية وغيرها).
  • يمكنك الآن تكوين أداة التعرف من خلال خصائص التكوين القياسية، حتى إذا قمت بإنشاء أداة التعرف FromEndpoint.
  • Objective-C: OutputFormat تمت إضافة خاصية إلى SPXSpeechConfiguration.
  • يدعم SDK الآن Debian 9 كموزع Linux.

إصلاح الأخطاء

  • تم إصلاح مشكلة حيث تم إلغاء هيكلة مورد السماعة مبكرا جدا في النص إلى كلام.

Speech SDK 1.4.2

هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلية/المدارة. لا يؤثر على إصدار JavaScript من SDK.

Speech SDK 1.4.1

هذا إصدار JavaScript فقط. لم تتم إضافة أي ميزات. تم إجراء الإصلاحات التالية:

  • منع حزمة الويب من تحميل https-proxy-agent.

Speech SDK 1.4.0: إصدار 2019-أبريل

الميزات الجديدة

  • يدعم SDK الآن خدمة تحويل النص إلى كلام كإصدار بيتا. وهو مدعوم على Windows وLinux Desktop من C++ وC#. لمزيد من المعلومات، راجع نظرة عامة على النص إلى كلام.
  • يدعم SDK الآن ملفات الصوت MP3 وOpus/OGG كملفات إدخال دفق. تتوفر هذه الميزة فقط على Linux من C++ وC# وهي حالياً في الإصدار التجريبي (مزيد من التفاصيل هنا).
  • حصلت Speech SDK لـ Java و.NET core وC++ وObjective-C على دعم macOS. دعم Objective-C لنظام التشغيل macOS حالياً في الإصدار التجريبي.
  • iOS: يتم الآن نشر Speech SDK لنظام التشغيل iOS (Objective-C) أيضاً مثل CocoaPod.
  • JavaScript: دعم الميكروفون غير الافتراضي كجهاز إدخال.
  • JavaScript: دعم الوكيل Node.js.

العينات

  • تمت إضافة نماذج لاستخدام Speech SDK مع C++ ومع Objective-C على macOS.
  • تمت إضافة نماذج توضح استخدام خدمة النص إلى الكلام.

التحسينات / التغييرات

  • Python: يتم الآن عرض خصائص إضافية لنتائج التعرف عبر الخاصية properties.
  • للحصول على دعم إضافي للتطوير وتصحيح الأخطاء، يمكنك إعادة توجيه معلومات تسجيل SDK والتشخيص إلى ملف سجل (مزيد من التفاصيل هنا).
  • JavaScript: تحسين أداء معالجة الصوت.

إصلاح الأخطاء

  • Mac / iOS: تم إصلاح خطأ أدى إلى انتظار طويل عندما يتعذر إنشاء اتصال بخدمة Speech.
  • Python: تحسين معالجة الأخطاء للوسيطات في عمليات رد اتصال Python.
  • JavaScript: انتهت تقارير حالة الكلام الخاطئة الثابتة عند RequestSession.

Speech SDK 1.3.1: تحديث 2019-فبراير

هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلية/المدارة. لا يؤثر على إصدار JavaScript من SDK.

إصلاح الأخطاء

  • تم إصلاح مشكلة تسرب الذاكرة عند استخدام إدخال الميكروفون. لا يتأثر الإدخال المستند إلى الدفق أو الملف.

Speech SDK 1.3.0: إصدار 2019-فبراير

الميزات الجديدة

  • يدعم Speech SDK تحديد ميكروفون الإدخال من خلال الفئة AudioConfig. يسمح لك هذا ببث البيانات الصوتية إلى خدمة Speech من ميكروفون غير افتراضي. لمزيد من المعلومات، راجع الوثائق التي تصف تحديد جهاز إدخال الصوت. هذه الميزة غير متوفرة بعد من JavaScript.
  • يدعم Speech SDK الآن Unity في إصدار beta. قدم ملاحظات من خلال قسم المشكلة في مستودع نموذج GitHub. يدعم هذا الإصدار Unity على Windows x86 وx64 (تطبيقات سطح المكتب أو النظام الأساسي العام لـ Windows)، وAndroid (ARM32/64، x86). يتوفر المزيد من المعلومات في التشغيل السريع لـ Unity.
  • لم تعد هناك حاجة إلى الملف Microsoft.CognitiveServices.Speech.csharp.bindings.dll (الذي تم شحنه في الإصدارات السابقة). تم دمج الوظيفة الآن في SDK الأساسية.

العينات

يتوفر المحتوى الجديد التالي في مستودع العينة الخاص بنا:

  • نماذج إضافية لـ AudioConfig.FromMicrophoneInput.
  • عينات Python إضافية للتعرف على الهدف والترجمة.
  • نماذج إضافية لاستخدام العنصر Connection في iOS.
  • نماذج Java إضافية للترجمة مع إخراج الصوت.
  • عينة جديدة لاستخدام واجهة برمجة تطبيقات REST للنسخ الدفعي.

التحسينات / التغييرات

  • Python
    • تحسين التحقق من المعلمات ورسائل الخطأ في SpeechConfig.
    • إضافة دعم للعنصر Connection.
    • دعم Python 32 بت (x86) على Windows.
    • Speech SDK لـ Python خارج الإصدار التجريبي.
  • دائره الرقابه الداخليه
    • تم الآن إنشاء SDK مقابل إصدار iOS SDK 12.1.
    • يدعم SDK الآن إصدارات iOS 9.2 والإصدارات الأحدث.
    • تحسين الوثائق المرجعية وإصلاح العديد من أسماء الخصائص.
  • JavaScript
    • إضافة دعم للعنصر Connection.
    • إضافة ملفات تعريف النوع لـ JavaScript المجمعة
    • الدعم الأولي والتنفيذ لتلميحات العبارات.
    • إرجاع مجموعة الخصائص مع خدمة JSON للتعرف
  • تحتوي DLLs لـ Windows الآن على مورد إصدار.
  • إذا قمت بإنشاء أداة التعرف FromEndpoint، يمكنك إضافة معلمات مباشرة إلى عنوان URL لنقطة النهاية. لا يمكنك استخدام FromEndpoint تكوين أداة التعرف من خلال خصائص التكوين القياسية.

إصلاح الأخطاء

  • لم يتم التعامل مع اسم المستخدم الوكيل الفارغ وكلمة مرور الوكيل بشكل صحيح. باستخدام هذا الإصدار، إذا قمت بتعيين اسم المستخدم الوكيل وكلمة مرور الوكيل إلى سلسلة فارغة، فلن يتم إرسالهما عند الاتصال بالوكيل.
  • لم تكن SessionId التي تم إنشاؤها بواسطة SDK دائماً عشوائية حقاً لبعض اللغات / البيئات. تمت إضافة تهيئة منشئ عشوائي لإصلاح هذه المشكلة.
  • تحسين معالجة رمز التخويل المميز. إذا كنت تريد استخدام رمز مميز للتخويل، فحدد في SpeechConfig واترك مفتاح الاشتراك فارغاً. ثم قم بإنشاء أداة التعرف كالمعتاد.
  • في بعض الحالات، Connection لم يتم تحرير العنصر بشكل صحيح. تم إصلاح هـذه المشكلة.
  • تم إصلاح عينة JavaScript لدعم إخراج الصوت لتجميع الترجمة أيضاً على Safari.

Speech SDK 1.2.1

هذا إصدار JavaScript فقط. لم تتم إضافة أي ميزات. تم إجراء الإصلاحات التالية:

  • نهاية إطلاق الدفق في turn.end، وليس في speech.end.
  • إصلاح الخلل في مضخة الصوت التي لم تحدد موعد الإرسال التالي إذا فشل الإرسال الحالي.
  • إصلاح التعرف المستمر باستخدام رمز المصادقة المميز.
  • إصلاح الأخطاء لمعرف / نقاط النهاية المختلفة.
  • تحسينات الوثائق.

Speech SDK 1.2.0: إصدار 2018-ديسمبر

الميزات الجديدة

  • Python
    • يتوفر الإصدار بيتا من دعم Python (3.5 وما فوق) مع هذا الإصدار. لمزيد من المعلومات، راجع هنا](.. /.. /quickstart-python.md).
  • JavaScript
    • تم فتح مصدر Speech SDK لـ JavaScript. تتوفر التعليمات البرمجية المصدر على GitHub.
    • نحن ندعم الآن Node.js، يمكن العثور على مزيد من المعلومات هنا.
    • تمت إزالة قيود طول جلسات الصوت، وستحدث إعادة الاتصال تلقائياً تحت الغطاء.
  • Connection الكائن
    • من Recognizer، يمكنك الوصول إلى عنصرConnection. يسمح لك هذا العنصر ببدء اتصال الخدمة بشكل صريح والاشتراك في الاتصال وقطع الاتصال بالأحداث. (هذه الميزة غير متوفرة بعد من JavaScript وPython.)
  • دعم Ubuntu 18.04.
  • android
    • دعم ProGuard الممكن أثناء إنشاء APK.

التحسينات

  • تحسينات في استخدام مؤشر الترابط الداخلي، ما يقلل من عدد مؤشرات الترابط والأقفال وكتم الصوت.
  • تحسين الإبلاغ عن الأخطاء / المعلومات. في عدة حالات، لم يتم نشر رسائل الخطأ على طول الطريق.
  • تبعيات التطوير المحدثة في JavaScript لاستخدام وحدات نمطية محدثة.

إصلاح الأخطاء

  • تم إصلاح تسرب الذاكرة بسبب عدم تطابق النوع في RecognizeAsync.
  • وفي بعض الحالات تسريب استثناءات.
  • إصلاح تسرب الذاكرة في وسيطات أحداث الترجمة.
  • تم إصلاح مشكلة تأمين عند إعادة الاتصال في جلسات عمل طويلة الأمد.
  • تم إصلاح مشكلة قد تؤدي إلى فقدان النتيجة النهائية للترجمات الفاشلة.
  • C#: إذا async لم يتم انتظار عملية في مؤشر الترابط الرئيسي، فمن الممكن التخلص من أداة التعرف قبل اكتمال المهمة غير المتزامنة.
  • Java: تم إصلاح مشكلة تؤدي إلى تعطل جهاز Java الظاهري.
  • Objective-C: تعيين التعداد الثابت؛ تم إرجاع RecognizedIntent بدلاً من RecognizingIntent.
  • JavaScript: قم بتعيين تنسيق الإخراج الافتراضي إلى "بسيط" في SpeechConfig.
  • JavaScript: إزالة عدم التناسق بين الخصائص على كائن التكوين في JavaScript واللغات الأخرى.

العينات

  • تم تحديث العديد من العينات وإصلاحها (على سبيل المثال أصوات الإخراج للترجمة، وما إلى ذلك).
  • تمت إضافة عينات Node.js في مستودع العينة.

Speech SDK 1.1.0

الميزات الجديدة

  • دعم Android x86/x64.
  • دعم الوكيل: في العنصر SpeechConfig، يمكنك الآن استدعاء دالة لتعيين معلومات الوكيل (اسم المضيف والمنفذ واسم المستخدم وكلمة المرور). هذه الميزة غير متوفرة بعد على iOS.
  • رمز الخطأ والرسائل المحسنة. إذا أرجع التعرف خطأ، فهذا قد تم تعيينه Reason بالفعل (في حدث تم إلغاؤه) أو CancellationDetails (في نتيجة التعرف) إلى Error. يحتوي الحدث الذي تم إلغاؤه الآن على عضوين إضافيين، ErrorCode وErrorDetails. إذا أرجع الخادم معلومات خطأ إضافية مع الخطأ الذي تم الإبلاغ عنه، فسيكون متوفراً الآن في الأعضاء الجدد.

التحسينات

  • تمت إضافة تحقق إضافي في تكوين أداة التعرف، وإضافة رسالة خطأ إضافية.
  • معالجة محسنة للصمت لفترة طويلة في منتصف ملف صوتي.
  • حزمة NuGet: بالنسبة للمشاريع .NET Framework، فإنها تمنع الإنشاء باستخدام تكوين AnyCPU.

إصلاح الأخطاء

  • تم إصلاح العديد من الاستثناءات الموجودة في أدوات التعرف. بالإضافة إلى ذلك، يتم اكتشاف الاستثناءات وتحويلها إلى حدث Canceled.
  • إصلاح تسرب الذاكرة في إدارة الخصائص.
  • تم إصلاح الخطأ حيث يمكن أن يتعطل ملف إدخال الصوت في أداة التعرف.
  • تم إصلاح خطأ حيث يمكن تلقي الأحداث بعد حدث إيقاف جلسة العمل.
  • تم إصلاح بعض شروط السباق في مؤشر الترابط.
  • تم إصلاح مشكلة توافق iOS التي قد تؤدي إلى حدوث عطل.
  • تحسينات الاستقرار لدعم ميكروفون Android.
  • تم إصلاح خطأ حيث يتجاهل أداة التعرف في JavaScript لغة التعرف.
  • تم إصلاح خطأ يمنع إعداد EndpointId (في بعض الحالات) في JavaScript.
  • تغيير ترتيب المعلمة في AddIntent في JavaScript، وإضافة توقيع JavaScript مفقود AddIntent.

العينات

Speech SDK 1.0.1

تحسينات الموثوقية وإصلاح الأخطاء:

  • إصلاح خطأ فادح محتمل بسبب حالة السباق في أداة التعرف على التخلص
  • إصلاح خطأ فادح محتمل عند حدوث خصائص غير محددة.
  • تمت إضافة تدقيق إضافي للخطأ والمعلمة.
  • الهدف- C: إصلاح الخطأ الفادح المحتمل الناجم عن تجاوز الاسم في NSString.
  • Objective-C: الرؤية المعدلة لواجهة برمجة التطبيقات
  • JavaScript: تم إصلاحه فيما يتعلق بالأحداث حمولاتها.
  • تحسينات الوثائق.

في مستودع العينة الخاص بنا، تمت إضافة عينة جديدة لـ JavaScript.

Azure الذكاء الاصطناعي Speech SDK 1.0.0: إصدار 2018-سبتمبر

الميزات الجديدة

كسر التغييرات

  • مع هذا الإصدار، يتم تقديم عدد من التغييرات العاجلة. تحقق من هذه الصفحة للحصول على التفاصيل.

Azure الذكاء الاصطناعي Speech SDK 0.6.0: إصدار 2018-أغسطس

الميزات الجديدة

  • يمكن لتطبيقات UWP التي تم إنشاؤها باستخدام Speech SDK الآن تمرير حزمة مصادقة تطبيقات Windows (WACK). تحقق من التشغيل السريع لـ UWP.
  • دعم .NET Standard 2.0 على Linux (Ubuntu 16.04 x64).
  • تجريبي: دعم Java 8 على Windows (64 بت) وLinux (Ubuntu 16.04 x64). تحقق من التشغيل السريع لبيئة وقت تشغيل Java.

تغيير وظيفي

  • كشف معلومات تفاصيل الخطأ الإضافية بشأن أخطاء الاتصال.

كسر التغييرات

  • على Java (Android)، SpeechFactory.configureNativePlatformBindingWithDefaultCertificate لم تعد الوظيفة تتطلب معلمة مسار. الآن يتم الكشف عن المسار تلقائياً على جميع الأنظمة الأساسية المدعومة.
  • تمت إزالة ملحق الحصول على الخاصية EndpointUrl في Java وC#.

إصلاح الأخطاء

  • في Java، يتم الآن تنفيذ نتيجة تركيب الصوت على أداة التعرف على الترجمة.
  • تم إصلاح الخلل الذي قد يتسبب في خيوط غير نشطة وزيادة عدد المقابس المفتوحة وغير المستخدمة.
  • تم إصلاح مشكلة حيث يمكن أن ينتهي التعرف طويل الأمد في منتصف الإرسال.
  • تم إصلاح حالة تعارض في إيقاف تشغيل أداة التعرف.

Azure الذكاء الاصطناعي Speech SDK 0.5.0: إصدار 2018-يوليو

الميزات الجديدة

  • دعم نظام Android الأساسي (API 23: Android 6.0 Marshmallow أو أعلى). تحقق من التشغيل السريع لـ Android.
  • دعم .NET Standard 2.0 على Windows. تحقق من التشغيل السريع لـ .NET Core.
  • تجريبي: دعم UWP على Windows (الإصدار 1709 أو أحدث).
    • تحقق من التشغيل السريع لـ UWP.
    • لاحظ أن تطبيقات UWP التي تم إنشاؤها باستخدام Speech SDK لا تمرر بعد حزمة مصادقة تطبيقات Windows (WACK).
  • دعم التعرف طويل الأمد مع إعادة الاتصال التلقائي.

التغييرات الوظيفية

  • StartContinuousRecognitionAsync() يدعم التعرف طويل الأمد.
  • تحتوي نتيجة التعرف على المزيد من الحقول. تتم إزاحتها من بداية الصوت ومدته (سواء في علامات التجزئة) للنص الذي تم التعرف عليه والقيم الإضافية التي تمثل حالة التعرف، على سبيل المثال، InitialSilenceTimeout وInitialBabbleTimeout.
  • دعم AuthorizationToken لإنشاء مثيلات المصنع.

كسر التغييرات

  • أحداث التعرف: NoMatch تم دمج نوع الحدث في الحدث Error.
  • تمت إعادة تسمية OutputFormat SpeechOutputFormat في C# للبقاء على محاذاة مع C++‎.
  • تغير نوع الإرجاع لبعض أساليب الواجهة AudioInputStream قليلا:
    • في Java، read يرجع long الأسلوب الآن بدلاً من int.
    • في C#، Read يرجع uint الأسلوب الآن بدلاً من int.
    • في C++، يتم الآن إرجاع Read الأسلوبين GetFormat وsize_t بدلاً من int.
  • C++: يمكن تمرير مثيلات تدفقات إدخال الصوت الآن فقط مثل shared_ptr.

إصلاح الأخطاء

  • تم إصلاح قيم الإرجاع غير الصحيحة في النتيجة عند المهلة RecognizeAsync().
  • تمت إزالة التبعية على مكتبات أساس الوسائط على Windows. يستخدم SDK الآن واجهات برمجة تطبيقات الصوت الأساسية.
  • إصلاح الوثائق: تمت إضافة صفحة مناطق لوصف المناطق المدعومة.

المشكلة المعروفة

  • لا يقوم Speech SDK لنظام Android بالإبلاغ عن نتائج تركيب الكلام للترجمة. سيتم إصلاح هذه المشكلة في الإصدار التالي.

Azure الذكاء الاصطناعي Speech SDK 0.4.0: إصدار 2018-يونيو

التغييرات الوظيفية

  • AudioInputStream

    يمكن لأداة التعرف الآن أن تستهلك دفقاً كمصدر صوتي. لمزيد من المعلومات، يرجى الاطلاع على دليل كيفية الاستخدام هذا .

  • تنسيق الإخراج التفصيلي

    عند إنشاء SpeechRecognizer، يمكنك طلب Detailed تنسيق أو Simple إخراجه. يحتوي DetailedSpeechRecognitionResult على درجة الثقة والنص المتعرف عليه والشكل المعجمي الخام والنموذج الذي تمت تسويته والنموذج الذي تمت تسويته بألفاظ نابية مقنعة.

كسر التغيير

  • تم التغيير إلى SpeechRecognitionResult.Text من SpeechRecognitionResult.RecognizedText في C#‎.

إصلاح الأخطاء

  • تم إصلاح مشكلة رد الاتصال المحتملة في طبقة USP أثناء إيقاف التشغيل.
  • إذا استهلكت أداة التعرف ملف إدخال صوتي، فإنها تحتفظ بمقبض الملف لفترة أطول من اللازم.
  • إزالة العديد من حالات التوقف التام بين مضخة الرسالة وأداة التعرف.
  • إطلاق نتيجة NoMatch عند انتهاء مهلة الاستجابة من الخدمة.
  • يتم تحميل مكتبات أساس الوسائط على Windows. هذه المكتبة مطلوبة لإدخال الميكروفون فقط.
  • سرعة تحميل البيانات الصوتية محدودة بحوالي ضعف سرعة الصوت الأصلي.
  • في Windows، أصبحت تجميعات C# .NET الآن قوية المسماة.
  • إصلاح الوثائق: Region هو المعلومات المطلوبة لإنشاء أداة التعرف.

تمت إضافة المزيد من العينات ويتم تحديثها باستمرار. للحصول على أحدث مجموعة من العينات، راجع مستودع GitHub لعينات Speech SDK.

Azure الذكاء الاصطناعي Speech SDK 0.2.12733: إصدار 2018-May

هذا الإصدار هو أول إصدار معاينة عامة من Azure الذكاء الاصطناعي Speech SDK.