ما الجديد في Azure الذكاء الاصطناعي Speech؟

مقالة
04/22/2024

يتم تحديث Azure الذكاء الاصطناعي Speech بشكل مستمر. للبقاء على اطلاع بآخر التطورات، توفر لك هذه المقالة معلومات حول الإصدارات والميزات الجديدة.

أهم النقاط الأخيرة

تدعم خدمة Azure الذكاء الاصطناعي Speech نص OpenAI لأصوات الكلام. لمزيد من المعلومات، راجع ما هو نص OpenAI لأصوات الكلام؟.
تتوفر واجهة برمجة التطبيقات الصوتية المخصصة لإنشاء وإدارة نماذج الصوت العصبية المخصصة المهنية والشخصية .
يدعم Azure الذكاء الاصطناعي Speech الآن نموذج الهمس من OpenAI عبر واجهة برمجة تطبيقات النسخ الدفعي. لمعرفة المزيد، راجع دليل إنشاء نسخ دفعي .

ملاحظات الإصدار

اختيار خدمة أو مورد

الخطط القادمة لمستخدمي Linux وAndroid:

تنبيه

تشير هذه المقالة إلى CentOS، وهو توزيع Linux يقترب من حالة نهاية العمر الافتراضي (EOL). يرجى مراعاة استخدامك والتخطيط وفقا لذلك. لمزيد من المعلومات، راجع إرشادات نهاية العمر الافتراضي CentOS.

وصل Ubuntu 18.04 أيضا إلى نهاية العمر الافتراضي في أبريل 2023، لذلك يجب على المستخدمين الاستعداد لنا لنقل الحد الأدنى من الإصدار إلى Ubuntu 20.04.

Speech SDK 1.37.0: إصدار 2024-أبريل

الميزات الجديدة

أضف دعما لتدفق نص الإدخال في تركيب الكلام.
تغيير صوت تركيب الكلام الافتراضي إلى en-US-AvaMultilingualNeural.
تحديث إصدارات Android لاستخدام OpenSSL 3.x.

إصلاح الأخطاء

إصلاح أعطال JVM العرضية أثناء التخلص من SpeechRecognizer عند استخدام MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
تحسين الكشف عن أجهزة الصوت الافتراضية على Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

العينات

تم تحديثه للميزات الجديدة.

Speech SDK 1.36.0: إصدار 2024-مارس

الميزات الجديدة

إضافة دعم لتعريف اللغة في الترجمة متعددة اللغات على نقاط النهاية v2 باستخدام AutoDetectSourceLanguageConfig::FromOpenRange().

إصلاح الأخطاء

لم يتم تشغيل حدث Fix SynthesisCanceled إذا تم استدعاء الإيقاف أثناء حدث SynthesisStarted.
إصلاح مشكلة الضوضاء في تركيب الكلام المضمن.
إصلاح عطل في التعرف على الكلام المضمن عند تشغيل عدة أدوات التعرف بالتوازي.
إصلاح إعداد وضع الكشف عن العبارة على نقاط النهاية v1/v2.
تصحيحات لمختلف المشكلات المتعلقة ب Microsoft Audio Stack.

العينات

التحديثات للميزات الجديدة.

Speech SDK 1.35.0: إصدار فبراير 2024

الميزات الجديدة

تغيير النص الافتراضي إلى صوت الكلام من en-US-JennyMultilingualNeural إلى en-US-AvaNeural.
دعم التفاصيل على مستوى الكلمات في نتائج ترجمة الكلام المضمنة باستخدام تنسيق الإخراج التفصيلي.

إصلاح الأخطاء

إصلاح AudioDataStream position getter API في Python.
إصلاح ترجمة الكلام باستخدام نقاط النهاية v2 دون الكشف عن اللغة.
إصلاح تعطل عشوائي وتكرار أحداث حد الكلمات في نص مضمن إلى كلام.
إرجاع رمز خطأ إلغاء صحيح لخطأ خادم داخلي على اتصالات WebSocket.
إصلاح الفشل في تحميل مكتبة FPIEProcessor.dll عند استخدام MAS مع C#‎.

العينات

تحديثات التنسيق الثانوية لعينات التعرف المضمنة.

Speech SDK 1.34.1: إصدار يناير 2024

كسر التغييرات

إصلاحات الأخطاء فقط

الميزات الجديدة

إصلاحات الأخطاء فقط

إصلاح الأخطاء

إصلاح الانحدار الذي تم تقديمه في 1.34.0 حيث تم إنشاء عنوان URL لنقطة نهاية الخدمة مع معلومات محلية سيئة للمستخدمين في العديد من مناطق الصين.

Speech SDK 1.34.0: إصدار نوفمبر 2023

كسر التغييرات

تم تحديث SpeechRecognizer لاستخدام نقطة نهاية جديدة بشكل افتراضي (أي عند عدم تحديد عنوان URL بشكل صريح) الذي لم يعد يدعم معلمات سلسلة الاستعلام لمعظم الخصائص. بدلا من تعيين معلمات سلسلة الاستعلام مباشرة باستخدام ServicePropertyChannel.UriQueryParameter، يرجى استخدام وظائف واجهة برمجة التطبيقات المقابلة.

الميزات الجديدة

التوافق مع .NET 8 (إصلاح باستثناء https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 التحذير حول centos7-x64)
دعم مقاييس أداء الكلام المضمنة التي يمكن استخدامها لتقييم قدرة الجهاز على تشغيل الكلام المضمن.
دعم تحديد لغة المصدر في الترجمة متعددة اللغات المضمنة.
دعم تحويل الكلام إلى نص المضمن والنص إلى كلام والترجمة لنظامي التشغيل iOS وSwift/Objective-C الذي تم إصداره في المعاينة.
يتم توفير الدعم المضمن في MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

إصلاح الأخطاء

إصلاح ل iOS SDK x2 مرات نمو الحجم الثنائي · المشكلة رقم 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
إصلاح تعذر الحصول على الطوابع الزمنية على مستوى الكلمات من azure speech إلى واجهة برمجة التطبيقات النصية · المشكلة رقم 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
إصلاح مرحلة تدمير DialogService الاتصال أو قطع اتصال الأحداث بشكل صحيح. كان هذا يسبب أعطال في بعض الأحيان.
إصلاح الاستثناء أثناء إنشاء أداة التعرف عند استخدام MAS.
FPIEProcessor.dll من حزمة Microsoft.CognitiveServices.Speech.Extension.MAS NuGet ل Windows UWP x64 وARM64 كانت تعتمد على مكتبات وقت تشغيل VC ل C++الأصلية. تم تصحيح المشكلة عن طريق تحديث التبعية لتصحيح مكتبات وقت تشغيل VC (ل UWP).
إصلاح استدعاءات [MAS] المتكررة لقراءات الوصول إلى عميل متوقع ل recognizeOnceAsync إلى SPXERR_ALREADY_INITIALIZED عند استخدام MAS · المشكلة رقم 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
إصلاح تعطل التعرف على الكلام المضمن عند استخدام قوائم العبارات.

العينات

نماذج iOS المضمنة لتحويل الكلام إلى نص والنص إلى كلام والترجمة.

Speech CLI 1.34.0: إصدار نوفمبر 2023

الميزات الجديدة

دعم إخراج أحداث حدود الكلمة عند تركيب الكلام.

إصلاح الأخطاء

تحديث تبعية JMESPath إلى أحدث إصدار، وتحسين تقييمات السلسلة

Speech SDK 1.33.0: إصدار أكتوبر 2023

إشعار التغيير العاجل

مطلوب الآن تضمين حزمة NuGet الجديدة المضافة ل Microsoft Audio Stack (MAS) من قبل التطبيقات التي تستخدم MAS في ملفات تكوين الحزمة الخاصة بها.

الميزات الجديدة

تمت إضافة حزمة NuGet الجديدة Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg، والتي توفر أداء محسنا لإلغاء الارتداد عند استخدام مكدس الصوت من Microsoft
تقييم النطق: دعم إضافي لتقييم التجسيد والمحتوى، والذي يمكن أن يقيم الكلام المنطوق من حيث التجسيد والمفردات والنحو والموضوع.

إصلاح الأخطاء

يتم إزاحة نتيجة التعرف على الكلمة الأساسية الثابتة بحيث تتطابق بشكل صحيح مع دفق صوت الإدخال منذ البداية. ينطبق الإصلاح على كل من التعرف على الكلمة الأساسية المستقلة والتعرف على الكلام الذي يتم تشغيله بالكلمة الأساسية.
لا يرجع Synthesizer stopSpeaking الثابت طريقة SPXSpeechSynthesizer stopSpeaking() فورا على iOS 17 - المشكلة #2081
تم إصلاح مشكلة استيراد محفز Mac على وحدة Swift دعم محفز mac مع apple silicon. المشكلة رقم 1948
JS: تستخدم أحمال وحدة AudioWorkletNode الآن عنوان URL موثوق به، مع تضمين النسخ الاحتياطي لمستعرض CDN.
JS: تستهدف ملفات lib المحزمة الآن ES6 JS، مع إزالة دعم ES5 JS.
JS: تتم معالجة الأحداث المتوسطة لسيناريو الترجمة التي تستهدف نقطة نهاية الإصدار 2 بشكل صحيح
JS: تم الآن تعيين خاصية اللغة ل TranslationRecognitionEventArgs لأحداث translation.hypothesis.
تجميع الكلام: يضمن إصدار الحدث المكتمل بعد جميع أحداث بيانات التعريف، بحيث يمكن استخدامه للإشارة إلى نهاية الأحداث. كيفية الكشف عن متى يتم تلقي visemes تماما؟ المشكلة رقم 2093 Azure-Samples/cognitive-services-speech-sdk

العينات

تمت إضافة عينة لإثبات تدفق MULAW باستخدام Python)
إصلاح نموذج NAudio لتحويل الكلام إلى نص

Speech CLI 1.33.0: إصدار أكتوبر 2023

الميزات الجديدة

دعم إخراج أحداث حدود الكلمة عند تركيب الكلام.

إصلاح الأخطاء

لا شيء

Speech SDK 1.32.1: إصدار سبتمبر 2023

إصلاح الأخطاء

حزم تحديثات Android مع أحدث إصلاحات الأمان من OpenSSL1.1.1v
JS – تمت إضافة خاصية WebWorkerLoadType للسماح بتجاوز تحميل عنوان URL للبيانات لعامل المهلة
JS – إصلاح قطع اتصال ترجمة المحادثة بعد 10 دقائق
JS – يتم الآن نشر الرمز المميز لمصادقة ترجمة المحادثة من المحادثة إلى اتصال خدمة الترجمة

العينات

كتابة المحادثة باستخدام واجهات برمجة تطبيقات Swift

Speech SDK 1.31.0: إصدار أغسطس 2023

ميزات جديدة

يتوفر دعم اليوميات في الوقت الحقيقي في المعاينة العامة باستخدام Speech SDK 1.31.0. تتوفر هذه الميزة في SDKs التالية: C# وC++وJava وJavaScript وPython و Objective-C/Swift.
حد كلمة تجميع الكلام المتزامن وأحداث viseme مع تشغيل الصوت

كسر التغييرات

تتم إعادة تسمية سيناريو "كتابة المحادثة" السابق إلى "نسخ الاجتماع". على سبيل المثال، استخدم MeetingTranscriber بدلا من ConversationTranscriber، واستخدم CreateMeetingAsync بدلا من CreateConversationAsync. على الرغم من تغيير أسماء كائنات SDK وأساليبها، فإن إعادة التسمية لا تغير الميزة نفسها. استخدم كائنات نسخ الاجتماعات لنسخ الاجتماعات باستخدام ملفات تعريف المستخدمين والتوقيعات الصوتية. راجع نسخ الاجتماع للحصول على مزيد من المعلومات. لا تتأثر كائنات وأساليب "ترجمة المحادثة" بهذه التغييرات. لا يزال بإمكانك استخدام ConversationTranslator الكائن وأساليبه لسيناريوهات ترجمة الاجتماع.

لليوميات في الوقت الحقيقي، يتم تقديم عنصر جديد ConversationTranscriber . نموذج عنصر "كتابة المحادثة" الجديد وأنماط الاستدعاء مشابهة للتعرف المستمر مع SpeechRecognizer الكائن. يتمثل الاختلاف الرئيسي في ConversationTranscriber أن العنصر مصمم لاستخدامه في سيناريو محادثة حيث تريد تمييز عدة مكبرات صوت (يوميات). ملفات تعريف المستخدمين والتوقيعات الصوتية غير قابلة للتطبيق. راجع البدء السريع للمذكرات في الوقت الحقيقي لمزيد من المعلومات.

يعرض هذا الجدول أسماء الكائنات السابقة والجديدة لليوميات في الوقت الحقيقي وكتابة الاجتماع. يوجد اسم السيناريو في العمود الأول، وأسماء الكائنات السابقة في العمود الثاني، وأسماء الكائنات الجديدة موجودة في العمود الثالث.

اسم السيناريو	أسماء الكائنات السابقة	أسماء الكائنات الجديدة
يوميات في الوقت الحقيقي	‏‫غير متوفر‬	`ConversationTranscriber`
نسخ الاجتماع	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ParticipantParticipantChangedReasonتنطبق العناصر و و User على كل من سيناريوهات كتابة الاجتماع وترجمة الاجتماع.

² الكائن Meeting جديد ويستخدم مع MeetingTranscriber الكائن.

إصلاح الأخطاء

تم إصلاح الحد الأدنى من إصدار macOS المدعوم https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
تم إصلاح خطأ تقييم النطق:
- معالجة مشكلة درجات دقة الهاتف، مع التأكد من أنها تعكس الآن بدقة فقط الهاتف المحدد الذي تم تفسيره بشكل خاطئ. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- تم حل مشكلة حيث كانت ميزة تقييم النطق تحدد بشكل غير دقيق النطق الصحيح تماما على أنه خطأ، خاصة في الحالات التي يمكن أن يكون فيها للكلمات نطق صالح متعدد. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

العينات

Speech SDK 1.30.0: إصدار يوليو 2023

ميزات جديدة

C++، C#، Java - تمت إضافة دعم ل DisplayWords في النتيجة التفصيلية للتعرف على الكلام المضمنة.
Objective-C/Swift - دعم إضافي للحدث ConnectionMessageReceived في Objective-C/Swift.
Objective-C/Swift - نماذج محسنة لتحديد الكلمة الأساسية لنظام التشغيل iOS. أدى هذا التغيير إلى زيادة حجم حزم معينة، والتي تحتوي على ثنائيات iOS (مثل NuGet وXCFramework). نحن نعمل على تقليل حجم الإصدارات المستقبلية.

إصلاح الأخطاء

تم إصلاح تسرب الذاكرة عند استخدام أداة التعرف على الكلام مع PhraseListGrammar، كما تم الإبلاغ عنه من قبل العميل (مشكلة GitHub).
تم إصلاح حالة توقف تام في واجهة برمجة تطبيقات اتصال فتح النص إلى الكلام.

ملاحظات إضافية

Java - تم تغيير بعض أساليب واجهة برمجة تطبيقات Java المستخدمة public داخليا إلى حزمة internalأو protected .private لا ينبغي أن يكون لهذا التغيير تأثير على المطورين، لأننا لا نتوقع أن تستخدم التطبيقات هذه التطبيقات. تمت الإشارة هنا من أجل الشفافية.

العينات

نماذج جديدة لتقييم النطق حول كيفية تحديد لغة تعلم في تطبيقك الخاص
- C#‎: راجع نموذج التعليمات البرمجية.
- C++‎: راجع نموذج التعليمات البرمجية.
- JavaScript: راجع نموذج التعليمات البرمجية.
- Objective-C: راجع نموذج التعليمات البرمجية.
- Python: راجع نموذج التعليمات البرمجية.
- Swift: راجع نموذج التعليمات البرمجية.

Speech SDK 1.29.0: إصدار يونيو 2023

ميزات جديدة

C++، C#، Java - معاينة واجهات برمجة تطبيقات ترجمة الكلام المضمنة. الآن يمكنك القيام بترجمة الكلام دون اتصال سحابي!
JavaScript - تعريف اللغة المستمر (LID) ممكن الآن لترجمة الكلام.
JavaScript - مساهمة المجتمع لإضافة LocaleName خاصية إلى VoiceInfo الفئة. شكرا لك مستخدم GitHub shivsarthak لطلب السحب.
C++، C#، Java - تمت إضافة دعم لإعادة تعيين النص المضمن إلى إخراج الكلام من معدل عينة 16 كيلوهرتز إلى 48 كيلوهرتز.
تمت إضافة دعم للإعدادات hi-IN المحلية في Intent Recognizer باستخدام Simple Pattern Matching.

إصلاح الأخطاء

تم إصلاح العطل الناجم عن حالة تعارض في Speech Recognizer أثناء تدمير الكائنات، كما هو الحال في بعض اختبارات Android
تم إصلاح حالات التوقف التام المحتملة في Intent Recognizer باستخدام Simple Pattern Matcher

العينات

نماذج ترجمة الكلام المضمنة الجديدة

Speech SDK 1.28.0: إصدار مايو 2023

كسر التغيير

JavaScript SDK: تمت إزالة بروتوكول حالة الشهادة عبر الإنترنت (OCSP). يسمح هذا للعملاء بالتوافق بشكل أفضل مع معايير المتصفح والعقدة لمعالجة الشهادات. لن يتضمن الإصدار 1.28 وما بعده وحدة OCSP المخصصة.

ميزات جديدة

يتم الآن إرجاع NoMatchReason::EndSilenceTimeout "التعرف على الكلام المضمن" عند حدوث مهلة الصمت في نهاية التعبير. يطابق هذا السلوك عند إجراء التعرف باستخدام خدمة الكلام في الوقت الحقيقي.
JavaScript SDK: تعيين الخصائص على SpeechTranslationConfig استخدام PropertyId قيم التعداد.

إصلاح الأخطاء

C# على Windows - إصلاح حالة السباق المحتملة/حالة التوقف التام في ملحق صوت Windows. في السيناريوهات التي يقوم كل منهما بالتخلص من عارض الصوت بسرعة وأيضا استخدام أسلوب Synthesizer للتوقف عن الكلام، لم تتم إعادة تعيين الحدث الأساسي عن طريق الإيقاف، وقد يتسبب في عدم التخلص من كائن العارض مطلقا، كل ذلك في حين أنه قد يكون يحمل تأمينا عموميا للتخلص منه، وتجميد مؤشر ترابط dotnet GC.

العينات

تمت إضافة نموذج كلام مضمن ل MAUI.
تحديث نموذج الكلام المضمن ل Android Java لتضمين نص إلى كلام.

Speech SDK 1.27.0: إصدار أبريل 2023

إعلام حول التغييرات القادمة

نخطط لإزالة بروتوكول حالة الشهادة عبر الإنترنت (OCSP) في إصدار JavaScript SDK التالي. يسمح هذا للعملاء بالتوافق بشكل أفضل مع معايير المتصفح والعقدة لمعالجة الشهادات. الإصدار 1.27 هو الإصدار الأخير الذي يتضمن وحدة OCSP المخصصة.

ميزات جديدة

JavaScript – دعم إضافي لإدخال الميكروفون من المتصفح باستخدام تعريف السماعة والتحقق منها.
التعرف على الكلام المضمن - تحديث دعم PropertyId::Speech_SegmentationSilenceTimeoutMs الإعداد.

إصلاح الأخطاء

عام - تحديثات الموثوقية في منطق إعادة توصيل الخدمة (جميع لغات البرمجة باستثناء JavaScript).
عام - إصلاح تحويلات السلسلة التي تسرب الذاكرة على Windows (جميع لغات البرمجة ذات الصلة باستثناء JavaScript).
التعرف على الكلام المضمن - إصلاح العطل في التعرف على الكلام الفرنسي عند استخدام إدخالات معينة في القائمة النحوية.
وثائق التعليمات البرمجية المصدر - تصحيحات لتعليقات الوثائق المرجعية ل SDK المتعلقة بتسجيل الصوت على الخدمة.
التعرف على الهدف - إصلاح أولويات مطابق النمط المتعلقة بكيانات القائمة.

العينات

معالجة فشل المصادقة بشكل صحيح في نموذج كتابة محادثة C# (CTS).
تمت إضافة مثال لتقييم النطق المتدفق ل Python وJavaScript و Objective-C و Swift.

Speech SDK 1.26.0: إصدار مارس 2023

كسر التغييرات

تم تعطيل Bitcode في جميع أهداف iOS في الحزم التالية: Cocoapod مع xcframework وNuGet (ل Xamarin وMAUI) وUnity. ويرجع التغيير إلى إهمال Apple لدعم bitcode من Xcode 14 وما بعده. يعني هذا التغيير أيضا إذا كنت تستخدم إصدار Xcode 13 أو قمت بتمكين رمز البت بشكل صريح على التطبيق الخاص بك باستخدام Speech SDK، فقد تواجه خطأ يقول "إطار العمل لا يحتوي على bitcode ويجب إعادة إنشائه". لحل هذه المشكلة، تأكد من تعطيل bitcode لأهدافك.
تمت ترقية الحد الأدنى من هدف توزيع iOS إلى 11.0 في هذا الإصدار، مما يعني أن armv7 HW لم يعد مدعوما.

الميزات الجديدة

يدعم التعرف على الكلام المضمن (على الجهاز) الآن صوت إدخال معدل أخذ العينات 8 و16 كيلوهرتز (16 بت لكل عينة، PCM أحادي).
يقوم Speech Synthesis الآن بالإبلاغ عن الاتصال وزمن انتقال الشبكة والخدمة في النتيجة للمساعدة في تحسين زمن الانتقال من طرف إلى طرف.
قواعد جديدة لكسر التعادل للتعرف على الهدف مع مطابقة نمط بسيط. كلما زاد عدد وحدات بايت الأحرف المتطابقة، ستفوز على تطابقات النمط مع عدد البايت الأقل للأحرف. مثال: سيفوز النمط "Select {something} في أعلى اليمين" على "Select {something}"

إصلاح الأخطاء

تركيب الكلام: قم بإصلاح خطأ حيث لا يكون رمز المشاعر صحيحا في أحداث حدود الكلمات.
التعرف على الهدف باستخدام فهم لغة المحادثة (CLU):
- تظهر الأهداف من سير عمل CLU Orchestrator الآن بشكل صحيح.
- تتوفر نتيجة JSON الآن عبر معرف LanguageUnderstandingServiceResponse_JsonResultالخاصية .
التعرف على الكلام مع تنشيط الكلمة الأساسية: إصلاح للصوت المفقود ~150 مللي ثانية بعد التعرف على الكلمة الأساسية.
إصلاح إصدار Speech SDK NuGet iOS MAUI، الذي أبلغ عنه العميل (مشكلة GitHub)

العينات

إصلاح عينة Swift iOS، التي أبلغ عنها العميل (مشكلة GitHub)

Speech SDK 1.25.0: إصدار يناير 2023

كسر التغييرات

تم تبسيط واجهات برمجة التطبيقات لتحديد اللغة (معاينة). إذا قمت بتحديث Speech SDK 1.25 وشاهدت فاصل بناء، فيرجى زيارة صفحة تحديد اللغة للتعرف على الخاصية SpeechServiceConnection_LanguageIdModeالجديدة . تحل هذه الخاصية الفردية محل الخاصيتين السابقتين SpeechServiceConnection_SingleLanguageIdPriority و SpeechServiceConnection_ContinuousLanguageIdPriority. لم يعد تحديد الأولويات بين زمن الانتقال المنخفض والدقة العالية ضروريا بعد تحسينات النموذج الأخيرة. الآن، تحتاج فقط إلى تحديد ما إذا كنت تريد تشغيل تعريف اللغة في البداية أو المستمر عند إجراء التعرف المستمر على الكلام أو الترجمة.

الميزات الجديدة

C#/C++/Java: تم الآن إصدار Embedded Speech SDK ضمن معاينة عامة مسورة. راجع وثائق الكلام المضمن (معاينة). يمكنك الآن إجراء تحويل الكلام إلى نص ونص إلى كلام على الجهاز عندما يكون الاتصال السحابي متقطعا أو غير متوفر. مدعوم على أنظمة Android وLinux وmacOS وWindows الأساسية
C# MAUI: تمت إضافة الدعم لأهداف iOS وMac Catalyst في Speech SDK NuGet (مشكلة العميل)
Unity: تمت إضافة بنية android x86_64 إلى حزمة Unity (مشكلة العميل)
الانتقال:
- تمت إضافة دعم الدفق المباشر ALAW/MULAW للتعرف على الكلام (مشكلة العميل)
- دعم إضافي ل PhraseListGrammar. شكرا لك مستخدم GitHub czkoko لمساهمة المجتمع!
C#/C++: يدعم Intent Recognizer الآن نماذج Conversational Language Understanding في C++ وC# مع التنسيق على خدمة Microsoft

إصلاح الأخطاء

إصلاح تعليق عرضي في KeywordRecognizer عند محاولة إيقافه
Python:
- إصلاح للحصول على نتائج تقييم النطق عند PronunciationAssessmentGranularity.FullText تعيين (مشكلة العميل)
- إصلاح خاصية الجنس لأصوات الذكور التي لا يتم استردادها، عند الحصول على أصوات تركيب الكلام
جافا سكريبت
- إصلاح لتحليل بعض ملفات WAV التي تم تسجيلها على أجهزة iOS (مشكلة العميل)
- يتم الآن إنشاء JS SDK دون استخدام npm-force-resolutions (مشكلة العميل)
- يقوم المترجم المحادثة الآن بتعيين نقطة نهاية الخدمة بشكل صحيح عند استخدام مثيل speechConfig تم إنشاؤه باستخدام SpeechConfig.fromEndpoint()

العينات

عينات مضافة توضح كيفية استخدام الكلام المضمن
تمت إضافة Speech إلى نموذج نصي ل MAUI

راجع مستودع عينات Speech SDK.

Speech SDK 1.24.2: إصدار نوفمبر 2022

الميزات الجديدة

لا توجد ميزات جديدة، فقط إصلاح محرك مضمن لدعم ملفات النموذج الجديدة.

إصلاح الأخطاء

جميع لغات البرمجة
- تم إصلاح مشكلة تتعلق بتشفير نماذج التعرف على الكلام المضمنة.

Speech SDK 1.24.1: إصدار نوفمبر 2022

الميزات الجديدة

الحزم المنشورة لمعاينة الكلام المضمن. راجع https://aka.ms/embedded-speech لمزيد من المعلومات.

إصلاح الأخطاء

جميع لغات البرمجة
- إصلاح تعطل TTS المضمن عندما لا يكون الخط الصوتي مدعوما
- لا يمكن لإصلاح stopSpeaking() إيقاف التشغيل على Linux (#1686)
JavaScript SDK
- تم إصلاح الانحدار في كيفية قيام ناسخ المحادثة ببوابة الصوت.
Java
- تم نشر ملفات POM وJavadocs المحدثة مؤقتا إلى Maven Central لتمكين مسار المستندات من تحديث المستندات المرجعية عبر الإنترنت.
Python
- إصلاح الانحدار حيث ترجع Python speak_text (ssml) فراغا.

Speech SDK 1.24.0: إصدار أكتوبر 2022

الميزات الجديدة

جميع لغات البرمجة: تمت إضافة AMR-WB (16khz) إلى القائمة المدعومة من تنسيقات إخراج صوت النص إلى الكلام
Python: تمت إضافة الحزمة ل Linux ARM64 لتوزيعات Linux المدعومة.
C#/C++/Java/Python: تمت إضافة الدعم للتدفق المباشر ل ALAW و MULAW إلى خدمة الكلام (بالإضافة إلى دفق PCM الحالي) باستخدام AudioStreamWaveFormat.
C# MAUI: تم تحديث حزمة NuGet لدعم أهداف Android لمطوري .NET MAUI (مشكلة العميل)
Mac: تمت إضافة XCframework منفصل لنظام التشغيل Mac، والذي لا يحتوي على أي ثنائيات iOS. يوفر هذا خيارا للمطورين الذين يحتاجون إلى ثنائيات Mac فقط باستخدام حزمة XCframework أصغر.
مكدس الصوت من Microsoft (MAS):
- عند تحديد زوايا تشكيل الحزم، سيتم منع الصوت الذي ينشأ خارج النطاق المحدد بشكل أفضل.
- انخفاض بنسبة 70٪ تقريبا في حجم libMicrosoft.CognitiveServices.Speech.extension.mas.so ل Linux ARM32 وLinux ARM64.
التعرف على الهدف باستخدام مطابقة النمط:
- إضافة دعم تقويم اللغات frو deو esو jp
- تمت إضافة دعم عدد صحيح تم إنشاؤه مسبقا للغة es.

إصلاح الأخطاء

iOS: إصلاح خطأ تركيب الكلام على iOS 16 بسبب فشل فك ترميز الصوت المضغوط (مشكلة العميل).
JavaScript:
- إصلاح الرمز المميز للمصادقة الذي لا يعمل عند الحصول على قائمة صوت تجميع الكلام (مشكلة العميل).
- استخدم عنوان URL للبيانات لتحميل العامل (مشكلة العميل).
- إنشاء worklet لمعالج الصوت فقط عندما يكون AudioWorklet مدعوما في المستعرض (مشكلة العميل). كانت هذه مساهمة مجتمعية من قبل ويليام وونغ. شكرا لك ويليام!
- إصلاح رد الاتصال الذي تم التعرف عليه عندما تكون استجابة connectionMessage LUIS فارغة (مشكلة العميل).
- تعيين مهلة تجزئة الكلام بشكل صحيح.
التعرف على الهدف باستخدام مطابقة النمط:
- سيتم الآن تحميل الأحرف غير json داخل النماذج بشكل صحيح.
- إصلاح مشكلة معلقة عند recognizeOnceAsync(text) استدعاؤها أثناء التعرف المستمر.

Speech SDK 1.23.0: إصدار يوليو 2022

الميزات الجديدة

C#، C++، Java: دعم إضافي للغات zh-cn وzh-hkفي التعرف على الهدف باستخدام مطابقة النمط.
C#‎: دعم إضافي لبنيات AnyCPU .NET Framework

إصلاح الأخطاء

Android: تم إصلاح ثغرة OpenSSL الأمنية CVE-2022-2068 عن طريق تحديث OpenSSL إلى 1.1.1q
Python: إصلاح التعطل عند استخدام PushAudioInputStream
iOS: إصلاح "EXC_BAD_ACCESS: محاولة إلغاء مرجعية المؤشر الفارغ" كما تم الإبلاغ عنه على iOS (مشكلة GitHub)

Speech SDK 1.22.0: إصدار يونيو 2022

الميزات الجديدة

Java: IntentRecognitionResult API ل getEntities()، وتطبيقLanguageModels()، و recognizeOnceAsync(text) المضافة لدعم محرك "مطابقة النمط البسيط".
Unity: دعم إضافي لـ Mac M1 (Apple Silicon) لحزمة Unity (مشكلة GitHub)
C#‎: دعم إضافي x86_64 لـ Xamarin Android (مشكلة GitHub)
C#‎: تم إيقاف الإصدار الأدنى من .NET framework إلى الإصدار 4.6.2 لحزمة SDK C# كما تم إيقاف الإصدار 4.6.1 (راجع نهج دورة حياة المكون في Microsoft .NET Framework)
Linux: دعم إضافي لـ Debian 11 وUbuntu 22.04 LTS. يتطلب Ubuntu 22.04 LTS التثبيت اليدوي ل libssl1.1 إما كحزمة ثنائية من هنا (على سبيل المثال، libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb أو أحدث للإصدار x64)، أو عن طريق التحويل البرمجي من المصادر.

إصلاح الأخطاء

UWP: تمت إزالة تبعية OpenSSL من مكتبات UWP واستبدالها بـ WinRT websocket وHTTP APIs لتلبية التوافق الأمني والبصمة الثنائية الأصغر.
Mac: تم إصلاح مشكلة "MicrosoftCognitiveServicesSpeech Module Not Found" عند استخدام مشاريع Swift التي تستهدف نظام macOS الأساسي
Windows، Mac: تم إصلاح مشكلة خاصة بالنظام الأساسي حيث كانت مصادر الصوت التي تم تكوينها عبر الخصائص للبث بمعدل الوقت الحقيقي متخلفة في بعض الأحيان وتجاوزت السعة في النهاية

عينات (GitHub)

C#‎: تم تحديث نماذج إطار عمل .NET لاستخدام الإصدار 4.6.2
Unity: تم إصلاح عينة المساعد الظاهري لنظامي Android وUWP
Unity: تم تحديث نماذج Unity لإصدار Unity 2020 LTS

Speech SDK 1.21.0: إصدار أبريل 2022

الميزات الجديدة

Java وJavaScript: دعم إضافي لتحديد اللغة المستمرة عند استخدام كائن SpeechRecognizer
JavaScript: تمت إضافة واجهات برمجة تطبيقات التشخيص لتمكين مستوى تسجيل وحدة التحكم وتسجيل الملفات (العقدة فقط)، لمساعدة Microsoft على استكشاف المشكلات التي أبلغ عنها العميل وإصلاحها
Python: دعم إضافي لنسخ المحادثة
Go: دعم إضافي للتعرف على المتحدث
C++ وC#: تمت إضافة دعم لمجموعة مطلوبة من الكلمات في Intent Recognizer (مطابقة النمط البسيط). على سبيل المثال: "(set|start|begin) مؤقت" حيث يجب أن تكون "set" أو "start" أو "begin" موجودة للقصد الذي سيتم التعرف عليه.
جميع لغات البرمجة، تجميع الكلام: تمت إضافة خاصية المدة في أحداث حد الكلمات. إضافة دعم لحدود علامات الترقيم ونقط الجملة
Objective-C/Swift/Java: تمت إضافة نتائج على مستوى الكلمات على كائن نتيجة تقييم النطق (مشابه لـ C#). لم يعد التطبيق بحاجة إلى تحليل سلسلة نتائج JSON للحصول على معلومات على مستوى الكلمات (مشكلة GitHub)
النظام الأساسي لنظام التشغيل iOS: دعم تجريبي إضافي لبنية ARMv7

إصلاح الأخطاء

نظام iOS الأساسي: إصلاح للسماح بإنشاء الهدف "أي جهاز iOS"، عند استخدام CocoaPod (مشكلة GitHub)
نظام Android الأساسي: تم تحديث إصدار OpenSSL إلى 1.1.1n لإصلاح الثغرة الأمنية CVE-2022-0778
JavaScript: إصلاح مشكلة عدم تحديث رأس wav بحجم الملف (مشكلة GitHub)
JavaScript: إصلاح مشكلة توقف معرف الطلب عن العمل (مشكلة GitHub)
JavaScript: إصلاح المشكلة عند إنشاء مثيل SpeakerAudioDestination دون دفق (مشكلة GitHub]
C++‎: إصلاح عناوين C++ لإزالة تحذير عند التحويل البرمجي لـ C++17 أو أحدث

عينات GitHub

عينات Java جديدة للتعرف على الكلام مع تعريف اللغة
عينات PythonوJava جديدة لنسخ المحادثة
نموذج Go جديد للتعرف على السماعة
أداة C++ وC# جديدة لنظام التشغيل Windows تقوم بتعداد جميع أجهزة التقاط الصوت وعرضها، للعثور على معرف الجهاز الخاص بها. هذا المعرف مطلوب بواسطة Speech SDK إذا كنت تخطط لالتقاط الصوت من جهاز غير افتراضي أو عرض الصوت إليه.

Speech SDK 1.20.0: إصدار يناير 2022

الميزات الجديدة

Objective-C وSwift وPython: دعم إضافي لـ DialogServiceConnector، المستخدم لسيناريوهات مساعد الصوت.
Python: تمت إضافة دعم Python 3.10. تمت إزالة دعم Python 3.6، لكل end-of-life 3.6.
Unity: يتم الآن دعم Speech SDK لتطبيقات Unity على Linux.
C++، C#‎: IntentRecognizer باستخدام مطابقة النمط مدعوم الآن في C#. بالإضافة إلى ذلك، يتم الآن دعم السيناريوهات ذات الكيانات المخصصة والمجموعات الاختيارية وأدوار الكيان في C++ وC#.
C++، C#‎: تسجيل تتبع التشخيص المحسن باستخدام فئات جديدة FileLogger وDy memoryLogger وDyventLogger. تعد سجلات SDK أداة مهمة لـ Microsoft لتشخيص المشكلات التي أبلغ عنها العميل. تسهل هذه الفئات الجديدة على العملاء دمج سجلات Speech SDK في نظام التسجيل الخاص بهم.
جميع لغات البرمجة: يحتوي PronunciationAssessmentConfig الآن على خصائص لتعيين الأبجدية الصوتية المطلوبة (IPA أو SAPI) وN-Best Phoneme Count (تجنب الحاجة إلى تأليف تكوين JSON وفقا لإصدار GitHub 1284). أيضاً، يتم الآن دعم إخراج مستوى المقطع.
Android وiOS وmacOS (جميع لغات البرمجة): لم تعد هناك حاجة إلى GStreamer لدعم شبكات النطاق الترددي المحدود. يستخدم SpeechSynthesizer الآن قدرات فك ترميز الصوت لنظام التشغيل لفك تشفير الصوت المضغوط المتدفق من النص إلى خدمة الكلام.
جميع لغات البرمجة: يدعم SpeechSynthesizer الآن ثلاثة تنسيقات جديدة للمخرجات الأولية (دون حاوية)، والتي تستخدم على نطاق واسع في سيناريوهات البث المباشر.
JavaScript: تمت إضافة واجهة برمجة تطبيقات getVoicesAsync() إلى SpeechSynthesizer لاسترداد قائمة أصوات التوليف المدعومة (إصدار GitHub 1350)
JavaScript: تمت إضافة واجهة برمجة تطبيقات getWaveFormat() إلى AudioStreamFormat لدعم تنسيقات موجة غير PCM (إصدار GitHub 452)
JavaScript: تمت إضافة واجهات برمجة تطبيقات getter/setter وmute()/unmute() إلى SpeakerAudioDestination (إصدار GitHub 463)

إصلاح الأخطاء

C++، وC#، وJava، وJavaScript، وObjective-C، وSwift: إصلاح لإزالة تأخير 10 ثوانٍ أثناء إيقاف أداة التعرف على الكلام التي تستخدم PushAudioInputStream. هذا هو الحال حيث يتم دفع أي صوت جديد بعد استدعاء StopContinuousRecognition (مشكلات GitHub 1318، 331)
Unity على Android وUWP: تم إصلاح ملفات تعريف Unity لـ UWP وAndroid ARM64 نظام Windows الفرعي لـ Android (WSA) ARM64 (إصدار GitHub 1360)
iOS: يتم الآن إصلاح تجميع تطبيق Speech SDK على أي جهاز iOS عند استخدام CocoaPods (إصدار GitHub 1320)
iOS: عند تكوين SpeechSynthesizer لإخراج الصوت مباشرة إلى مكبر الصوت، توقف التشغيل في البداية في حالات نادرة. تم إصلاح هذا.
JavaScript: استخدام معالج البرنامج النصي الاحتياطي لإدخال الميكروفون إذا لم يتم العثور على عمل صوتي (GitHub المشكلة 455)
JavaScript: إضافة بروتوكول إلى العامل للتخفيف من الأخطاء التي تم العثور عليها مع تكامل Sentry (إصدار GitHub 465)

عينات GitHub

نماذج C++‎، وC#، وPython، وJava توضح كيفية الحصول على نتائج التعرف التفصيلية. تتضمن التفاصيل نتائج التعرف البديلة، ودرجة الثقة، والنموذج المعجمي، والنموذج العادي، والنموذج المقنع الذي تمت تسويته، مع توقيت على مستوى الكلمات لكل منها.
تمت إضافة عينة iOS باستخدام AVFoundation كمصدر صوت خارجي.
تمت إضافةنموذج Java لإظهار كيفية الحصول على تنسيق SRT (نص فرعي) باستخدام حدث WordBoundary.
عينات Android لتقييم النطق.
يعرض C++‎، C#‎ استخدام فئات تسجيل التشخيص الجديدة.

Speech SDK 1.19.0: إصدار 2021 - نوفمبر

النقاط الرئيسية

خدمة التعرف على المتحدث متاحة بشكل عام (GA) الآن. تتوفر واجهات برمجة تطبيقات Speech SDK على C++، وC#، وJava، وJavaScript. باستخدام التعرف على المتحدث، يمكنك التحقق من السماعات وتحديدها بدقة من خلال خصائصها الصوتية الفريدة. لمزيد من المعلومات حول هذا الموضوع، راجع الوثائق.
لقد أسقطنا الدعم عن Ubuntu 16.04 بالتزامن مع Azure DevOps وGitHub. وصل Ubuntu 16.04 إلى نهاية العمر الافتراضي مرة أخرى في أبريل 2021. ترحيل مهام سير عمل Ubuntu 16.04 إلى Ubuntu 18.04 أو أحدث.
تم تغيير ارتباط OpenSSL في ثنائيات Linux إلى ديناميكي. تم تقليل الحجم الثنائي لنظام Linux بنسبة 50٪ تقريبا.
تمت إضافة دعم السيليكون المستند إلى Mac M1 ARM.

الميزات الجديدة

C++/C#/Java: تمت إضافة واجهات برمجة تطبيقات جديدة لتمكين دعم معالجة الصوت لإدخال الكلام باستخدام Microsoft Audio Stack. الوثائق هنا.
C++‎: واجهات برمجة التطبيقات الجديدة للتعرف على الهدف لتسهيل مطابقة النمط الأكثر تقدما. ويشمل ذلك كيانات القائمة والأعداد الصحيحة التي تم إنشاؤها مسبقاً بالإضافة إلى دعم أهداف التجميع والكيانات كنماذج (الوثائق والتحديثات والعينات قيد التطوير وسيتم نشرها في المستقبل القريب).
Mac: دعم حزم ARM64 (M1) المستندة إلى Silicon ل CocoaPod وPython وJava وNuGet المتعلقة بإصدار GitHub 1244.
iOS/Mac: يتم الآن حزم ثنائيات iOS وmacOS في xcframework المتعلقة بإصدار GitHub 919.
iOS/Mac: دعم محفز Mac المتعلق بإصدار GitHub 1171.
Linux: تمت إضافة حزمة tar جديدة لـ CentOS7 بشأن Speech SDK. تحتوي حزمة Linux .tar الآن على مكتبات محددة لـ RHEL/CentOS 7 في lib/centos7-x64. لا تزال مكتبات Speech SDK في lib/x64 قابلة للتطبيق على جميع توزيعات Linux x64 المدعومة الأخرى (بما في ذلك RHEL/CentOS 8) ولن تعمل على RHEL/CentOS 7.
JavaScript: واجهات برمجة تطبيقات VoiceProfile و SpeakerRecognizer غير متزامنة/قابلة للانتظار.
JavaScript: تمت إضافة دعم لمناطق Azure التابعة للحكومة الأمريكية.
Windows: تمت إضافة الدعم للتشغيل على النظام الأساسي العام لـ Windows (UWP).

إصلاح الأخطاء

Android: تحديث أمان OpenSSL (محدث إلى الإصدار 1.1.1l) لحزم Android.
Python: تم حل الخطأ حيث فشل اختيار جهاز مكبر الصوت على Python.
Core: إعادة الاتصال تلقائياً عند فشل محاولة الاتصال.
iOS: تم تعطيل ضغط الصوت على حزم iOS بسبب عدم الاستقرار ومشاكل إنشاء bitcode عند استخدام GStreamer. تتوفر التفاصيل عبر إصدار GitHub 1209.

عينات GitHub

Mac/iOS: العينات المحدثة وقوالب التشغيل السريع لاستخدام حزمة xcframework.
.NET: تم تحديث العينات لاستخدام إصدار .NET core 3.1.
JavaScript: تمت إضافة عينة للمساعدين الصوتيين.

Speech SDK 1.18.0: إصدار 2021-يوليو

ملاحظة: ابدأ باستخدام Speech SDK هنا.

ملخص أهم النقاط

بلغ Ubuntu 16.04 نهاية العمر الافتراضي في أبريل 2021. باستخدام Azure DevOps وGitHub، سنسقط الدعم ل 16.04 في سبتمبر 2021. ترحيل مهام سير عمل ubuntu-16.04 إلى ubuntu-18.04 أو أحدث قبل ذلك.

الميزات الجديدة

C++‎: يسهل الآن مطابقة نمط اللغة البسيط مع Intent Recognizer تنفيذ سيناريوهات التعرف على الهدف البسيطة.
C++/C#/Java: أضفنا واجهة برمجة تطبيقات جديدة إلى GetActivationPhrasesAsync()VoiceProfileClient الفئة لتلقي قائمة بعبارات التنشيط الصالحة في مرحلة تسجيل التعرف على المتحدث لسيناريوهات التعرف المستقلة.
- هام: ميزة التعرف على المتحدث في الإصدار الأولي. سيتم إيقاف جميع ملفات التعريف الصوتية التي تم إنشاؤها في المعاينة بعد 90 يوماً من نقل ميزة التعرف على المتحدث خارج المعاينة إلى التوفر العام. عند هذه النقطة ستتوقف معاينة ملفات تعريف الصوت عن العمل.
Python: دعم إضافي لتعريف اللغة المستمر (LID) على العناصر SpeechRecognizer الموجودة والعناصر TranslationRecognizer.
Python: تمت إضافة كائن Python جديد باسم SourceLanguageRecognizer للقيام بـ LID لمرة واحدة أو مستمرة (دون التعرف أو الترجمة).
JavaScript: getActivationPhrasesAsync تمت إضافة واجهة برمجة التطبيقات إلى VoiceProfileClient الفئة لتلقي قائمة بعبارات التنشيط الصالحة في مرحلة تسجيل التعرف على المتحدث لسيناريوهات التعرف المستقلة.
JavaScriptVoiceProfileClient' s enrollProfileAsync API هو الآن غير متزامنة في انتظار. راجع رمز التعريف المستقل هذا، على سبيل المثال، الاستخدام.

التحسينات

Java: تمت إضافة دعم AutoCloseable إلى العديد من عناصر Java. الآن يتم دعم نموذج try-with-resources لتحرير الموارد. راجع هذا النموذج الذي يستخدم try-with-resources. راجع أيضاً البرنامج التعليمي لوثائق Oracle Java لبيان تجربة الموارد للتعرف على هذا النمط.
تم تقليل بصمة القرص بشكل كبير للعديد من الأنظمة الأساسية والبنى. أمثلة للثنائي Microsoft.CognitiveServices.Speech.core : x64 Linux أصغر بـ 475 كيلوبايت (تقليل بنسبة 8.0٪)؛ ARM64 Windows UWP أصغر بـ 464 كيلوبايت (تخفيض بنسبة 11.5٪)؛ x86 Windows أصغر بـ 343 كيلوبايت (تخفيض بنسبة 17.5٪)؛ وx64 Windows أصغر بـ 451 كيلوبايت (تخفيض بنسبة 19.4٪).

إصلاح الأخطاء

Java: تم إصلاح خطأ التركيب عندما يحتوي نص التركيب على أحرف بديلة. التفاصيل هنا.
JavaScript: تستخدم AudioWorkletNode معالجة صوت ميكروفون المستعرض الآن بدلاً من إهمال.ScriptProcessorNode التفاصيل هنا.
JavaScript: حافظ على بقاء المحادثات على قيد الحياة بشكل صحيح أثناء سيناريوهات ترجمة المحادثات طويلة الأمد. التفاصيل هنا.
JavaScript: تم إصلاح مشكلة إعادة اتصال أداة التعرف بـ mediastream في التعرف المستمر. التفاصيل هنا.
JavaScript: تم إصلاح مشكلة إعادة اتصال أداة التعرف بـ pushStream في التعرف المستمر. التفاصيل هنا.
JavaScript: حساب إزاحة مستوى الكلمة المصحح في نتائج التعرف التفصيلية. التفاصيل هنا.

العينات

تم تحديث نماذج التشغيل السريع لـ Java هنا.
تم تحديث نماذج التعرف على مكبر صوت JavaScript لإظهار الاستخدام الجديد لـ enrollProfileAsync(). راجع العينات هنا.

Speech SDK 1.17.0: إصدار 2021-May

إشعار

ابدأ باستخدام Speech SDK هنا.

ملخص أهم النقاط

بصمة أصغر - نواصل تقليل الذاكرة وبصمة القرص لـ Speech SDK ومكوناته.
تتيح لك واجهة برمجة تطبيقات تعريف اللغة المستقلة الجديدة التعرف على اللغة التي يتم التحدث بها.
تطوير تطبيقات الحقيقة المختلطة والألعاب الممكنة للكلام باستخدام Unity على macOS.
يمكنك الآن استخدام النص إلى كلام بالإضافة إلى التعرف على الكلام من لغة البرمجة Go.
تم وضع علامة على GitHub العديد من إصلاحات الأخطاء لمعالجة المشكلات التي قمت أنت، عملائنا الكرام، بوضع علامة عليها! شكراً لك! استمر في تقديم الملاحظات!

الميزات الجديدة

C++/C#: At-Start مستقل جديد واكتشاف اللغة المستمرة عبر SourceLanguageRecognizer واجهة برمجة التطبيقات. إذا كنت تريد فقط الكشف عن اللغة (اللغات) المنطوقة في محتوى الصوت، فهذه هي واجهة برمجة التطبيقات للقيام بذلك. راجع تفاصيل C++‎وC#.
C++/C#: تدعم ميزة التعرف على الكلام والتعرف على الترجمة الآن تعريف اللغة في البداية والمستمر حتى تتمكن من تحديد اللغة (اللغات) التي يتم التحدث بها برمجيا قبل نسخها أو ترجمتها. راجع الوثائق هنا للتعرف على الكلام وهنا لترجمة الكلام.
C#‎: دعم إضافي لـ Unity لدعم macOS (x64). هذا يفتح التعرف على الكلام وحالات استخدام تركيب الكلام في الحقيقة المختلطة والألعاب!
Go: أضفنا دعما لنص تركيب الكلام إلى الكلام إلى لغة برمجة Go لجعل تركيب الكلام متاحا في المزيد من حالات الاستخدام. راجع دليل التشغيل السريع أو الوثائق المرجعية الخاصة بنا.
C++/C#/Java/Python/Objective-C/Go: يدعم تركيب الكلام الآن لكائن connection. يساعدك هذا على إدارة الاتصال بخدمة Speech ومراقبته، وهو مفيد بشكل خاص للاتصال المسبق لتقليل زمن الانتقال. انظر الوثائق هنا.
C++/C#/Java/Python/Objective-C/Go: نكشف الآن زمن الانتقال ونقل الوقت لمساعدتك في SpeechSynthesisResult مراقبة مشكلات زمن انتقال تركيب الكلام وتشخيصها. راجع تفاصيل C++‎، C#‎، Java، Python، Objective-C وGo.
C++/C#/Java/Python/Objective-C: يستخدم النص إلى كلام الآن الأصوات العصبية بشكل افتراضي عندما لا تحدد صوتا لاستخدامه. يمنحك هذا إخراج دقة أعلى بشكل افتراضي، ولكنه يزيد أيضاً السعر الافتراضي. يمكنك تحديد أي من أكثر من 70 صوتا قياسياً أو أكثر من 130 صوتاً عصبياً لتغيير الإعداد الافتراضي.
C++/C#/Java/Python/Objective-C/Go: أضفنا خاصية "الجنس" إلى المعلومات الصوتية التركيبية لتسهيل تحديد الأصوات استناداً إلى نوع الجنس. يعالج هذا مشكلة GitHub #1055.
C++، وC#، وJava، وJavaScript: ندعم الآن retrieveEnrollmentResultAsync، getAuthorizationPhrasesAsync وgetAllProfilesAsync() في التعرف على المتحدث لتسهيل إدارة المستخدم لجميع ملفات التعريف الصوتية لحساب معين. راجع وثائق C++‎، C#‎، Java، JavaScript. يعالج هذا مشكلة GitHub #338.
JavaScript: أضفنا إعادة المحاولة لفشل الاتصال الذي سيجعل تطبيقات الكلام المستندة إلى JavaScript أكثر قوة.

التحسينات

تم تحديث ثنائيات Linux وAndroid Speech SDK لاستخدام أحدث إصدار من OpenSSL (1.1.1k)
تحسينات حجم التعليمات البرمجية:
- يتم الآن تقسيم فهم اللغة إلى مكتبة "lu" منفصلة.
- انخفض الحجم الثنائي الأساسي لـ Windows x64 بنسبة 14.4٪.
- انخفض حجم ثنائي Android ARM64 الأساسي بنسبة 13.7٪.
- كما انخفض حجم المكونات الأخرى.

إصلاح الأخطاء

الكل: تم إصلاح مشكلة GitHub #842 لـ ServiceTimeout. يمكنك الآن نسخ ملفات صوتية طويلة باستخدام Speech SDK دون الاتصال بالخدمة التي تنتهي بهذا الخطأ. ومع ذلك، ما زلنا نوصي باستخدام النسخ الدفعي للملفات الطويلة.
C#‎: تم إصلاح مشكلة GitHub #947 حيث لا يمكن لإدخال الكلام ترك تطبيقك في حالة سيئة.
Java: تم إصلاح مشكلة GitHub #997 حيث يتعطل Speech SDK لـ Java 1.16 عند استخدام DialogServiceConnector دون اتصال بالشبكة أو مفتاح اشتراك غير صالح.
تم إصلاح العطل عند إيقاف التعرف على الكلام فجأة (على سبيل المثال، استخدام CTRL+C على تطبيق وحدة التحكم).
Java: تمت إضافة إصلاح لحذف الملفات المؤقتة على Windows عند استخدام Speech SDK لـ Java.
Java: تم إصلاح مشكلة GitHub #994 حيث قد يؤدي الاستدعاء DialogServiceConnector.stopListeningAsync إلى حدوث خطأ.
Java: تم إصلاح مشكلة العميل في التشغيل السريع المساعد الظاهري.
JavaScript: تم إصلاح مشكلة GitHub #366 حيث ConversationTranslator ألقى خطأ 'this.cancelSpeech ليست دالة'.
JavaScript: تم إصلاح مشكلة GitHub #298 حيث تم تشغيل عينة "الحصول على النتيجة كتدفق في الذاكرة" بصوت عال.
JavaScript: تم إصلاح مشكلة GitHub #350 حيث قد يؤدي الاستدعاء AudioConfig إلى 'ReferenceError: MediaStream غير محدد'.
JavaScript: تم إصلاح تحذير UnhandledPromiseRejection في Node.js للجلسات طويلة الأمد.

العينات

وثائق عينات Unity المحدثة لنظام التشغيل macOS هنا.
يتوفر الآن نموذج React Native لخدمة التعرف على الكلام الذكاء الاصطناعي Azure هنا.

Speech SDK 1.16.0: إصدار 2021-مارس

إشعار

يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك لـ Visual Studio 2015 و2017 و2019. قم بتنزيله من هنا.

الميزات الجديدة

C++/C#/Java/Python: انتقل إلى أحدث إصدار من GStreamer (1.18.3) لإضافة دعم لنسخ أي تنسيق وسائط على Windows وLinux وAndroid. انظر الوثائق هنا.
C++/C#/Java/Objective-C/Python: تمت إضافة دعم لفك ترميز الصوت المضغوط TTS/المركب إلى SDK. إذا قمت بتعيين تنسيق صوت الإخراج إلى PCM وكان GStreamer متوفراً على النظام الخاص بك، فسيطلب SDK الصوت المضغوط تلقائياً من الخدمة لحفظ النطاق الترددي وفك تشفير الصوت على العميل. يمكنك تعيين SpeechServiceConnection_SynthEnableCompressedAudioTransmission لـ false لتعطيل هذه الميزة. تفاصيل C ++، C#‎، Java، Objective-C، Python.
JavaScript: يمكن للمستخدمين Node.js الآن استخدام AudioConfig.fromWavFileInput واجهة برمجة التطبيقات. يعالج هذا مشكلة GitHub #252.
C++/C#/Java/Objective-C/Python: طريقة إضافية GetVoicesAsync() لـ TTS لإرجاع جميع الأصوات التركيبية المتوفرة. تفاصيل C++‎، C#‎، Java، Objective-C، وPython.
C++/C#/Java/JavaScript/Objective-C/Python: حدث إضافي VisemeReceived لتركيب TTS/الكلام لإرجاع حركة viseme متزامنة. انظر الوثائق هنا.
C++/C#/Java/JavaScript/Objective-C/Python: حدث إضافي BookmarkReached لـ TTS. يمكنك تعيين الإشارات المرجعية في إدخال SSML والحصول على إزاحات الصوت لكل إشارة مرجعية. انظر الوثائق هنا.
Java: دعم إضافي لواجهات برمجة تطبيقات التعرف على المتحدث. التفاصيل هنا.
C++/C#/Java/JavaScript/Objective-C/Python: تمت إضافة تنسيقين جديدين لصوت الإخراج باستخدام حاوية WebM لـ TTS (Webm16Khz16BitMonoOpus وWebm24Khz16BitMonoOpus). هذه تنسيقات أفضل لبث الصوت باستخدام برنامج ترميز Opus. تفاصيل C ++، C#‎، Java، JavaScript، Objective-C، Python.
C++/C#/Java: تمت إضافة دعم لاسترداد ملف التعريف الصوتي لسيناريو التعرف على المتحدث. تفاصيل C++‎، وC#، وJava.
C++/C#/Java/Objective-C/Python: تمت إضافة دعم لمكتبة مشتركة منفصلة لميكروفون الصوت والتحكم في السماعة. يسمح هذا للمطور باستخدام SDK في البيئات التي لا تحتوي على تبعيات مكتبة الصوت المطلوبة.
Objective-C/Swift: دعم إضافي لإطار عمل الوحدة النمطية مع رأس مظلة. يسمح هذا للمطور باستيراد Speech SDK كوحدة نمطية في تطبيقات iOS/Mac Objective-C/Swift. يعالج هذا مشكلة GitHub #452.
Python: تمت إضافة دعم لـ Python 3.9 وتراجع الدعم لـ Python 3.5 لكل نهاية حياة Python لمدة 3.5.

المشاكل المعروفة

C++/C#/Java: DialogServiceConnector لا يمكن استخدام CustomCommandsConfig للوصول إلى تطبيق أوامر مخصصة وسيواجه بدلا من ذلك خطأ في الاتصال. يمكن حل هذه المشكلة عن طريق إضافة معرف التطبيق يدوياً إلى الطلب باستخدام config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). ستتم استعادة السلوك CustomCommandsConfig المتوقع في الإصدار التالي.

التحسينات

كجزء من جهودنا متعددة الإصدارات لتقليل استخدام ذاكرة Speech SDK وبصمة القرص، أصبحت ثنائيات Android الآن أصغر بنسبة 3٪ إلى 5٪.
الأقسام المحسنة للدقة وقابلية القراءة والاطلاع أيضاً على الوثائق المرجعية لـ C#‎ هنا.

إصلاح الأخطاء

JavaScript: يتم الآن تحليل عناوين ملفات WAV الكبيرة بشكل صحيح (يزيد شريحة العنوان إلى 512 بايت). يعالج هذا مشكلة GitHub #962.
JavaScript: تم تصحيح مشكلة توقيت الميكروفون إذا انتهى دفق الميكروفون قبل إيقاف التعرف، ومعالجة مشكلة عدم عمل "التعرف على الكلام" في Firefox.
JavaScript: نتعامل الآن بشكل صحيح مع وعد التهيئة عندما يفرض المستعرض إيقاف تشغيل الميكروفون قبل اكتمال turnOn.
JavaScript: استبدلنا تبعية عنوان URL بتحليل url. يعالج هذا مشكلة GitHub #264.
Android: عمليات رد الاتصال الثابتة لا تعمل عندما يتم تعيين minifyEnabled إلى true.
C++/C#/Java/Objective-C/Python: TCP_NODELAY سيتم تعيينه بشكل صحيح إلى IO مأخذ التوصيل الأساسي لـ TTS لتقليل زمن الانتقال.
C++/C#/Java/Python/Objective-C/Go: تم إصلاح العطل العرضي عند تدمير أداة التعرف بعد بدء التعرف.
C++/C#/Java: تم إصلاح تعطل عرضي في تدمير أداة التعرف على المتحدث.

العينات

JavaScript: لم تعد عينات المستعرض تتطلب تنزيل ملف مكتبة JavaScript منفصلا.

Speech SDK 1.15.0: إصدار 2021-يناير

إشعار

يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك لـ Visual Studio 2015 و2017 و2019. قم بتنزيله من هنا.

ملخص أهم النقاط

ذاكرة أصغر وبصمة القرص ما يجعل SDK أكثر كفاءة.
تتوفر تنسيقات إخراج عالية الدقة للمعاينة الخاصة للصوت العصبي المخصص.
يمكن أن تحصل أداة Intent Recognizer الآن على عائد أكبر من الهدف الأعلى، ما يمنحك القدرة على إجراء تقييم منفصل بشأن نية عميلك.
أصبح إعداد المساعدين الصوتيين والروبوتات أسهل الآن، ويمكنك جعله يتوقف عن الاستماع على الفور، وممارسة تحكم أكبر في كيفية استجابته للأخطاء.
تم تحسين أداء الجهاز من خلال جعل الضغط اختيارياً.
استخدم Speech SDK على Windows ARM/ARM64.
تحسين التصحيح منخفض المستوى.
تتوفر الآن ميزة تقييم النطق على نطاق أوسع.
تم وضع علامة على GitHub العديد من إصلاحات الأخطاء لمعالجة المشكلات التي قمت أنت، عملائنا الكرام، بوضع علامة عليها! شكراً لك! استمر في تقديم الملاحظات!

التحسينات

أصبح Speech SDK الآن أكثر كفاءة وخفة الوزن. لقد بدأنا جهداً متعدد الإصدارات لتقليل استخدام ذاكرة Speech SDK وبصمة القرص. كخطوة أولى، قمنا بإجراء تخفيضات كبيرة في حجم الملفات في المكتبات المشتركة على معظم الأنظمة الأساسية. مقارنة بإصدار 1.14:
- مكتبات Windows المتوافقة مع UWP 64 بت أصغر بنسبة 30٪ تقريباً.
- مكتبات Windows 32 بت لا ترى بعد تحسنا في الحجم.
- مكتبات Linux أصغر بنسبة 20-25٪.
- مكتبات Android أصغر بنسبة 3-5٪.

الميزات الجديدة

الكل: تنسيقات إخراج 48 كيلوهرتز جديدة متاحة للمعاينة الخاصة للصوت العصبي المخصص من خلال واجهة برمجة تطبيقات تركيب كلام TTS: Audio48Khz192 كيلوبايت itRateMonoMp3، audio-48khz-192kbitrate-mono-mp3، Audio48Khz96 كيلوبايت itRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
الكل: الصوت المخصص أسهل أيضاً في الاستخدام. تمت إضافة دعم لإعداد الصوت المخصص عبر EndpointId (C++‎، C#‎، Java، JavaScript، Objective-C، Python). قبل هذا التغيير، كان مستخدمو الصوت المخصصون بحاجة إلى تعيين عنوان URL لنقطة النهاية عبر الأسلوب FromEndpoint. الآن يمكن للعملاء استخدام الأسلوب FromSubscription تماماً مثل الأصوات التي تم إنشاؤها مسبقاً، ثم توفير معرف النشر عن طريق إعداد EndpointId. وهذا يبسط إعداد الأصوات المخصصة.
C++/C#/Java/Objective-C/Python: احصل على أكثر من الهدف الأعلى منIntentRecognizer. وهو يدعم الآن تكوين نتيجة JSON التي تحتوي على جميع الأهداف وليس فقط هدف تسجيل النقاط الأعلى عبر LanguageUnderstandingModel FromEndpoint الأسلوب باستخدام verbose=true معلمة uri. يعالج هذا مشكلة GitHub #880. راجع الوثائق المحدثة هنا.
C++/C#/Java: اجعل المساعد الصوتي أو الروبوت يتوقف عن الاستماع على الفور. DialogServiceConnector (C++‎، C#‎، Java) الآن لديه StopListeningAsync() أسلوب لمرافقته ListenOnceAsync(). سيؤدي هذا إلى إيقاف التقاط الصوت فوراً وانتظار نتيجة برشاقة، ما يجعلها مثالية للاستخدام مع سيناريوهات الضغط على الزر "التوقف الآن".
C++/C#/Java/JavaScript: اجعل المساعد الصوتي أو الروبوت يتفاعل بشكل أفضل مع أخطاء النظام الأساسية. DialogServiceConnector (C++‎، C#‎، Java JavaScript) لديه الآن معالج أحداث جديد TurnStatusReceived. تتوافق هذه الأحداث الاختيارية مع كل حل ITurnContext على الروبوت وستقوم بالإبلاغ عن حالات فشل التنفيذ عند حدوثها، على سبيل المثال، نتيجة استثناء غير معالج أو انتهاء المهلة أو انقطاع الشبكة بين Direct Line Speech والروبوت. TurnStatusReceived يسهل الاستجابة لشروط الفشل. على سبيل المثال، إذا استغرق برنامج الروبوت وقتاً طويلاً في استعلام قاعدة بيانات خلفية (على سبيل المثال، البحث عن منتج)، TurnStatusReceived يسمح للعميل بمعرفة إعادة المحاولة بـ "آسف، لم أفهم ذلك تماماً، هل يمكنك من فضلك المحاولة مرة أخرى "أو شيء من هذا القبيل.
C++/C#: استخدم Speech SDK على المزيد من الأنظمة الأساسية. تدعم حزمة Speech SDK NuGet الآن ثنائيات سطح المكتب الأصلية لـ Windows ARM/ARM64 (تم دعم UWP بالفعل) لجعل Speech SDK أكثر فائدة على المزيد من أنواع الأجهزة.
Java: DialogServiceConnector الآن لديه setSpeechActivityTemplate() أسلوب تم استبعاده عن غير قصد من اللغة مسبقاً. وهذا يعادل تعيين الخاصية Conversation_Speech_Activity_Template وسيطلب أن تقوم جميع أنشطة Bot Framework المستقبلية التي نشأت بواسطة خدمة Direct Line Speech بدمج المحتوى المقدم في حمولات JSON الخاصة بهم.
Java: تصحيح الأخطاء منخفض المستوى محسن. تحتوي Connection الفئة الآن على MessageReceived حدث، على غرار لغات البرمجة الأخرى (C++، C#). يوفر هذا الحدث وصولاً منخفض المستوى إلى البيانات الواردة من الخدمة ويمكن أن يكون مفيداً للتشخيص وتصحيح الأخطاء.
JavaScript: إعداد أسهل للمساعدين الصوتيين والروبوتات من خلال BotFrameworkConfig، والذي يحتوي fromHost() الآن على أساليب المصنع fromEndpoint() التي تبسط استخدام مواقع الخدمة المخصصة مقابل تعيين الخصائص يدوياً. كما قمنا بتوحيد المواصفات الاختيارية botId لاستخدام روبوت غير افتراضي عبر مصانع التكوين.
JavaScript: تم تحسينه على أداء الجهاز من خلال خاصية التحكم في السلسلة المضافة لضغط websocket. لأسباب تتعلق بالأداء، قمنا بتعطيل ضغط websocket افتراضياً. يمكن إعادة تمكين هذا لسيناريوهات النطاق الترددي المنخفض. مزيد من التفاصيل هنا. يعالج هذا مشكلة GitHub #242.
JavaScript: دعم إضافي لتقييم lPronunciation لتمكين تقييم نطق الكلام. راجع التشغيل السريع هنا.

إصلاح الأخطاء

الكل (باستثناء JavaScript): تم إصلاح الانحدار في الإصدار 1.14، حيث تم تخصيص الكثير من الذاكرة من قبل أداة التعرف.
C++‎: تم إصلاح مشكلة تجميع البيانات المهملة مع DialogServiceConnector، ومعالجة مشكلة GitHub #794.
C#‎: تم إصلاح مشكلة إيقاف تشغيل مؤشر الترابط التي تسببت في حظر العناصر لمدة ثانية تقريبا عند التخلص منها.
C++/C#/Java: تم إصلاح استثناء يمنع التطبيق من تعيين الرمز المميز لتخويل الكلام أو قالب النشاط أكثر من مرة على DialogServiceConnector.
C++/C#/Java: تم إصلاح تعطل أداة التعرف بسبب حالة تعارض في حالة الانهيار.
JavaScript: DialogServiceConnector لم يحترم مسبقاً المعلمة الاختيارية botId المحددة في BotFrameworkConfigالمصانع. جعل ذلك من الضروري تعيين معلمة botId سلسلة الاستعلام يدوياً لاستخدام روبوت غير افتراضي. تم تصحيح botId الخطأ وسيتم احترام القيم المقدمة إلى BotFrameworkConfigالمصانع واستخدامها، بما في ذلك الجديد fromHost() والإضافات fromEndpoint(). ينطبق هذا أيضاً على المعلمة applicationId لـ CustomCommandsConfig.
JavaScript: تم إصلاح مشكلة GitHub #881، ما يسمح بإعادة استخدام عنصر أداة التعرف.
JavaScript: تم إصلاح مشكلة إرسال speech.config SKD عدة مرات في جلسة TTS واحدة، ما يضيع النطاق الترددي.
JavaScript: معالجة الأخطاء المبسطة على تخويل الميكروفون، ما يسمح بظرف رسالة وصفية أكثر عندما لا يسمح المستخدم بإدخال الميكروفون على متصفحه.
JavaScript: تم إصلاح مشكلة GitHub #249 حيث أخطاء النوع في وتسببت ConversationTranslator في ConversationTranscriber حدوث خطأ في التحويل البرمجي لمستخدمي TypeScript.
Objective-C: تم إصلاح مشكلة فشل إنشاء GStreamer لنظام التشغيل iOS على Xcode 11.4، مع معالجة مشكلة GitHub #911.
Python: تم إصلاح مشكلة GitHub #870، وإزالة "DeprecationWarning: يتم إهمال وحدة imp لصالح importlib".

العينات

يستخدم نموذج من ملف لمستعرض JavaScript الآن ملفات للتعرف على الكلام. يعالج هذا مشكلة GitHub #884.

Speech SDK 1.14.0: إصدار 2020-أكتوبر

إشعار

يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك لـ Visual Studio 2015 و2017 و2019. قم بتنزيله من هنا.

الميزات الجديدة

Linux: دعم إضافي لـ Debian 10 وUbuntu 20.04 LTS.
Python/Objective-C: دعم إضافي لواجهة KeywordRecognizer برمجة التطبيقات. ستكون الوثائق هنا.
C++/Java/C#: دعم إضافي لتعيين أي HttpHeader مفتاح/قيمة عبر ServicePropertyChannel::HttpHeader.
JavaScript: دعم إضافي لواجهة ConversationTranscriber برمجة التطبيقات. اقرأ الوثائق من هنا.
C++/C#: تمت إضافة أسلوب جديد AudioDataStream FromWavFileInput (لقراءة . ملفات WAV) هنا (C++)وهنا (C#).
C++/C#/Java/Python/Objective-C/Swift: تمت إضافة stopSpeakingAsync() طريقة لإيقاف النص إلى تركيب الكلام. اقرأ الوثائق المرجعية هنا (C++)، هنا (C#)، هنا (Java)، هنا (Python)، وهنا (Objective-C/Swift).
C#، C++، Java: تمت إضافة دالة FromDialogServiceConnector()Connection إلى الفئة التي يمكن استخدامها لمراقبة أحداث الاتصال وقطع الاتصال لـ DialogServiceConnector. اقرأ الوثائق المرجعية هنا (C#)، هنا (C++)، وهنا (Java).
C ++ / C # / Java / Python / Objective-C / Swift : تمت إضافة دعم لتقييم النطق، والذي يقيم نطق الكلام ويقدم للمتحدثين ملاحظات بشأن دقة الصوت المنطوق وطلاقة. اقرأ الوثائق من هنا.

كسر التغيير

JavaScript: يحتوي PullAudioOutputStream.read() على تغيير نوع إرجاع من تعهد داخلي إلى تعهد JavaScript أصلي.

إصلاح الأخطاء

الكل: تم إصلاح الانحدار 1.13 حيث SetServiceProperty تم تجاهل القيم ذات أحرف خاصة معينة.
C#‎: فشلت عينات وحدة تحكم Windows الثابتة في Visual Studio 2019 في العثور على DLLs الأصلية.
C#‎: تم إصلاح العطل مع إدارة الذاكرة إذا تم استخدام الدفق كإدخال KeywordRecognizer.
ObjectiveC/Swift: تم إصلاح العطل مع إدارة الذاكرة إذا تم استخدام الدفق كإدخال لأداة التعرف.
Windows: تم إصلاح مشكلة التعايش مع BT HFP/A2DP على UWP.
JavaScript: تعيين ثابت لمعرفات الجلسة لتحسين التسجيل والمساعدة في ارتباطات التصحيح/الخدمة الداخلية.
JavaScript: تمت إضافة إصلاح لتعطيل DialogServiceConnectorListenOnce المكالمات بعد إجراء المكالمة الأولى.
JavaScript: تم إصلاح المشكلة حيث سيكون إخراج النتيجة "بسيطاً" فقط.
JavaScript: تم إصلاح مشكلة التعرف المستمر في Safari على macOS.
JavaScript: تخفيف تحميل وحدة المعالجة المركزية لسيناريو معدل النقل العالي للطلب.
JavaScript: السماح بالوصول إلى تفاصيل نتيجة تسجيل ملف تعريف الصوت.
JavaScript: تمت إضافة إصلاح للتعرف المستمر في IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC: تم إصلاح عنوان url غير صحيح لـ australiaeast وbrazilsouth في IntentRecognizer.
C++/C#: تمت إضافته VoiceProfileType كوسيطة عند إنشاء عنصر VoiceProfile.
C++/C#/Java/Python/Swift/ObjectiveC: إمكانية SPX_INVALID_ARG ثابتة عند محاولة القراءة AudioDataStream من موضع معين.
IOS: تم إصلاح العطل مع التعرف على الكلام على Unity

العينات

ObjectiveC: تمت إضافة عينة للتعرف على الكلمة الأساسية هنا.
C#/JavaScript: تمت إضافة التشغيل السريع لنسخ المحادثة هنا (C#)وهنا (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC: تمت إضافة عينة لتقييم النطق هنا
Xamarin: التشغيل السريع المحدث لأحدث قالب Visual Studio هنا.

المشكلة المعروفة

لا يتم دعم شهادة DigiCert Global Root G2 افتراضياً في HoloLens 2 وAndroid 4.4 (KitKat) وتحتاج إلى إضافتها إلى النظام لجعل Speech SDK يعمل. ستتم إضافة الشهادة إلى صور نظام التشغيل HoloLens 2 في المستقبل القريب. يحتاج عملاء Android 4.4 إلى إضافة الشهادة المحدثة إلى النظام.

اختبار COVID-19 المختصر

نظراً للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء الكثير من اختبارات التحقق اليدوي كما نفعل عادة. لم نجري أي تغييرات نعتقد أنها قد كسرت أي شيء، واجتزت جميع اختباراتنا التلقائية. في حالة عدم وجود شيء غير محتمل، يرجى إعلامنا على GitHub.
حافظ على صحتك!

Speech SDK 1.13.0: إصدار 2020-يوليو

إشعار

يعتمد Speech SDK على Windows على Microsoft Visual C++ Redistributable المشترك لـ Visual Studio 2015 و2017 و2019. لتحميله وتثبيته من هنا.

الميزات الجديدة

C#‎: دعم إضافي لنسخ المحادثة غير المتزامنة. انظر الوثائق هنا.
JavaScript: تمت إضافة دعم التعرف على المتحدث لكل من المتصفح Node.js.
JavaScript: دعم إضافي لتعريف اللغة/معرف اللغة. انظر الوثائق هنا.
Objective-C: دعم إضافي للمحادثة متعددة الأجهزة وكتابة المحادثة.
Python: تمت إضافة دعم صوت مضغوط لـ Python على Windows وLinux. انظر الوثائق هنا.

إصلاح الأخطاء

الكل: تم إصلاح مشكلة تسببت في عدم تحريك KeywordRecognizer إلى الأمام في التدفقات بعد التعرف.
الكل: تم إصلاح مشكلة تسببت في عدم احتواء الدفق الذي تم الحصول عليه من KeywordRecognitionResult على الكلمة الأساسية.
الكل: تم إصلاح مشكلة عدم قيام SendMessageAsync بإرسال الرسالة عبر السلك بعد انتهاء المستخدمين من انتظارها.
الكل: تم إصلاح عطل في واجهات برمجة تطبيقات التعرف على السماعات عندما يتصل المستخدمون بالطريقة VoiceProfileClient::SpeakerRecEnrollProfileAsync عدة مرات ولم ينتظروا حتى تنتهي المكالمات.
الكل: تم إصلاح تمكين تسجيل الملفات في فئتي VoiceProfileClient وSpeakerRecognizer.
JavaScript: تم إصلاح مشكلة التقييد عند تصغير المستعرض.
JavaScript: تم إصلاح مشكلة تسرب الذاكرة على التدفقات.
JavaScript: إضافة التخزين المؤقت لاستجابات OCSP من NodeJS.
Java: تم إصلاح مشكلة كانت تتسبب في إرجاع حقول BigInteger دائماً 0.
iOS: تم إصلاح مشكلة نشر التطبيقات المستندة إلى Speech SDK في App Store iOS.

العينات

C++‎: تمت إضافة نموذج التعليمات البرمجية للتعرف على المتحدث هنا.

اختبار COVID-19 المختصر

Speech SDK 1.12.1: إصدار 2020-يونيو

الميزات الجديدة

C#، C++‎: معاينة التعرف على المتحدث: تمكن هذه الميزة تحديد المتحدث (من يتحدث؟) والتحقق من المتحدث (هل المتحدث الذي يدعي أنه هو؟). ابدأ بنظرة عامة، واقرأ مقالة أساسيات التعرف على المتحدث، أو مستندات مرجع واجهة برمجة التطبيقات.

إصلاح الأخطاء

C#، C++‎: لم يكن تسجيل الميكروفون الثابت يعمل في 1.12 في التعرف على السماعة.
JavaScript: إصلاحات لتحويل النص إلى كلام في Firefox وSafari على macOS وiOS.
إصلاح تعطل انتهاك الوصول إلى مدقق تطبيق Windows عند كتابة المحادثة عند استخدام دفق ثماني قنوات.
إصلاح تعطل انتهاك الوصول إلى مدقق تطبيق Windows على ترجمة المحادثات متعددة الأجهزة.

العينات

C#‎: نموذج التعليمات البرمجية للتعرف على المتحدث.
C++‎: نموذج التعليمات البرمجية للتعرف على المتحدث.
Java: نموذج التعليمات البرمجية للتعرف على الهدف على Android.

اختبار COVID-19 المختصر

Speech SDK 1.12.0: إصدار 2020-May

الميزات الجديدة

Go: دعم لغة Go الجديدة للتعرف على الكلام والمساعد الصوتي المخصص. إعداد بيئة التطوير الخاص بك هنا. للحصول على نموذج التعليمات البرمجية، راجع قسم Samples أدناه.
JavaScript: دعم مستعرض إضافي لتحويل النص إلى كلام. انظر الوثائق هنا.
C++، C#، Java: كائن جديد KeywordRecognizer وواجهات برمجة التطبيقات مدعومة على أنظمة Windows وAndroid وLinux وiOS الأساسية. اقرأ الوثائق من هنا. للحصول على نموذج التعليمات البرمجية، راجع قسم Samples أدناه.
Java: تمت إضافة محادثة متعددة الأجهزة مع دعم الترجمة. راجع المستند المرجعي هنا.

التحسينات والتحسينات

JavaScript: تحسين تنفيذ ميكروفون المستعرض لتحسين دقة التعرف على الكلام.
Java: الروابط المعاد بناء التعليمات البرمجية باستخدام تنفيذ JNI المباشر دون SWIG. يقلل هذا التغيير بمقدار 10 أضعاف حجم الروابط لجميع حزم Java المستخدمة لـ Windows وAndroid وLinux وMac ويسهل تطوير تطبيق Speech SDK Java.
Linux: وثائق الدعم المحدثة مع أحدث ملاحظات RHEL 7 المحددة.
تحسين منطق الاتصال لمحاولة الاتصال عدة مرات عند حدوث أخطاء في الخدمة والشبكة.
تحديث صفحة portal.azure.com Speech Quickstart لمساعدة المطورين على اتخاذ الخطوة التالية في رحلة Azure الذكاء الاصطناعي Speech.

إصلاح الأخطاء

C#، Java: تم إصلاح مشكلة في تحميل مكتبات SDK على Linux ARM (كل من 32 بت و64 بت).
C#‎: تم إصلاح التخلص الصريح من المقابض الأصلية لـ TranslationRecognizer وIntentRecognizer وعناصر الاتصال.
C#‎: تم إصلاح إدارة مدة بقاء إدخال الصوت لعنصر ConversationTranscriber.
تم إصلاح مشكلة IntentRecognizer عدم تعيين سبب النتيجة بشكل صحيح عند التعرف على الأهداف من العبارات البسيطة.
تم إصلاح مشكلة SpeechRecognitionEventArgs عدم تعيين إزاحة النتيجة بشكل صحيح.
تم إصلاح حالة تعارض حيث كانت SDK تحاول إرسال رسالة شبكة قبل فتح اتصال websocket. كان قابلاً للتكرار أثناء TranslationRecognizer إضافة المشاركين.
تسرب الذاكرة الثابتة في محرك أداة التعرف على الكلمة الأساسية.

العينات

Go: تمت إضافة قوالب التشغيل السريع للتعرف على الكلام والمساعد الصوتي المخصص. ابحث عن نموذج التعليمات البرمجية هنا.
JavaScript: تمت إضافة قوالب تشغيل سريعة للنص إلى كلام وترجمة والتعرف على الهدف.
نماذج التعرف على الكلمات الأساسية لـ C#‎وJava (Android).

اختبار COVID-19 المختصر

نظراً للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء الكثير من اختبارات التحقق اليدوي كما نفعل عادة. لم نجري أي تغييرات نعتقد أنها قد كسرت أي شيء، واجتزت جميع اختباراتنا التلقائية. إذا فاتنا شيء ما، فيرجى إعلامنا على GitHub.
حافظ على صحتك!

Speech SDK 1.11.0: إصدار 2020-مارس

الميزات الجديدة

Linux: تمت إضافة دعم لـ Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 مع إرشادات بشأن كيفية تكوين نظام Speech SDK.
Linux: دعم إضافي لـ .NET Core C# على Linux ARM32 وARM64. الاطلاع على المزيد من هنا.
C#، C++: تمت إضافته UtteranceId في ConversationTranscriptionResult، معرف متناسق عبر جميع النتيجة الوسيطة والنهائي للتعرف على الكلام. تفاصيل C#‎، C++‎.
الدعم الإضافي لـ Python 3.8Language ID. راجع speech_sample.py في مستودع GitHub.
Windows: تمت إضافة دعم تنسيق إدخال الصوت المضغوط على نظام Windows الأساسي لجميع تطبيقات وحدة تحكم win32. التفاصيل هنا.
JavaScript: دعم تركيب الكلام (نص إلى كلام) في NodeJS. تعرف على المزيد من هنا.
JavaScript: إضافة واجهات برمجة تطبيقات جديدة لتمكين فحص جميع الرسائل المرسلة والمستلمة. تعرف على المزيد من هنا.

إصلاح الأخطاء

C#، C++: تم إصلاح مشكلة، لذا SendMessageAsync يرسل الآن رسالة ثنائية كنوع ثنائي. تفاصيل C#‎، C++‎.
C#، C++: تم إصلاح مشكلة حيث قد يتسبب استخدام Connection MessageReceived الحدث في حدوث عطل إذا تم التخلص من Recognizer قبل العنصر Connection. تفاصيل C#‎، C++‎.
Android: انخفاض حجم المخزن المؤقت للصوت من الميكروفون من 800 ملّي ثانية إلى 100 ملّي ثانية لتحسين زمن الوصول.
Android: تم إصلاح مشكلة محاكي Android x86 في Android Studio.
JavaScript: دعم إضافي للمناطق في الصين باستخدام fromSubscription واجهة برمجة التطبيقات. التفاصيل هنا.
JavaScript: أضف المزيد من معلومات الخطأ لفشل الاتصال من NodeJS.

العينات

Unity: تم إصلاح العينة العامة للتعرف على الهدف، حيث فشل استيراد LUIS json. التفاصيل هنا.
Python: تمت إضافة عينة لـ Language ID. التفاصيل هنا.

اختبار Covid19 المختصر: نظراً للعمل عن بعد خلال الأسابيع القليلة الماضية، لم نتمكن من إجراء الكثير من اختبارات التحقق اليدوي من الجهاز كما نفعل عادة. على سبيل المثال، لم نتمكن من اختبار إدخال الميكروفون وإخراج السماعة على Linux وiOS وmacOS. لم نقم بإجراء أي تغييرات نعتقد أنها قد تكسر أي شيء على هذه الأنظمة الأساسية، وقد اجتازت جميع اختباراتنا الآلية. في حالة عدم وجود شيء غير محتمل، أخبرنا على GitHub.
نشكرك على دعمك المستمر. كما هو الحال دائما، يرجى نشر الأسئلة أو الملاحظات على GitHub أو Stack Overflow.
حافظ على صحتك!

Speech SDK 1.10.0: إصدار 2020-فبراير

الميزات الجديدة

تمت إضافة حزم Python لدعم الإصدار الجديد 3.8 من Python.
دعم Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++، C#، Java، Python).

إشعار

يجب على العملاء تكوين OpenSSL وفقاً لهذه الإرشادات.
دعم Linux ARM32 لـ Debian وUbuntu.
يدعم DialogServiceConnector الآن معلمة "bot ID" اختيارية في BotFrameworkConfig. تسمح هذه المعلمة باستخدام عدة روبوتات Direct Line Speech مع مورد Speech واحد. دون تحديد المعلمة، سيتم استخدام الروبوت الافتراضي (كما تحدده صفحة تكوين قناة Direct Line Speech).
يحتوي DialogServiceConnector الآن على خاصية SpeechActivityTemplate. سيتم استخدام محتويات سلسلة JSON هذه بواسطة Direct Line Speech لملء مجموعة واسعة من الحقول المدعومة مسبقاً في جميع الأنشطة التي تصل إلى روبوت Direct Line Speech، بما في ذلك الأنشطة التي يتم إنشاؤها تلقائياً استجابة لأحداث مثل التعرف على الكلام.
يستخدم TTS الآن مفتاح الاشتراك للمصادقة، ما يقلل زمن انتقال البايت الأول لنتيجة التوليف الأولى بعد إنشاء مُركِّب.
نماذج التعرف على الكلام المحدثة لـ 19 لغة لمتوسط تقليل معدل خطأ الكلمات بنسبة 18.6٪ (es-ES، es-MX، fr-CA، fr-FR، it-IT، ja-JP، ko-KR، pt-BR، zh-CN، zh-HK، nb-NO، fi-FL، ru-RU، pl-PL، ca-ES، zh-TW، th-TH، pt-PT، tr-TR). تجلب النماذج الجديدة تحسينات كبيرة عبر مجالات متعددة بما في ذلك سيناريوهات الإملاء والنسخ Call-Center وفهرسة الفيديو.

إصلاح الأخطاء

تم إصلاح الخطأ حيث لم ينتظر ناسخ المحادثة بشكل صحيح في واجهات برمجة تطبيقات JAVA
إصلاح محاكي Android x86 لقضية Xamarin GitHub
أضافة أساليب خاصية (Get | Set) المفقودة إلى AudioConfig
إصلاح خطأ TTS حيث تعذر إيقاف audioDataStream عند فشل الاتصال
قد يؤدي استخدام نقطة نهاية دون منطقة إلى فشل USP لمترجم المحادثة
يستخدم إنشاء المعرف في تطبيقات Windows العالمية الآن خوارزمية GUID فريدة بشكل مناسب؛ كان افتراضيا سابقاً وغير مقصود إلى تنفيذ متقلب غالباً ما ينتج عنه تضاربات على مجموعات كبيرة من التفاعلات.

العينات

نموذج Unity لاستخدام Speech SDK مع ميكروفون Unity وتدفق وضع الدفع

تغييرات أخرى

تم تحديث وثائق تكوين OpenSSL لنظام Linux

Speech SDK 1.9.0: إصدار 2020-يناير

الميزات الجديدة

محادثة متعددة الأجهزة: قم بتوصيل أجهزة متعددة بنفس الكلام أو المحادثة النصية، وقم بترجمة الرسائل المرسلة فيما بينها اختيارياً. تعرف على المزيد في هذه المقالة.
تمت إضافة دعم التعرف على الكلمة الأساسية لحزمة Android .aar وإضافة دعم لمفضلات x86 وx64.
Objective-C: SendMessage والأساليب SetMessageProperty المضافة إلى Connection العنصر. انظر الوثائق هنا.
يدعم std::wstring TTS C++ api الآن كإدخال نص تركيبي، ما يزيل الحاجة إلى تحويل wstring إلى سلسلة قبل تمريره إلى SDK. راجع التفاصيل هنا.
C#: معرف اللغة وتكوين لغة المصدر متوفران الآن.
JavaScript: تمت إضافة ميزة للعنصر Connection للتمرير عبر الرسائل المخصصة من خدمة الكلام كرد اتصال receivedServiceMessage.
JavaScript: دعم FromHost API إضافي لتسهيل الاستخدام مع الحاويات المحلية والسحب السيادية. انظر الوثائق هنا.
JavaScript: نحن نكرم الآن NODE_TLS_REJECT_UNAUTHORIZED بفضل مساهمة من orgads . راجع التفاصيل هنا.

كسر التغييرات

OpenSSL تم تحديثه إلى الإصدار 1.1.1b ويرتبط بشكل ثابت بمكتبة Speech SDK الأساسية لنظام Linux. قد يؤدي هذا إلى انقطاع إذا لم يتم تثبيت علبة الوارد OpenSSL على /usr/lib/ssl الدليل في النظام. تحقق من وثائقنا ضمن مستندات Speech SDK لحل المشكلة.
لقد قمنا بتغيير نوع البيانات الذي تم إرجاعه لـ C#‎ WordLevelTimingResult.Offset من int إلى long للسماح بالوصول إلى WordLevelTimingResults عندما تكون بيانات الكلام أطول من دقيقتين.
PushAudioInputStream والآن PullAudioInputStream أرسل معلومات عنوان wav إلى خدمة الكلام استناداً AudioStreamFormatإلى، محددة اختيارياً عند إنشائها. يجب على العملاء الآن استخدام تنسيق إدخال الصوت المدعوم. ستحصل أي تنسيقات أخرى على نتائج التعرف دون المستوى الأمثل أو قد تتسبب في مشكلات أخرى.

إصلاح الأخطاء

راجع التحديث OpenSSL ضمن كسر التغييرات أعلاه. لقد أصلحنا كلاً من الأعطال المتقطعة ومشكلات الأداء (تنازع التأمين تحت التحميل العالي) في Linux وJava.
Java: تم إدخال تحسينات على إغلاق العنصر في سيناريوهات التزامن العالية.
إعادة هيكلة حزمة NuGet الخاصة بنا. أزلنا النسخ الثلاث من Microsoft.CognitiveServices.Speech.core.dll وMicrosoft.CognitiveServices.Speech.extension.kws.dll ضمن مجلدات lib، ما جعل حزمة NuGet أصغر حجماً وأسرع في التنزيل، وأضفنا الرؤوس اللازمة لتجميع بعض تطبيقات C++ الأصلية.
تم إصلاح نماذج التشغيل السريع هنا. كانت هذه الإنهاء دون عرض استثناء "الميكروفون غير موجود" على Linux وmacOS وWindows.
تم إصلاح تعطل SDK مع نتائج التعرف على الكلام الطويلة على مسارات تعليمات برمجية معينة مثل هذه العينة.
تم إصلاح خطأ نشر SDK في بيئة تطبيق الويب Azure لمعالجة مشكلة العميل هذه .
تم إصلاح خطأ TTS أثناء استخدام علامة أو <voice> علامة متعددة <audio> لمعالجة مشكلة العميل هذه.
تم إصلاح خطأ TTS 401 عند استرداد SDK من معلق.
JavaScript: تم إصلاح استيراد دائري للبيانات الصوتية بفضل مساهمة من euirim.
JavaScript: تمت إضافة دعم لإعداد خصائص الخدمة، كما تمت إضافته في 1.7.
JavaScript: تم إصلاح مشكلة حيث قد يؤدي خطأ في الاتصال إلى محاولات إعادة اتصال websocket مستمرة وغير ناجحة.

العينات

تمت إضافة عينة التعرف على الكلمة الأساسية لنظام التشغيل Android هنا.
تمت إضافة نموذج TTS لسيناريو الخادم هنا.
تمت إضافة قوالب تشغيل سريعة للمحادثة متعددة الأجهزة لـ C# وC++ هنا.

تغييرات أخرى

حجم مكتبة SDK الأساسية المحسن على Android.
يدعم SDK في الإصدار 1.9.0 وما بعده كلا النوعين int وstring في حقل إصدار التوقيع الصوتي لمناشر المحادثة.

Speech SDK 1.8.0: إصدار 2019-نوفمبر

الميزات الجديدة

تمت إضافة FromHost() واجهة برمجة تطبيقات، لتسهيل الاستخدام مع الحاويات المحلية والسحب السيادية.
تمت إضافة تعريف لغة المصدر للتعرف على الكلام (بلغة Java وC++)
تمت إضافة عنصر SourceLanguageConfig للتعرف على الكلام، يستخدم لتحديد لغات المصدر المتوقعة (بلغة Java وC++)
دعم إضافي KeywordRecognizer على Windows (UWP) وAndroid وiOS من خلال حزم NuGet وUnity
تمت إضافة واجهة برمجة تطبيقات Java للمحادثة عن بعد للقيام بنسخ المحادثة في دفعات غير متزامنة.

كسر التغييرات

تم نقل وظائف ناسخ المحادثة ضمن مساحة الاسم Microsoft.CognitiveServices.Speech.Transcription.
يتم نقل أجزاء من أساليب ناسخ المحادثة إلى فئة جديدة Conversation.
تم إسقاط الدعم لنظام التشغيل iOS 32 بت (ARMv7 وx86)

إصلاح الأخطاء

إصلاح التعطل إذا تم استخدام KeywordRecognizer المحلي دون مفتاح اشتراك صالح لخدمة Speech

العينات

عينة Xamarin لـ KeywordRecognizer
عينة Unity لـ KeywordRecognizer
نماذج C++ وJava لتحديد لغة المصدر التلقائي.

Speech SDK 1.7.0: إصدار 2019-سبتمبر

الميزات الجديدة

تمت إضافة دعم بيتا لـ Xamarin على النظام الأساسي العام لـ Windows (UWP) وAndroid وiOS
إضافة دعم iOS لـ Unity
إضافة Compressed دعم إدخال لـ ALaw وMulaw وFLAC وعلى Android وiOS وLinux
تمت إضافته SendMessageAsync في فئة Connection لإرسال رسالة إلى الخدمة
تمت إضافته SetMessageProperty في فئة Connection لإعداد خاصية لرسالة
أضافت TTS روابط لـ Java (JRE وAndroid) وPython وSwift وObjective-C
أضافت TTS دعم التشغيل لـ macOS وiOS وAndroid.
تمت إضافة معلومات "حد كلمة" لـ TTS.

إصلاح الأخطاء

تم إصلاح مشكلة إصدار IL2CPP على Unity 2019 for Android
تم إصلاح مشكلة معالجة العناوين غير الصحيحة في إدخال ملف wav بشكل غير صحيح
تم إصلاح المشكلة مع UUIDs التي لا تكون فريدة في بعض خصائص الاتصال
تم إصلاح بعض التحذيرات بشأن محددات قابلية القيم الخالية في روابط Swift (قد تتطلب تغييرات صغيرة في التعليمات البرمجية)
تم إصلاح الخلل الذي تسبب في إغلاق اتصالات websocket بشكل غير لائق تحت تحميل الشبكة
تم إصلاح مشكلة على Android تؤدي في بعض الأحيان إلى تكرار معرفات مرات الظهور المستخدمة من قبل DialogServiceConnector
تحسينات على استقرار الاتصالات عبر التفاعلات متعددة الأدوار والإبلاغ عن حالات الفشل (عبر الأحداث Canceled) عند حدوثها مع DialogServiceConnector
DialogServiceConnector ستوفر جلسة العمل الآن الأحداث بشكل صحيح، بما في ذلك عند الاتصال ListenOnceAsync() أثناء نشط StartKeywordRecognitionAsync()
معالجة عطل مرتبط بالأنشطة DialogServiceConnector التي يتم تلقيها

العينات

التشغيل السريع لـ Xamarin
تحديث CPP Quickstart مع معلومات Linux ARM64
التشغيل السريع لـ Unity المحدث مع معلومات iOS

Speech SDK 1.6.0: إصدار 2019-يونيو

العينات

نماذج التشغيل السريع لـ Text To Speech على UWP وUnity
نموذج التشغيل السريع لـ Swift على iOS
نماذج Unity للتعرف على الكلام والقصد والترجمة
نماذج التشغيل السريع المحدثة لـ DialogServiceConnector

التحسينات / التغييرات

مساحة اسم مربع الحوار:
- تمت إعادة تسميةSpeechBotConnector إلى DialogServiceConnector
- تمت إعادة تسميةBotConfig إلى DialogServiceConfig
- BotConfig::FromChannelSecret() تمت إعادة تعيينه إلى DialogServiceConfig::FromBotSecret()
- يستمر دعم جميع عملاء Direct Line Speech الحاليين بعد إعادة التسمية
تحديث محول TTS REST لدعم الوكيل والاتصال المستمر
تحسين رسالة الخطأ عند تمرير منطقة غير صالحة
Swift/Objective-C:
- الإبلاغ المحسّن عن الخطأ: الأساليب التي يمكن أن تؤدي إلى حدوث خطأ موجودة الآن في نسختين: أحدهما يعرض عنصراً NSError لمعالجة الأخطاء والآخر يثير استثناءً. الأول يتعرض لـ Swift. يتطلب هذا التغيير تعديلات على التعليمات البرمجية Swift الموجودة.
- معالجة الأحداث المحسنة

إصلاح الأخطاء

إصلاح TTS: حيث SpeakTextAsync تم إرجاع المستقبل دون انتظار حتى يكتمل العرض الصوتي
إصلاح تنظيم السلاسل في C# لتمكين دعم اللغة الكامل
إصلاح مشكلة تطبيق .NET core لتحميل المكتبة الأساسية مع إطار عمل هدف net461 في العينات
إصلاح المشكلات العرضية لنشر المكتبات الأصلية إلى مجلد الإخراج في العينات
إصلاح لإغلاق مأخذ توصيل الويب بشكل موثوق
إصلاح الأعطال المحتملة أثناء فتح اتصال تحت الحمل الثقيل على Linux
إصلاح بيانات التعريف المفقودة في مجموعة إطار العمل لنظام التشغيل macOS
إصلاح المشكلات المتعلقة بـ pip install --user Windows

Speech SDK 1.5.1

هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلية/المدارة. لا يؤثر على إصدار JavaScript من SDK.

إصلاح الأخطاء

إصلاح FromSubscription عند استخدامه مع كتابة المحادثة.
إصلاح الخطأ في تحديد الكلمة الأساسية للمساعدين الصوتيين.

Speech SDK 1.5.0: إصدار 2019-May

الميزات الجديدة

تتوفر الآن ميزة تحديد الكلمة الأساسية (KWS) لنظامي التشغيل Windows وLinux. قد تعمل وظيفة KWS مع أي نوع ميكروفون، ومع ذلك، يقتصر دعم KWS الرسمي حالياً على صفائف الميكروفون الموجودة في أجهزة Azure Kinect DK أو Speech Devices SDK.
تتوفر وظيفة تلميح العبارة من خلال SDK. لمزيد من المعلومات، راجع هنا .
تتوفر وظيفة كتابة المحادثة من خلال SDK.
إضافة دعم المساعدين الصوتيين باستخدام قناة Direct Line Speech.

العينات

تمت إضافة عينات للميزات الجديدة أو الخدمات الجديدة التي يدعمها SDK.

التحسينات / التغييرات

تمت إضافة خصائص أداة التعرف المختلفة لضبط سلوك الخدمة أو نتائج الخدمة (مثل إخفاء الألفاظ النابية وغيرها).
يمكنك الآن تكوين أداة التعرف من خلال خصائص التكوين القياسية، حتى إذا قمت بإنشاء أداة التعرف FromEndpoint.
Objective-C: OutputFormat تمت إضافة خاصية إلى SPXSpeechConfiguration.
يدعم SDK الآن Debian 9 كموزع Linux.

إصلاح الأخطاء

تم إصلاح مشكلة حيث تم إلغاء هيكلة مورد السماعة مبكرا جدا في النص إلى كلام.

Speech SDK 1.4.2

هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلية/المدارة. لا يؤثر على إصدار JavaScript من SDK.

Speech SDK 1.4.1

هذا إصدار JavaScript فقط. لم تتم إضافة أي ميزات. تم إجراء الإصلاحات التالية:

منع حزمة الويب من تحميل https-proxy-agent.

Speech SDK 1.4.0: إصدار 2019-أبريل

الميزات الجديدة

يدعم SDK الآن خدمة تحويل النص إلى كلام كإصدار بيتا. وهو مدعوم على Windows وLinux Desktop من C++ وC#. لمزيد من المعلومات، راجع نظرة عامة على النص إلى كلام.
يدعم SDK الآن ملفات الصوت MP3 وOpus/OGG كملفات إدخال دفق. تتوفر هذه الميزة فقط على Linux من C++ وC# وهي حالياً في الإصدار التجريبي (مزيد من التفاصيل هنا).
حصلت Speech SDK لـ Java و.NET core وC++ وObjective-C على دعم macOS. دعم Objective-C لنظام التشغيل macOS حالياً في الإصدار التجريبي.
iOS: يتم الآن نشر Speech SDK لنظام التشغيل iOS (Objective-C) أيضاً مثل CocoaPod.
JavaScript: دعم الميكروفون غير الافتراضي كجهاز إدخال.
JavaScript: دعم الوكيل Node.js.

العينات

تمت إضافة نماذج لاستخدام Speech SDK مع C++ ومع Objective-C على macOS.
تمت إضافة نماذج توضح استخدام خدمة النص إلى الكلام.

التحسينات / التغييرات

Python: يتم الآن عرض خصائص إضافية لنتائج التعرف عبر الخاصية properties.
للحصول على دعم إضافي للتطوير وتصحيح الأخطاء، يمكنك إعادة توجيه معلومات تسجيل SDK والتشخيص إلى ملف سجل (مزيد من التفاصيل هنا).
JavaScript: تحسين أداء معالجة الصوت.

إصلاح الأخطاء

Mac / iOS: تم إصلاح خطأ أدى إلى انتظار طويل عندما يتعذر إنشاء اتصال بخدمة Speech.
Python: تحسين معالجة الأخطاء للوسيطات في عمليات رد اتصال Python.
JavaScript: انتهت تقارير حالة الكلام الخاطئة الثابتة عند RequestSession.

Speech SDK 1.3.1: تحديث 2019-فبراير

هذا إصدار إصلاح الأخطاء ويؤثر فقط على SDK الأصلية/المدارة. لا يؤثر على إصدار JavaScript من SDK.

إصلاح الأخطاء

تم إصلاح مشكلة تسرب الذاكرة عند استخدام إدخال الميكروفون. لا يتأثر الإدخال المستند إلى الدفق أو الملف.

Speech SDK 1.3.0: إصدار 2019-فبراير

الميزات الجديدة

يدعم Speech SDK تحديد ميكروفون الإدخال من خلال الفئة AudioConfig. يسمح لك هذا ببث البيانات الصوتية إلى خدمة Speech من ميكروفون غير افتراضي. لمزيد من المعلومات، راجع الوثائق التي تصف تحديد جهاز إدخال الصوت. هذه الميزة غير متوفرة بعد من JavaScript.
يدعم Speech SDK الآن Unity في إصدار beta. قدم ملاحظات من خلال قسم المشكلة في مستودع نموذج GitHub. يدعم هذا الإصدار Unity على Windows x86 وx64 (تطبيقات سطح المكتب أو النظام الأساسي العام لـ Windows)، وAndroid (ARM32/64، x86). يتوفر المزيد من المعلومات في التشغيل السريع لـ Unity.
لم تعد هناك حاجة إلى الملف Microsoft.CognitiveServices.Speech.csharp.bindings.dll (الذي تم شحنه في الإصدارات السابقة). تم دمج الوظيفة الآن في SDK الأساسية.

العينات

يتوفر المحتوى الجديد التالي في مستودع العينة الخاص بنا:

نماذج إضافية لـ AudioConfig.FromMicrophoneInput.
عينات Python إضافية للتعرف على الهدف والترجمة.
نماذج إضافية لاستخدام العنصر Connection في iOS.
نماذج Java إضافية للترجمة مع إخراج الصوت.
عينة جديدة لاستخدام واجهة برمجة تطبيقات REST للنسخ الدفعي.

التحسينات / التغييرات

Python
- تحسين التحقق من المعلمات ورسائل الخطأ في SpeechConfig.
- إضافة دعم للعنصر Connection.
- دعم Python 32 بت (x86) على Windows.
- Speech SDK لـ Python خارج الإصدار التجريبي.
دائره الرقابه الداخليه
- تم الآن إنشاء SDK مقابل إصدار iOS SDK 12.1.
- يدعم SDK الآن إصدارات iOS 9.2 والإصدارات الأحدث.
- تحسين الوثائق المرجعية وإصلاح العديد من أسماء الخصائص.
JavaScript
- إضافة دعم للعنصر Connection.
- إضافة ملفات تعريف النوع لـ JavaScript المجمعة
- الدعم الأولي والتنفيذ لتلميحات العبارات.
- إرجاع مجموعة الخصائص مع خدمة JSON للتعرف
تحتوي DLLs لـ Windows الآن على مورد إصدار.
إذا قمت بإنشاء أداة التعرف FromEndpoint، يمكنك إضافة معلمات مباشرة إلى عنوان URL لنقطة النهاية. لا يمكنك استخدام FromEndpoint تكوين أداة التعرف من خلال خصائص التكوين القياسية.

إصلاح الأخطاء

لم يتم التعامل مع اسم المستخدم الوكيل الفارغ وكلمة مرور الوكيل بشكل صحيح. باستخدام هذا الإصدار، إذا قمت بتعيين اسم المستخدم الوكيل وكلمة مرور الوكيل إلى سلسلة فارغة، فلن يتم إرسالهما عند الاتصال بالوكيل.
لم تكن SessionId التي تم إنشاؤها بواسطة SDK دائماً عشوائية حقاً لبعض اللغات / البيئات. تمت إضافة تهيئة منشئ عشوائي لإصلاح هذه المشكلة.
تحسين معالجة رمز التخويل المميز. إذا كنت تريد استخدام رمز مميز للتخويل، فحدد في SpeechConfig واترك مفتاح الاشتراك فارغاً. ثم قم بإنشاء أداة التعرف كالمعتاد.
في بعض الحالات، Connection لم يتم تحرير العنصر بشكل صحيح. تم إصلاح هـذه المشكلة.
تم إصلاح عينة JavaScript لدعم إخراج الصوت لتجميع الترجمة أيضاً على Safari.

Speech SDK 1.2.1

هذا إصدار JavaScript فقط. لم تتم إضافة أي ميزات. تم إجراء الإصلاحات التالية:

نهاية إطلاق الدفق في turn.end، وليس في speech.end.
إصلاح الخلل في مضخة الصوت التي لم تحدد موعد الإرسال التالي إذا فشل الإرسال الحالي.
إصلاح التعرف المستمر باستخدام رمز المصادقة المميز.
إصلاح الأخطاء لمعرف / نقاط النهاية المختلفة.
تحسينات الوثائق.

Speech SDK 1.2.0: إصدار 2018-ديسمبر

الميزات الجديدة

Python
- يتوفر الإصدار بيتا من دعم Python (3.5 وما فوق) مع هذا الإصدار. لمزيد من المعلومات، راجع هنا](.. /.. /quickstart-python.md).
JavaScript
- تم فتح مصدر Speech SDK لـ JavaScript. تتوفر التعليمات البرمجية المصدر على GitHub.
- نحن ندعم الآن Node.js، يمكن العثور على مزيد من المعلومات هنا.
- تمت إزالة قيود طول جلسات الصوت، وستحدث إعادة الاتصال تلقائياً تحت الغطاء.
Connection الكائن
- من Recognizer، يمكنك الوصول إلى عنصرConnection. يسمح لك هذا العنصر ببدء اتصال الخدمة بشكل صريح والاشتراك في الاتصال وقطع الاتصال بالأحداث. (هذه الميزة غير متوفرة بعد من JavaScript وPython.)
دعم Ubuntu 18.04.
android
- دعم ProGuard الممكن أثناء إنشاء APK.

التحسينات

تحسينات في استخدام مؤشر الترابط الداخلي، ما يقلل من عدد مؤشرات الترابط والأقفال وكتم الصوت.
تحسين الإبلاغ عن الأخطاء / المعلومات. في عدة حالات، لم يتم نشر رسائل الخطأ على طول الطريق.
تبعيات التطوير المحدثة في JavaScript لاستخدام وحدات نمطية محدثة.

إصلاح الأخطاء

تم إصلاح تسرب الذاكرة بسبب عدم تطابق النوع في RecognizeAsync.
وفي بعض الحالات تسريب استثناءات.
إصلاح تسرب الذاكرة في وسيطات أحداث الترجمة.
تم إصلاح مشكلة تأمين عند إعادة الاتصال في جلسات عمل طويلة الأمد.
تم إصلاح مشكلة قد تؤدي إلى فقدان النتيجة النهائية للترجمات الفاشلة.
C#: إذا async لم يتم انتظار عملية في مؤشر الترابط الرئيسي، فمن الممكن التخلص من أداة التعرف قبل اكتمال المهمة غير المتزامنة.
Java: تم إصلاح مشكلة تؤدي إلى تعطل جهاز Java الظاهري.
Objective-C: تعيين التعداد الثابت؛ تم إرجاع RecognizedIntent بدلاً من RecognizingIntent.
JavaScript: قم بتعيين تنسيق الإخراج الافتراضي إلى "بسيط" في SpeechConfig.
JavaScript: إزالة عدم التناسق بين الخصائص على كائن التكوين في JavaScript واللغات الأخرى.

العينات

تم تحديث العديد من العينات وإصلاحها (على سبيل المثال أصوات الإخراج للترجمة، وما إلى ذلك).
تمت إضافة عينات Node.js في مستودع العينة.

Speech SDK 1.1.0

الميزات الجديدة

دعم Android x86/x64.
دعم الوكيل: في العنصر SpeechConfig، يمكنك الآن استدعاء دالة لتعيين معلومات الوكيل (اسم المضيف والمنفذ واسم المستخدم وكلمة المرور). هذه الميزة غير متوفرة بعد على iOS.
رمز الخطأ والرسائل المحسنة. إذا أرجع التعرف خطأ، فهذا قد تم تعيينه Reason بالفعل (في حدث تم إلغاؤه) أو CancellationDetails (في نتيجة التعرف) إلى Error. يحتوي الحدث الذي تم إلغاؤه الآن على عضوين إضافيين، ErrorCode وErrorDetails. إذا أرجع الخادم معلومات خطأ إضافية مع الخطأ الذي تم الإبلاغ عنه، فسيكون متوفراً الآن في الأعضاء الجدد.

التحسينات

تمت إضافة تحقق إضافي في تكوين أداة التعرف، وإضافة رسالة خطأ إضافية.
معالجة محسنة للصمت لفترة طويلة في منتصف ملف صوتي.
حزمة NuGet: بالنسبة للمشاريع .NET Framework، فإنها تمنع الإنشاء باستخدام تكوين AnyCPU.

إصلاح الأخطاء

تم إصلاح العديد من الاستثناءات الموجودة في أدوات التعرف. بالإضافة إلى ذلك، يتم اكتشاف الاستثناءات وتحويلها إلى حدث Canceled.
إصلاح تسرب الذاكرة في إدارة الخصائص.
تم إصلاح الخطأ حيث يمكن أن يتعطل ملف إدخال الصوت في أداة التعرف.
تم إصلاح خطأ حيث يمكن تلقي الأحداث بعد حدث إيقاف جلسة العمل.
تم إصلاح بعض شروط السباق في مؤشر الترابط.
تم إصلاح مشكلة توافق iOS التي قد تؤدي إلى حدوث عطل.
تحسينات الاستقرار لدعم ميكروفون Android.
تم إصلاح خطأ حيث يتجاهل أداة التعرف في JavaScript لغة التعرف.
تم إصلاح خطأ يمنع إعداد EndpointId (في بعض الحالات) في JavaScript.
تغيير ترتيب المعلمة في AddIntent في JavaScript، وإضافة توقيع JavaScript مفقود AddIntent.

العينات

تمت إضافة عينات C++ وC# لسحب ودفع استخدام الدفق في مستودع العينة.

Speech SDK 1.0.1

تحسينات الموثوقية وإصلاح الأخطاء:

إصلاح خطأ فادح محتمل بسبب حالة السباق في أداة التعرف على التخلص
إصلاح خطأ فادح محتمل عند حدوث خصائص غير محددة.
تمت إضافة تدقيق إضافي للخطأ والمعلمة.
الهدف- C: إصلاح الخطأ الفادح المحتمل الناجم عن تجاوز الاسم في NSString.
Objective-C: الرؤية المعدلة لواجهة برمجة التطبيقات
JavaScript: تم إصلاحه فيما يتعلق بالأحداث حمولاتها.
تحسينات الوثائق.

في مستودع العينة الخاص بنا، تمت إضافة عينة جديدة لـ JavaScript.

Azure الذكاء الاصطناعي Speech SDK 1.0.0: إصدار 2018-سبتمبر

الميزات الجديدة

دعم Objective-C على iOS. تحقق من التشغيل السريع Objective-C لنظام التشغيل iOS.
دعم JavaScript في المستعرض. تحقق من التشغيل السريع لـ JavaScript.

كسر التغييرات

مع هذا الإصدار، يتم تقديم عدد من التغييرات العاجلة. تحقق من هذه الصفحة للحصول على التفاصيل.

Azure الذكاء الاصطناعي Speech SDK 0.6.0: إصدار 2018-أغسطس

الميزات الجديدة

يمكن لتطبيقات UWP التي تم إنشاؤها باستخدام Speech SDK الآن تمرير حزمة مصادقة تطبيقات Windows (WACK). تحقق من التشغيل السريع لـ UWP.
دعم .NET Standard 2.0 على Linux (Ubuntu 16.04 x64).
تجريبي: دعم Java 8 على Windows (64 بت) وLinux (Ubuntu 16.04 x64). تحقق من التشغيل السريع لبيئة وقت تشغيل Java.

تغيير وظيفي

كشف معلومات تفاصيل الخطأ الإضافية بشأن أخطاء الاتصال.

كسر التغييرات

على Java (Android)، SpeechFactory.configureNativePlatformBindingWithDefaultCertificate لم تعد الوظيفة تتطلب معلمة مسار. الآن يتم الكشف عن المسار تلقائياً على جميع الأنظمة الأساسية المدعومة.
تمت إزالة ملحق الحصول على الخاصية EndpointUrl في Java وC#.

إصلاح الأخطاء

في Java، يتم الآن تنفيذ نتيجة تركيب الصوت على أداة التعرف على الترجمة.
تم إصلاح الخلل الذي قد يتسبب في خيوط غير نشطة وزيادة عدد المقابس المفتوحة وغير المستخدمة.
تم إصلاح مشكلة حيث يمكن أن ينتهي التعرف طويل الأمد في منتصف الإرسال.
تم إصلاح حالة تعارض في إيقاف تشغيل أداة التعرف.

Azure الذكاء الاصطناعي Speech SDK 0.5.0: إصدار 2018-يوليو

الميزات الجديدة

دعم نظام Android الأساسي (API 23: Android 6.0 Marshmallow أو أعلى). تحقق من التشغيل السريع لـ Android.
دعم .NET Standard 2.0 على Windows. تحقق من التشغيل السريع لـ .NET Core.
تجريبي: دعم UWP على Windows (الإصدار 1709 أو أحدث).
- تحقق من التشغيل السريع لـ UWP.
- لاحظ أن تطبيقات UWP التي تم إنشاؤها باستخدام Speech SDK لا تمرر بعد حزمة مصادقة تطبيقات Windows (WACK).
دعم التعرف طويل الأمد مع إعادة الاتصال التلقائي.

التغييرات الوظيفية

StartContinuousRecognitionAsync() يدعم التعرف طويل الأمد.
تحتوي نتيجة التعرف على المزيد من الحقول. تتم إزاحتها من بداية الصوت ومدته (سواء في علامات التجزئة) للنص الذي تم التعرف عليه والقيم الإضافية التي تمثل حالة التعرف، على سبيل المثال، InitialSilenceTimeout وInitialBabbleTimeout.
دعم AuthorizationToken لإنشاء مثيلات المصنع.

كسر التغييرات

أحداث التعرف: NoMatch تم دمج نوع الحدث في الحدث Error.
تمت إعادة تسمية OutputFormat SpeechOutputFormat في C# للبقاء على محاذاة مع C++‎.
تغير نوع الإرجاع لبعض أساليب الواجهة AudioInputStream قليلا:
- في Java، read يرجع long الأسلوب الآن بدلاً من int.
- في C#، Read يرجع uint الأسلوب الآن بدلاً من int.
- في C++، يتم الآن إرجاع Read الأسلوبين GetFormat وsize_t بدلاً من int.
C++: يمكن تمرير مثيلات تدفقات إدخال الصوت الآن فقط مثل shared_ptr.

إصلاح الأخطاء

تم إصلاح قيم الإرجاع غير الصحيحة في النتيجة عند المهلة RecognizeAsync().
تمت إزالة التبعية على مكتبات أساس الوسائط على Windows. يستخدم SDK الآن واجهات برمجة تطبيقات الصوت الأساسية.
إصلاح الوثائق: تمت إضافة صفحة مناطق لوصف المناطق المدعومة.

المشكلة المعروفة

لا يقوم Speech SDK لنظام Android بالإبلاغ عن نتائج تركيب الكلام للترجمة. سيتم إصلاح هذه المشكلة في الإصدار التالي.

Azure الذكاء الاصطناعي Speech SDK 0.4.0: إصدار 2018-يونيو

التغييرات الوظيفية

AudioInputStream

يمكن لأداة التعرف الآن أن تستهلك دفقاً كمصدر صوتي. لمزيد من المعلومات، يرجى الاطلاع على دليل كيفية الاستخدام هذا .
تنسيق الإخراج التفصيلي

عند إنشاء SpeechRecognizer، يمكنك طلب Detailed تنسيق أو Simple إخراجه. يحتوي DetailedSpeechRecognitionResult على درجة الثقة والنص المتعرف عليه والشكل المعجمي الخام والنموذج الذي تمت تسويته والنموذج الذي تمت تسويته بألفاظ نابية مقنعة.

كسر التغيير

تم التغيير إلى SpeechRecognitionResult.Text من SpeechRecognitionResult.RecognizedText في C#‎.

إصلاح الأخطاء

تم إصلاح مشكلة رد الاتصال المحتملة في طبقة USP أثناء إيقاف التشغيل.
إذا استهلكت أداة التعرف ملف إدخال صوتي، فإنها تحتفظ بمقبض الملف لفترة أطول من اللازم.
إزالة العديد من حالات التوقف التام بين مضخة الرسالة وأداة التعرف.
إطلاق نتيجة NoMatch عند انتهاء مهلة الاستجابة من الخدمة.
يتم تحميل مكتبات أساس الوسائط على Windows. هذه المكتبة مطلوبة لإدخال الميكروفون فقط.
سرعة تحميل البيانات الصوتية محدودة بحوالي ضعف سرعة الصوت الأصلي.
في Windows، أصبحت تجميعات C# .NET الآن قوية المسماة.
إصلاح الوثائق: Region هو المعلومات المطلوبة لإنشاء أداة التعرف.

تمت إضافة المزيد من العينات ويتم تحديثها باستمرار. للحصول على أحدث مجموعة من العينات، راجع مستودع GitHub لعينات Speech SDK.

Azure الذكاء الاصطناعي Speech SDK 0.2.12733: إصدار 2018-May

هذا الإصدار هو أول إصدار معاينة عامة من Azure الذكاء الاصطناعي Speech SDK.

Speech CLI 1.37.0: إصدار أبريل 2024

تم التحديث لاستخدام Speech SDK 1.37.0

الميزات الجديدة

لا شيء

إصلاح الأخطاء

لا شيء

Speech CLI 1.36.0: إصدار مارس 2024

تم التحديث لاستخدام Speech SDK 1.36.0

الميزات الجديدة

لا شيء

إصلاح الأخطاء

لا شيء

Speech CLI 1.35.0: إصدار فبراير 2024

تم التحديث لاستخدام Speech SDK 1.35.0

الميزات الجديدة

لا شيء

إصلاح الأخطاء

تحديث تبعية JMESPath إلى الأحدث

Speech CLI 1.34.0: إصدار نوفمبر 2023

تم التحديث لاستخدام Speech SDK 1.34.0

Speech CLI 1.33.0: إصدار أكتوبر 2023

تم التحديث لاستخدام Speech SDK 1.34.0

Speech CLI 1.31.0: إصدار أغسطس 2023

تم التحديث لاستخدام Speech SDK 1.31.0

Speech CLI 1.30.0: إصدار يوليو 2023

تم التحديث لاستخدام Speech SDK 1.30.0

Speech CLI 1.29.0: إصدار يونيو 2023

تم التحديث لاستخدام Speech SDK 1.29.0

Speech CLI 1.28.0: إصدار مايو 2023

تم التحديث لاستخدام Speech SDK 1.28.0

Speech CLI 1.27.0: إصدار أبريل 2023

التحديثات

تم التحديث لاستخدام Speech SDK 1.27.0
قم بتحديث نقطة النهاية الافتراضية لاستخدام واجهات برمجة تطبيقات REST v3.1 للتعرف على الكلام المخصص والتعرف على الكلام الدفعي.

إصلاح الأخطاء

الإصلاحات المتعلقة بكيفية تحليل/تكوين معلمات الاستعلام.

Speech CLI 1.26.0: إصدار مارس 2023

تم التحديث لاستخدام Speech SDK 1.26.0.

Speech CLI 1.25.0: إصدار يناير 2023

تم التحديث لاستخدام Speech SDK 1.25.0.

Speech CLI 1.24.0: إصدار أكتوبر 2022

يستخدم Speech SDK 1.24.0.

الميزات الجديدة

توسيع "فحص spx" لدعم استعلامات JMESPath مقابل جميع أحداث spx

إصلاح الأخطاء

تحسينات مختلفة على القوة مقابل تقييمات استعلام JMESPath
إصلاح الاقتطاعات لكتابات الملفات التي قد تحدث على الأجهزة المقيدة بالموارد

Speech CLI 1.23.0: إصدار يوليو 2022

يستخدم Speech SDK 1.23.0.

الميزات الجديدة

تسمية توضيحية أفضل (--output vtt و --output srt) تقسيم نتائج كبيرة (37 حرفًا كحد أقصى، 3 أسطر)
الخيارات spx synthesize--format الموثقة (راجع spx help synthesize format)
معظم spx csr الأوامر/الخيارات الموثقة (راجع spx help csr)
الأمر المضاف spx csr model copy (راجع spx help csr model copy)
الخيار المضاف --check result باستخدام استعلامات JMES (راجع spx help check result)
رسائل الخطأ المحسنة عند تحديد خيارات أوامر غير صحيحة
تم الانتقال من .NET Core 3.1 إلى .NET 6.0. لتشغيل Speech CLI، ستحتاج إلى تثبيت وقت تشغيل .NET 6.0 (أو أعلى).

إصلاح الأخطاء

تحديث جميع عناوين URL لإزالة اللغة (على سبيل المثال، "en-US")
تم إصلاح معلومات الإصدار المطلوب الإبلاغ عنها بشكل صحيح في جميع الحالات (في السابق كانت تظهر أحيانًا فارغة)

Speech CLI 1.22.0: إصدار يونيو 2022

يستخدم Speech SDK 1.22.0.

الميزات الجديدة

تمت إضافة الأمر spx init لإرشاد المستخدمين من خلال إنشاء مفتاح مورد الكلام دون الانتقال إلى مدخل ويب Azure.
تحتوي حاويات Speech docker الآن على Azure CLI مضمنة، لذلك spx init يعمل الأمر خارج الصندوق.
تمت إضافة الطابع الزمني كخيار إخراج حدث، لجعل SPX أكثر فائدة عند حساب زمن الانتقال.

Speech CLI 1.21.0: إصدار أبريل 2022

يستخدم Speech SDK 1.21.0.

الميزات الجديدة

إنشاء تسمية توضيحية ل WEBVTT
- تمت إضافة --output vtt دعم إلى spx translate
- يدعم --output vtt file FILENAME تجاوز اسم ملف VTT الافتراضي
- يدعم --output vtt file - الكتابة إلى الإخراج القياسي
- يتم إنشاء ملفات VTT الفردية لكل لغة مستهدفة (على سبيل المثال --target en;de;fr)
إنشاء تسمية توضيحية ل SRT
- إضافة دعم --output srt إلى spx recognize وspx intent وspx translate
- يدعم --output srt file FILENAME تجاوز اسم ملف SRT الافتراضي
- يدعم --output srt file - الكتابة إلى الإخراج القياسي
- بالنسبة إلى spx translate، يتم إنشاء ملفات SRT الفردية لكل لغة مستهدفة (على سبيل المثال --target en;de;fr)

إصلاح الأخطاء

إخراج الفترة الزمنية WEBVTT المصحح لاستخدام hh:mm:ss.fff التنسيق بشكل صحيح

Speech CLI 1.20.0: إصدار يناير 2022

الميزات الجديدة

التعرف على المتحدث
- spx profile enroll والآن spx speaker [identify/verify] دعم إدخال الميكروفون
التعرف على الهدف (spx intent)
- --keyword FILE.table
- --pattern و--patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once، --once+، --continuous (افتراضي مستمر الآن)
- --output all/each connection EVENT
- --output all/each connection message (على سبيل المثال، text، path)
التحقق من/تأليف توقعات إخراج وحدة تحكم CLI:
- دعم --expect PATTERN و--not expect PATTERN جميع الأوامر
- --auto expect لمساعدة تأليف الأنماط المتوقعة
التحقق من/تأليف توقع إخراج تسجيل SDK
- دعم --log expect PATTERN و--not log expect PATTERN جميع الأوامر
- --log auto expect [FILTER] دعم على جميع الأوامر
- --log FILE دعم على spx profile وspx speaker
إدخال ملف الصوت
- --format ANY دعم على جميع الأوامر
- --file - الدعم (القراءة من الإدخال القياسي، وتمكين سيناريوهات المسار)
إخراج ملف الصوت
- --audio output - الكتابة إلى الإخراج القياسي، وتمكين سيناريوهات المسار
ملفات الإخراج
- --output all/each file - الكتابة إلى الإخراج القياسي
- --output batch file - الكتابة إلى الإخراج القياسي
- --output vtt file - الكتابة إلى الإخراج القياسي
- --output json file -الكتابة إلى الإخراج القياسي، لـ spx csr والأوامر وspx batch
خصائص الإخراج
- --output […] result XXX property (PropertyId أو سلسلة)
- --output […] connection message received XXX property (PropertyId أو سلسلة)
- --output […] recognizer XXX property (PropertyId أو سلسلة)
تكامل Azure WebJob
- spx webjob يتبع الآن نمط الأوامر الفرعية
- تعليمات WebJob المحدثة لتعكس نمط الأمر الفرعي (راجع spx help webjob)

إصلاح الأخطاء

تم إصلاح الخطأ عند استخدام كل من --output vtt FILE و--output batch FILE في نفس الوقت
spx [...] --zip ZIPFILENAME يتضمن الآن جميع الثنائيات المطلوبة لجميع السيناريوهات (إذا كانت موجودة)
spx profile وترجع spx speaker الأوامر الآن معلومات تفصيلية عن الخطأ عند الإلغاء

إصدار 2021 - مايو

الميزات الجديدة

تمت إضافة دعم لملف التعريف ومعرف المتحدث والتحقق من السماعة - حاول spx profilespx speaker ومن سطر الأوامر.
أضفنا أيضاً دعم مربع الحوار - جرّب spx dialog من سطر الأوامر.
تحسين مساعدة spx. يرجى تزويدنا بملاحظات بشأن كيفية عمل هذا من أجلك عن طريق فتح مشكلة GitHub.
لقد قمنا بتقليص حجم تثبيت أداة .NET.

اختبار COVID-19 المختصر

ومع استمرار الجائحة المستمرة في مطالبة مهندسينا بالعمل من المنزل، انخفضت البرامج النصية للتحقق اليدوي قبل الجائحة انخفاضا كبيراً. نقوم بالاختبار على عدد أقل من الأجهزة ذات التكوينات الأقل، وقد تزداد احتمالية حدوث أخطاء خاصة بالبيئة. ما زلنا نتحقق بدقة من صحة مجموعة كبيرة من الأتمتة. في حالة عدم وجود شيء غير محتمل، يرجى إعلامنا على GitHub.
حافظ على صحتك!

إصدار 2021-مارس

الميزات الجديدة

تمت إضافة spx intent الأمر للتعرف على الهدف، والاستبدالspx recognize intent.
يمكن الآن للتعرف والقصد استخدام وظائف Azure لحساب معدل خطأ الكلمات باستخدام spx recognize --wer url <URL>.
يمكن أن يؤدي التعرف الآن إلى إخراج النتائج كملفات VTT باستخدام spx recognize --output vtt file <FILENAME>.
تم إخفاء المعلومات الأساسية الحساسة الآن في إخراج التصحيح / التفريغ.
تمت إضافة التحقق من عنوان URL ورسالة الخطأ لحقل المحتوى في إنشاء النسخ الدفعي.

اختبار COVID-19 المختصر

إصدار 2021-يناير

الميزات الجديدة

يتوفر Speech CLI الآن كحزمة NuGet ويمكن تثبيته عبر .NET CLI كأداة عمومية .NET يمكنك الاتصال بها من shell/command-line.
تم تحديث speech DevOps Template repo المخصص لاستخدام Speech CLI لسير عمل الكلام المخصص الخاص به.

اختبار COVID-19 المختصر

إصدار 2020-أكتوبر

SPX هي واجهة سطر الأوامر لاستخدام خدمة الكلام دون كتابة التعليمات البرمجية. تحميل أحدث إصدار هنا.

الميزات الجديدة

spx csr dataset upload --kind audio|language|acoustic - إنشاء مجموعات بيانات من البيانات المحلية، وليس فقط من عناوين URL.
spx csr evaluation create|status|list|update|delete – مقارنة النماذج الجديدة مقابل الحقيقة الأساسية/النماذج الأخرى.
spx * list – يدعم تجربة غير صفحات (لا يتطلب --أعلى X --تخطي X).
spx * --http header A=B - دعم العناوين المخصصة (تمت إضافتها لـ Office للمصادقة المخصصة).
spx help – نص محسن ولون نص علامة خلفية مرمز (أزرق).

إصدار 2020-يونيو

تمت إضافة ميزات البحث في التعليمات في CLI:
- spx help find --text TEXT
- spx help find --topic NAME
تم تحديثه للعمل مع الإصدار 3.0 من Batch وواجهات برمجة تطبيقات الكلام المخصصة التي تم نشرها حديثا:
- spx help batch examples
- spx help csr examples

اختبار COVID-19 المختصر

Speech CLI (المعروف أيضاً باسم SPX): إصدار 2020-مايو

SPX هي أداة سطر أوامر جديدة تسمح لك بإجراء التعرف والتركيب والترجمة وكتابة الدفعات وإدارة الكلام المخصصة من سطر الأوامر. استخدمه لاختبار خدمة الكلام، أو لبرمجة مهام خدمة الكلام التي تحتاج إلى تنفيذها. قم بتنزيل الأداة واقرأ الوثائق هنا.

إصدار أبريل 2024

أفاتار تحويل النص إلى كلام

يمكنك الآن تعيين صورة خلفية ثابتة للصور الرمزية الخاصة بك. لاستخدام هذه الميزة، ما عليك سوى استخدام الخاصية avatarConfig.backgroundImage وتحديد عنوان URL يشير إلى الصورة المطلوبة. للحصول على detials، راجع كيفية تحرير الخلفية.

إصدار مارس 2024

صوت عصبي تم إنشاؤه مسبقًا

تتوفر 9 أصوات متعددة اللغات بشكل عام في جميع المناطق: en-US-AvaMultilingualNeuralوen-US-AndrewMultilingualNeuralfr-FR-VivienneMultilingualNeuralen-US-EmmaMultilingualNeuralde-DE-SeraphinaMultilingualNeuralfr-FR-RemyMultilingualNeuralen-US-BrianMultilingualNeuralde-DE-FlorianMultilingualNeural.zh-CN-XiaoxiaoMultilingualNeural راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.
تقديم صوت جديد متعدد اللغات للمعاينة العامة: ja-JP-MasaruMultilingualNeural. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.
تحديثات إضافية:
- en-US-RyanMultilingualNeural يتوفر بشكل عام في جميع المناطق.
- en-US-JennyMultilingualV2Neural تتوفر بشكل عام في جميع المناطق، مدمجة مع en-US-JennyMultilingualNeural.
- تتوفر المعاينة للمحدث en-IN-NeerjaNeural ومع hi-IN-SwaraNeural 3 أنماط جديدة في شرق الولايات المتحدة وغرب أوروبا وجنوب شرق آسيا.
- معاينة متاحة للأصوات النسائية الجديدة في وسط الهند: en-IN-KavyaNeuralو en-IN-AnanyaNeuralen-IN-AashiNeuralhi-IN-KavyaNeuralو.hi-IN-AnanyaNeural

أفاتار تحويل النص إلى كلام

تمت إزالة التبعية على Azure Communication Services (ACS) TURN للافاتار في الوقت الحقيقي. تم تحديث نموذج التعليمات البرمجية وفقا لذلك ليعكس هذا التغيير.
نص منشور إلى تسعير أفاتار الكلام. لمزيد من التفاصيل، راجع صفحة التسعير. لاحظ أن تسعير الأفاتار سيكون مرئيا فقط لمناطق الخدمة حيث تتوفر الميزة، بما في ذلك غرب الولايات المتحدة 2 وغرب أوروبا وجنوب شرق آسيا.

إصدار فبراير 2024

أصوات OpenAI

تدعم خدمة Azure الذكاء الاصطناعي Speech نص OpenAI لأصوات الكلام في المناطق التالية: شمال وسط الولايات المتحدة ووسط السويد. مثل Azure الذكاء الاصطناعي أصوات الكلام، يقدم نص OpenAI إلى أصوات الكلام تركيب كلام عالي الجودة لتحويل النص المكتوب إلى صوت منطوق طبيعي سبر. وهذا يفتح مجموعة واسعة من الاحتمالات لتجارب المستخدم الشاملة والتفاعلية. لمزيد من المعلومات، راجع ما هو نص OpenAI لأصوات الكلام؟.

إشعار

يتوفر نص OpenAI لأصوات الكلام أيضا في خدمة Azure OpenAI.
مع هذا التحديث، قمنا بتعديل أسعار الأصوات العصبية التي تم إنشاؤها مسبقا باستخدام Azure الذكاء الاصطناعي Speech. تحقق من الأسعار المحدثة هنا.

صوت شخصي

تدعم DragonLatestNeural ميزة الصوت الشخصية الآن النماذج و PhoenixLatestNeural . تعزز هذه النماذج الجديدة طبيعية الأصوات التي تم تركيبها، وتستبدل خصائص الكلام الخاصة بالصوت في المطالبة بشكل أفضل. لمزيد من التفاصيل، راجع دمج الصوت الشخصي في تطبيقك.

إصدار ديسمبر 2023

واجهة برمجة تطبيقات الصوت المخصصة

تتوفر واجهة برمجة التطبيقات الصوتية المخصصة لإنشاء وإدارة نماذج الصوت العصبية المخصصة المهنية والشخصية .

الصوت العصبي المخصص

تدعم النماذج الصوتية المدربة حديثا الآن معدل عينة 48 كيلوهرتز، بغض النظر عن إصدار النموذج. بالنسبة للنماذج الصوتية المدربة مسبقا، من الضروري ترقية إصدار المحرك إلى إصدار 2023.11.13.0 على الأقل لتحسين معدل العينة إلى 48 كيلوهرتز.

صوت عصبي تم إنشاؤه مسبقًا

تقديم أصوات جديدة متعددة اللغات للمعاينة العامة:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`de-DE`	‏‏الألمانية (ألمانيا)	`de-DE-FlorianMultilingualNeural` (ذكر)
`de-DE`	‏‏الألمانية (ألمانيا)	`de-DE-SeraphinaMultilingualNeural` (أنثى)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-AvaMultilingualNeural` (أنثى)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-EmmaMultilingualNeural` (أنثى)
`fr-FR`	‏‏الفرنسية (فرنسا)	`fr-FR-RemyMultilingualNeural` (ذكر)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-BrianMultilingualNeural` (ذكر)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-AndrewMultilingualNeural` (ذكر)
`fr-FR`	‏‏الفرنسية (فرنسا)	`fr-FR-VivienneMultilingualNeural` (أنثى)
`zh-CN`	الصينية (الماندارين، المبسطة)	`zh-CN-XiaoxiaoMultilingualNeural` (أنثى)
`zh-CN`	الصينية (الماندارين، المبسطة)	`zh-CN-XiaochenMultilingualNeural` (أنثى)
`zh-CN`	الصينية (الماندارين، المبسطة)	`zh-CN-YunyiMultilingualNeural` (ذكر)

تقديم أصوات جديدة zh-CN-XiaoxiaoDialectsNeural للمعاينة العامة التي تدعم العديد من اللهجات واللهجات الصينية:

اسم الصوت	اللغة الثانوية	اللهجة/التمييز
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	الصينية (تشونغيوان ماندارين شنشي، مبسطة)
	`zh-CN-sichuan`	الصينية (الماندارين الجنوبية الغربية، المبسطة)
	`zh-CN-shanxi`	الصينية (شانشي التمييز الماندارين، مبسطة)
	`nan-CN`	الصينية (الحد الأدنى الجنوبي، المبسطة)
	`zh-CN-anhui`	الصينية (جيانغهوي ماندارين آنهوي، مبسطة)
	`zh-CN-hunan`	الصينية (هونان التمييز الماندارين، مبسطة)
	`zh-CN-gansu`	الصينية (لانين ماندارين جانسو، مبسطة)
	`zh-CN-shandong`	الصينية (جيلو الماندارين، المبسطة)
	`zh-CN-henan`	الصينية (تشونغيوان ماندارين هينان، مبسطة)
	`zh-CN-liaoning`	الصينية (الماندارين الشمالية الشرقية، المبسطة)
	`zh-TW`	الصينية (الماندارين التايوانية، التقليدية)

إصدار نوفمبر 2023

صوت شخصي

يتوفر الصوت الشخصي في المعاينة في المناطق التالية: غرب أوروبا وشرق الولايات المتحدة وجنوب شرق آسيا. باستخدام الصوت الشخصي (معاينة)، يمكنك الحصول على النسخ المتماثل الذكاء الاصطناعي الذي تم إنشاؤه لصوتك (أو مستخدمي التطبيق الخاص بك) في بضع ثوان. يمكنك توفير عينة كلام مدتها دقيقة واحدة كمطالبة صوتية، ثم استخدامها لإنشاء الكلام في أي من أكثر من 90 لغة مدعومة عبر أكثر من 100 لغة.

لمزيد من المعلومات، راجع الصوت الشخصي.

أفاتار تحويل النص إلى كلام

يتوفر النص إلى أفاتار الكلام في المعاينة في المناطق التالية: غرب الولايات المتحدة 2 وغرب أوروبا وجنوب شرق آسيا.

يحول النص إلى أفاتار الكلام النص إلى فيديو رقمي لإنسان مصور (إما أفاتار تم إنشاؤه مسبقا أو نص مخصص إلى أفاتار الكلام) يتحدث بصوت طبيعي. يمكن تركيب النص إلى فيديو أفاتار الكلام بشكل غير متزامن أو في الوقت الحقيقي. يمكن للمطورين إنشاء تطبيقات متكاملة مع النص إلى أفاتار الكلام من خلال واجهة برمجة التطبيقات، أو استخدام أداة إنشاء محتوى على Speech Studio لإنشاء محتوى فيديو دون ترميز.

لمزيد من المعلومات، راجع النص إلى أفاتار الكلام وملاحظات الشفافية والكشف عن موهبة الصوت والأفاتار.

الصوت العصبي المخصص

دعم إضافي للإعدادات المحلية ال 24 الجديدة للصوت عبر اللغات. راجع قائمة اللغات الكاملة للحصول على مزيد من المعلومات.

صوت عصبي تم إنشاؤه مسبقًا

تقديم أصوات جديدة للمعاينة العامة:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`de-DE`	‏‏الألمانية (ألمانيا)	`SeraphinaNeural` (أنثى)
`es-ES`	الأسبانية (إسبانيا)	`XimenaNeural` (أنثى)
`fr-CA`	الفرنسية (كندا)	`ThierryNeural` (ذكر)
`fr-FR`	‏‏الفرنسية (فرنسا)	`VivienneNeural` (أنثى)
`it-IT`	‏‏الإيطالية (إيطاليا)	`GiuseppeNeural` (ذكر)
`ko-KR`	‏‏الكورية (كوريا)	`HyunsuNeural` (ذكر)
`pt-BR`	البرتغالية (البرازيل)	`ThalitaNeural` (أنثى)

النماذج المحدثة مع إصلاح الأخطاء وتحسين الجودة:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`es-ES`	الأسبانية (إسبانيا)	`AlvaroNeural` (ذكر)
`en-GB`	الإنجليزية (المملكة المتحدة)	`RyanNeural` (ذكر)
`ko-KR`	‏‏الكورية (كوريا)	`InjoonNeural` (ذكر)

راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إصدار أكتوبر 2023

الصوت العصبي المخصص

دعم إضافي للإعدادات المحلية ال 12 الجديدة مع الصوت العصبي المخصص Pro. راجع قائمة اللغات الكاملة للحصول على مزيد من المعلومات.

إصدار سبتمبر 2023

صوت عصبي تم إنشاؤه مسبقًا

تقديم أصوات جديدة للمعاينة العامة:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-EmmaNeural` (أنثى)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-AndrewNeural` (ذكر)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-BrianNeural` (ذكر)

راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

صوت عصبي مضمن

جميع اللغات ال 147 هنا (باستثناء fa-IR، الفارسية (إيران)) متاحة خارج الصندوق مع إما 1 أنثى مختارة و/أو 1 صوت ذكر محدد.

إصدار أغسطس 2023

الصوت العصبي المخصص

تم إصدار أحدث إصدار من وصفة التدريب CNV Lite الآن. يقدم هذا الإصدار العديد من التحسينات على جودة نماذج اللغة الخاصة بك. جرب Speech Studio.

إصدار يوليو 2023

الصوت العصبي المخصص

يتوفر الصوت متعدد الأنماط بشكل عام.
تمت إضافة اثنين من لغة جديدة في المعاينة العامة للصوت متعدد الأنماط: ja-JP و zh-CN. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات. راجع قائمة الأنماط المعينة مسبقا للغات مختلفة.
يتوفر الصوت عبر اللغات بشكل عام.
تمت إضافة اثنين من اللغات الجديدة للصوت عبر اللغات: id-ID و nl-NL. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

أصوات TTS العصبية التي تم إنشاؤها مسبقا

تقديم صوت محايد جديد en-US للجنسين للمعاينة العامة:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-BlueNeural` (محايد)

تقديم أصوات جديدة متعددة اللغات للمعاينة العامة:

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-JennyMultilingualV2Neural` (أنثى)
`en-US`	الإنجليزية (الولايات المتحدة)	`en-US-RyanMultilingualNeural` (ذكر)

الأصوات en-US-JennyMultilingualV2Neural متعددة اللغات والكشف en-US-RyanMultilingualNeural التلقائي عن لغة نص الإدخال. ومع ذلك، لا يزال بإمكانك استخدام <lang> العنصر لضبط لغة التحدث لهذه الأصوات.

يمكن أن تتحدث هذه الأصوات الجديدة متعددة اللغات ب 41 لغة ولغةArabic (Egypt)Indonesian (Indonesia)English (Canada)English (Australia)English (Hong Kong SAR)English (United Kingdom)English (Ireland)English (India)English (United States)Spanish (Spain)Spanish (Mexico)German (Germany)French (Belgium)Finnish (Finland)Norwegian Bokmål (Norway)Korean (Korea)Dutch (Belgium)Japanese (Japan)Italian (Italy)Hungarian (Hungary)Dutch (Netherlands)Hindi (India)French (France)French (Switzerland)Polish (Poland)French (Canada)German (Switzerland)Portuguese (Brazil)Thai (Thailand)Swedish (Sweden)Turkish (Türkiye)Russian (Russia)Chinese (Mandarin, Simplified)Chinese (Cantonese, Traditional)Arabic (Saudi Arabia)Czech (Czechia)Chinese (Taiwanese Mandarin, Traditional)CatalanDanish (Denmark)German (Austria)Portuguese (Portugal): و.

لا تدعم هذه الأصوات متعددة اللغات عناصر SSML معينة بشكل كامل، مثل التوقف والتأكيد والصمت والفرع.

هام

en-US-JennyMultilingualV2Neural يتم توفير الصوت مؤقتا في المعاينة العامة فقط لأغراض التقييم. ستتم إزالتها في المستقبل.

من أجل التحدث بلغة أخرى غير الإنجليزية، يتطلب التنفيذ الحالي للصوت en-US-JennyMultilingualNeural تعيين <lang xml:lang> العنصر. نتوقع أنه خلال السنة التقويمية Q4 2023، en-US-JennyMultilingualNeural سيتم تحديث الصوت ليتحدث بلغة نص الإدخال بدون <lang xml:lang> العنصر . سيكون هذا في تماثل مع en-US-JennyMultilingualV2Neural الصوت.

تقديم ميزات جديدة في المعاينة العامة للأصوات أدناه:

تمت إضافة مدخلات لاتينية لأصوات الصربية (صربيا): sr-RSsr-latn-RS-SophieNeural و sr-latn-RS-NicholasNeural.
إضافة دعم النطق باللغة الإنجليزية للأصوات sq-AL-AnilaNeural الألبانية (ألبانيا): sq-AL وsq-AL-IlirNeural.

إصدار مايو 2023

إنشاء محتوى صوتي

تدعم جميع الأصوات التي تم إنشاؤها مسبقا مع أنماط التحدث والأصوات المخصصة متعددة الأنماط تعديل درجة النمط.
يمكنك الآن إصلاح نطق الكلمة عن طريق نطق الكلمة وتسجيلها. يمكن التعرف على الرسائل الصوتية تلقائيا من التسجيل. ميزة التعرف عن طريق التحدث الآن في المعاينة العامة.

إصدار أبريل 2023

أصوات TTS العصبية التي تم إنشاؤها مسبقا

تم نقل الميزات التالية لهذه الأصوات من المعاينة العامة إلى GA:

نمط	أصوات تحويل النص إلى كلام
style="chat"	`en-GB-RyanNeural` و`es-MX-JorgeNeural` و`it-IT-IsabellaNeural`
style="مرح"	`en-GB-RyanNeural`و `en-GB-SoniaNeural`و `es-MX-JorgeNeuralfr-FR-DeniseNeuralfr-FR-HenriNeuralit-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`، و`fr-FR-DeniseNeural`، و`fr-FR-HenriNeural`

تحسين النطق باللغة الإنجليزية ل hi-IN، ta-IN والأصوات te-IN ، يتم الآن إصدار التقييم في مناطق المعاينة العامة

لمزيد من المعلومات، راجع القائمة الصوتية واللغة.

إصدار مارس 2023

الميزات الجديدة

يتم تحديث لغة ترميز تركيب الكلام (SSML) لدعم عناصر معالج التأثير الصوتي التي تعمل على تحسين جودة إخراج الكلام المركب لسيناريوهات معينة على الأجهزة. تعرف على المزيد في ترميز تركيب الكلام.

الصوت العصبي المخصص

دعم إضافي للإعدادات nl-BE المحلية باستخدام Custom Neural voice Pro. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

أصوات TTS العصبية التي تم إنشاؤها مسبقا

الأصوات التالية متاحة الآن بشكل عام. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`en-AU`	الإنجليزية (أستراليا)	`en-AU-AnnetteNeural` (أنثى) `en-AU-CarlyNeural` (أنثى) `en-AU-DarrenNeural` (ذكر) `en-AU-DuncanNeural` (ذكر) `en-AU-ElsieNeural` (أنثى) `en-AU-FreyaNeural` (أنثى) `en-AU-JoanneNeural` (أنثى) `en-AU-KenNeural` (ذكر) `en-AU-KimNeural` (أنثى) `en-AU-NeilNeural` (ذكر) `en-AU-TimNeural` (ذكر) `en-AU-TinaNeural` (أنثى) `en-AU-WilliamNeural` (ذكر)
`en-GB`	الإنجليزية (المملكة المتحدة)	`en-GB-RyanNeural` (ذكر) `en-GB-SoniaNeural` (أنثى)
`es-ES`	الأسبانية (إسبانيا)	`es-ES-AbrilNeural` (أنثى) `es-ES-ArnauNeural` (ذكر) `es-ES-DarioNeural` (ذكر) `es-ES-EliasNeural` (ذكر) `es-ES-EstrellaNeural` (أنثى) `es-ES-IreneNeural` (أنثى) `es-ES-LaiaNeural` (أنثى) `es-ES-LiaNeural` (أنثى) `es-ES-NilNeural` (ذكر) `es-ES-SaulNeural` (ذكر) `es-ES-TeoNeural` (ذكر) `es-ES-TrianaNeural` (أنثى) `es-ES-VeraNeural` (أنثى)
`es-MX`	الإسبانية (المكسيك)	`es-MX-JorgeNeural` (ذكر)
`fr-FR`	‏‏الفرنسية (فرنسا)	`fr-FR-HenriNeural` (ذكر)
`it-IT`	‏‏الإيطالية (إيطاليا)	`it-IT-IsabellaNeural` (أنثى)
`ja-JP`	‏‏اليابانية (اليابان)	`ja-JP-AoiNeural` (أنثى) `ja-JP-DaichiNeural` (ذكر) `ja-JP-MayuNeural` (أنثى) `ja-JP-NaokiNeural` (ذكر) `ja-JP-ShioriNeural` (أنثى)

إضافة دعم للنمط cheerful مع de-DE-ConradNeural الصوت.

إصدار فبراير 2023

أصوات TTS العصبية التي تم إنشاؤها مسبقا

الأصوات التالية متاحة الآن بشكل عام. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`zh-CN`	الصينية (الماندارين، المبسطة)	`zh-CN-XiaomengNeural` (أنثى) `zh-CN-XiaoyiNeural` (أنثى) `zh-CN-XiaozhenNeural` (أنثى) `zh-CN-YunfengNeural` (ذكر) `zh-CN-YunhaoNeural` (ذكر) `zh-CN-YunjianNeural` (ذكر) `zh-CN-YunxiaNeural` (ذكر) `zh-CN-YunzeNeural` (ذكر)
`zh-CN-henan`	الصينية (تشونغيوان ماندارين هينان، مبسطة)	`zh-CN-henan-YundengNeural` (ذكر)

إصدار ديسمبر 2022

Batch synthesis REST API (معاينة)

واجهة برمجة تطبيقات تجميع الدفعات حاليا في المعاينة العامة. بمجرد توفره بشكل عام، يتم إهمال Long Audio API. لمزيد من المعلومات، راجع الترحيل إلى واجهة برمجة تطبيقات تجميع الدفعات.

إصدار نوفمبر 2022

أصوات TTS العصبية التي تم إنشاؤها مسبقا (GA)

الأصوات التالية متاحة الآن بشكل عام. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`es-MX`	الإسبانية (المكسيك)	`es-MX-BeatrizNeural` (أنثى) `es-MX-CandelaNeural` (أنثى) `es-MX-CarlotaNeural` (أنثى) `es-MX-CecilioNeural` (ذكر) `es-MX-GerardoNeural` (ذكر) `es-MX-LarissaNeural` (أنثى) `es-MX-LibertoNeural` (ذكر) `es-MX-LucianoNeural` (ذكر) `es-MX-MarinaNeural` (أنثى) `es-MX-NuriaNeural` (أنثى) `es-MX-PelayoNeural` (ذكر) `es-MX-RenataNeural` (أنثى) `es-MX-YagoNeural` (ذكر)
`it-IT`	‏‏الإيطالية (إيطاليا)	`it-IT-BenignoNeural` (ذكر) `it-IT-CalimeroNeural` (ذكر) `it-IT-CataldoNeural` (ذكر) `it-IT-FabiolaNeural` (أنثى) `it-IT-FiammaNeural` (أنثى) `it-IT-GianniNeural` (ذكر) `it-IT-ImeldaNeural` (أنثى) `it-IT-IrmaNeural` (أنثى) `it-IT-LisandroNeural` (ذكر) `it-IT-PalmiraNeural` (أنثى) `it-IT-PierinaNeural` (أنثى) `it-IT-RinaldoNeural` (ذكر)
`pt-BR`	البرتغالية (البرازيل)	`pt-BR-BrendaNeural` (أنثى) `pt-BR-DonatoNeural` (ذكر) `pt-BR-ElzaNeural` (أنثى) `pt-BR-FabioNeural` (ذكر) `pt-BR-GiovannaNeural` (أنثى) `pt-BR-HumbertoNeural` (ذكر) `pt-BR-JulioNeural` (ذكر) `pt-BR-LeilaNeural` (أنثى) `pt-BR-LeticiaNeural` (أنثى) `pt-BR-ManuelaNeural` (أنثى) `pt-BR-NicolauNeural` (ذكر) `pt-BR-ValerioNeural` (ذكر) `pt-BR-YaraNeural` (أنثى)

الصوت العصبي المخصص

تتم إضافة دعم اللغة التالية للصوت العصبي المخصص. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

تمت إضافة دعم للإعدادات fr-BE المحلية باستخدام الصوت العصبي المخصص Pro.
دعم إضافي للإعدادات es-ES المحلية مع lite صوت عصبي مخصص.

إصدار أكتوبر 2022

أصوات TTS العصبية التي تم إنشاؤها مسبقا (GA)

الأصوات التالية متاحة الآن بشكل عام. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`eu-ES`	الباسكية	`eu-ES-AinhoaNeural` (أنثى) `eu-ES-AnderNeural` (ذكر)
`hy-AM`	‏‏الأرمينية (أرمينيا)	`hy-AM-AnahitNeural` (أنثى) `hy-AM-HaykNeural` (ذكر)

أصوات TTS العصبية التي تم إنشاؤها مسبقا (معاينة)

تتوفر الأصوات التالية الآن في المعاينة العامة. راجع اللغة الكاملة والقائمة الصوتية لمزيد من المعلومات.

إعدادات محلية (BCP-47)	اللغة	أصوات تحويل النص إلى كلام
`en-AU`	الإنجليزية (أستراليا)	`en-AU-AnnetteNeural`(أنثى) `en-AU-CarlyNeural`(أنثى) `en-AU-DarrenNeural`(ذكر) `en-AU-DuncanNeural`(ذكر) `en-AU-ElsieNeural`(أنثى) `en-AU-FreyaNeural`(أنثى) `en-AU-JoanneNeural`(أنثى) `en-AU-KenNeural`(ذكر) `en-AU-KimNeural`(أنثى) `en-AU-NeilNeural`(ذكر) `en-AU-TimNeural`(ذكر) `en-AU-TinaNeural`(أنثى)
`es-ES`	الأسبانية (إسبانيا)	`es-ES-AbrilNeural`(أنثى) `es-ES-AlvaroNeural`(ذكر) `es-ES-ArnauNeural`(ذكر) `es-ES-DarioNeural`(ذكر) `es-ES-EliasNeural`(ذكر) `es-ES-EstrellaNeural`(أنثى) `es-ES-IreneNeural`(أنثى) `es-ES-LaiaNeural`(أنثى) `es-ES-LiaNeural`(أنثى) `es-ES-NilNeural`(ذكر) `es-ES-SaulNeural`(ذكر) `es-ES-TeoNeural`(ذكر) `es-ES-TrianaNeural`(أنثى) `es-ES-VeraNeural`(أنثى)
`ja-JP`	‏‏اليابانية (اليابان)	`ja-JP-AoiNeural`(أنثى) `ja-JP-DaichiNeural`(ذكر) `ja-JP-MayuNeural`(أنثى) `ja-JP-NaokiNeural`(ذكر) `ja-JP-ShioriNeural`(أنثى)
`ko-KR`	‏‏الكورية (كوريا)	`ko-KR-BongJinNeural`(ذكر) `ko-KR-GookMinNeural`(ذكر) `ko-KR-JiMinNeural`(أنثى) `ko-KR-SeoHyeonNeural`(أنثى) `ko-KR-SoonBokNeural`(أنثى) `ko-KR-YuJinNeural`(أنثى)
`wuu-CN`	الصينية (الوو، مبسطة)	`wuu-CN-XiaotongNeural` (أنثى) `wuu-CN-YunzheNeural` (ذكر)
`yue-CN`	الصينية (الكانتونية، المبسطة)	`yue-CN-XiaoMinNeural` (أنثى) `yue-CN-YunSongNeural` (ذكر)

التحديثات الصوتية العامة ل TTS

تحسين الجودة للأصوات fil-PH-AngeloNeural و fil-PH-BlessicaNeural .
يتم تحديث قواعد تطبيع النص للأصوات باستخدام es-CL الإعدادات المحلية الإسبانية (شيلي) والأوزبكية uz-UZ (أوزبكستان).
إضافة رسائل إنجليزية مكتوبة للأصوات مع sq-AL اللغات الألبانية (ألبانيا) والأذربيجانية az-AZ (أذربيجان).
تحسين نطق اللغة الإنجليزية للصوت zh-HK-WanLungNeural .
تحسين نغمة السؤال للأصوات nl-NL-MaartenNeural و pt-BR-AntonioNeural .
دعم إضافي للعلامة <lang ="en-US"> للحصول على نطق أفضل للغة الإنجليزية مع الأصوات التالية: de-DE-ConradNeuralو.it-IT-IsabellaNeuralde-DE-KatjaNeurales-ES-AlvaroNeurales-MX-DaliaNeurales-MX-JorgeNeuralfr-CA-SylvieNeuralfr-FR-DeniseNeuralfr-FR-HenriNeuralit-IT-DiegoNeural
دعم إضافي للعلامة style="chat" مع الأصوات التالية: en-GB-RyanNeuralو es-MX-JorgeNeuralو it-IT-IsabellaNeural.
دعم إضافي للعلامة style="cheerful" بالأصوات التالية: en-GB-RyanNeuralوen-GB-SoniaNeurales-MX-JorgeNeuralfr-FR-DeniseNeuralfr-FR-HenriNeural.it-IT-IsabellaNeural
دعم إضافي للعلامة style="sad" مع الأصوات التالية: en-GB-SoniaNeuralو fr-FR-DeniseNeuralfr-FR-HenriNeural.

إصدار سبتمبر 2022

صوت TTS العصبية التي تم إنشاؤها مسبقاً

تمت ترقية جميع الأصوات العصبية التي تم إنشاؤها مسبقا إلى أصوات عالية الدقة بمعدل عينة 48 كيلوهرتز.

إصدار أغسطس 2022

صوت TTS العصبية التي تم إنشاؤها مسبقاً

إصدار أصوات جديدة في المعاينة العامة:

أصوات للغة الإنجليزية (الولايات المتحدة): en-US-AIGenerate1Neural و en-US-AIGenerate2Neural.
أصوات للغات الإقليمية الصينية: zh-CN-henan-YundengNeuralو zh-CN-shaanxi-XiaoniNeuralو.zh-CN-shandong-YunxiangNeural

لمزيد من المعلومات، راجع القائمة الصوتية واللغة.

إصدار يوليو 2022

صوت TTS العصبية التي تم إنشاؤها مسبقاً

تمت إضافة 5 أصوات جديدة من zh-CN الصينية (الماندارين، المبسطة) وصوت جديد واحد للغة en-US الإنجليزية (الولايات المتحدة) في المعاينة العامة. راجع اللغة الكاملة وقائمة الأصوات.

اللغة	اللغة المحلية	النوع	اسم الصوت	دعم النمط
الصينية (الماندارين، المبسطة)	`zh-CN`	أنثى	`zh-CN-XiaomengNeural`^جديد	عام، أنماط متعددة متوفرة باستخدام SSML
الصينية (الماندارين، المبسطة)	`zh-CN`	أنثى	`zh-CN-XiaoyiNeural`^جديد	عام، أنماط متعددة متوفرة باستخدام SSML
الصينية (الماندارين، المبسطة)	`zh-CN`	أنثى	`zh-CN-XiaozhenNeural`^جديد	عام، أنماط متعددة متوفرة باستخدام SSML
الصينية (الماندارين، المبسطة)	`zh-CN`	ذكر	`zh-CN-YunxiaNeural`^جديد	عام، أنماط متعددة متوفرة باستخدام SSML
الصينية (الماندارين، المبسطة)	`zh-CN`	ذكر	`zh-CN-YunzeNeural`^جديد	عام، أنماط متعددة متوفرة باستخدام SSML
الإنجليزية (الولايات المتحدة)	`en-US`	ذكر	`en-US-RogerNeural`^جديد	عام

الأنماط والأدوار المدعومة للأصوات العصبية المضافة.

الصوت	أنماط	درجة النمط	الأدوار
^{إصدار أولي للاستخدام العام} ل zh-CN-XiaomengNeural	`chat`	مدعوم
^{إصدار أولي للاستخدام العام} لـ zh-CN-XiaoyiNeural	`affectionate`، ، `cheerfulangry`، `disgruntled`، `embarrassed`، `fearful`، `gentle`، ، `sad`،`serious`	مدعوم
^{إصدار أولي للاستخدام العام} لـ zh-CN-XiaozhenNeural	`angry`، `cheerful`، `disgruntled`، `fearful`، ، `sadserious`	مدعوم
^{إصدار أولي للاستخدام العام} لـ zh-CN-YunxiaNeural	`angry`، `calm`، `cheerful`، ، `fearfulsad`	مدعوم
^{إصدار أولي للاستخدام العام} لـ zh-CN-YunzeNeural	`angry`، ، `cheerfulcalm`، `depressed`، `disgruntled`، `documentary-narration`، `fearful`، ، `sad`،`serious`	مدعوم	مدعوم

الحصول على موضع الوجه باستخدام viseme

دعم إضافي لمزج الأشكال لدفع حركات الوجه لشخصية ثلاثية الأبعاد قمت بتصميمها. تعرف على المزيد حول كيفية الحصول على موضع الوجه باستخدام viseme.
تم تحديث SSML لدعم عنصر viseme. راجع علامات تركيب الكلام.

إصدار يونيو 2022

صوت TTS العصبية التي تم إنشاؤها مسبقاً

تمت إضافة 9 لغات ومتغيرات جديدة للنص العصبي إلى كلام:

اللغة	اللغة المحلية	النوع	اسم الصوت	دعم النمط
‏‏العربية (لبنان)	`ar-LB`	أنثى	`ar-LB-LaylaNeural`^جديد	عام
‏‏العربية (لبنان)	`ar-LB`	ذكر	`ar-LB-RamiNeural`^جديد	عام
العربية (عمان)	`ar-OM`	أنثى	`ar-OM-AyshaNeural`^جديد	عام
العربية (عمان)	`ar-OM`	ذكر	`ar-OM-AbdullahNeural`^جديد	عام
الأذربيجانية (أذربيجان)	`az-AZ`	أنثى	`az-AZ-BabekNeural`^جديد	عام
الأذربيجانية (أذربيجان)	`az-AZ`	ذكر	`az-AZ-BanuNeural`^جديد	عام
البوسنية (البوسنة والهرسك)	`bs-BA`	أنثى	`bs-BA-VesnaNeural`^جديد	عام
البوسنية (البوسنة والهرسك)	`bs-BA`	ذكر	`bs-BA-GoranNeural`^جديد	عام
‏‏الجورجية (جورجيا)	`ka-GE`	أنثى	`ka-GE-EkaNeural`^جديد	عام
‏‏الجورجية (جورجيا)	`ka-GE`	ذكر	`ka-GE-GiorgiNeural`^جديد	عام
المنغولية (منغوليا)	`mn-MN`	أنثى	`mn-MN-YesuiNeural`^جديد	عام
المنغولية (منغوليا)	`mn-MN`	ذكر	`mn-MN-BataaNeural`^جديد	عام
‏‏النيبالية (نيبال)	`ne-NP`	أنثى	`ne-NP-HemkalaNeural`^جديد	عام
‏‏النيبالية (نيبال)	`ne-NP`	ذكر	`ne-NP-SagarNeural`^جديد	عام
‏‏الألبانية (ألبانيا)	`sq-AL`	أنثى	`sq-AL-AnilaNeural`^جديد	عام
‏‏الألبانية (ألبانيا)	`sq-AL`	ذكر	`sq-AL-IlirNeural`^جديد	عام
التاميلية (ماليزيا)	`ta-MY`	أنثى	`ta-MY-KaniNeural`^جديد	عام
التاميلية (ماليزيا)	`ta-MY`	ذكر	`ta-MY-SuryaNeural`^جديد	عام

أصوات GA 36 من المعاينة العامة للغة en-GB الإنجليزية (المملكة المتحدة) fr-FR والفرنسية (فرنسا) والألمانية de-DE (ألمانيا):

اللغة	اللغة المحلية	النوع	اسم الصوت	دعم النمط
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-AbbiNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-BellaNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-HollieNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-MaisieNeural`	عام، صوت طفل
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-OliviaNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-SoniaNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-AlfieNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-ElliotNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-EthanNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-NoahNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-OliverNeural`	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-ThomasNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-BrigitteNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-CelesteNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-CoralieNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-EloiseNeural`	عام، صوت طفل
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-JacquelineNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-JosephineNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-YvetteNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-AlainNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-ClaudeNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-JeromeNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-MauriceNeural`	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-YvesNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-AmalaNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-ElkeNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-GiselaNeural`	عام، صوت طفل
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-KlarissaNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-LouisaNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-MajaNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-TanjaNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-BerndNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-ChristophNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-KasperNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-KillianNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-KlausNeural`	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-RalfNeural`	عام

تمت إضافة 40 صوتاً جديداً من es-MX الإسبانية (المكسيك) والإيطالية it-IT (إيطاليا) pt-BR والبرتغالية (البرازيل) و2 لهجات للغة zh-CN الصينية (الماندارين، المبسطة) في المعاينة العامة:

اللغة	اللغة المحلية	النوع	اسم الصوت	دعم النمط
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-BeatrizNeural`^جديد	عام
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-CarlotaNeural`^جديد	عام
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-NuriaNeural`^جديد	عام
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-RenataNeural`^جديد	عام
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-LarissaNeural`^جديد	عام
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-CandelaNeural`^جديد	عام
الإسبانية (المكسيك)	`es-MX`	أنثى	`es-MX-MarinaNeural`^جديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	أنثى	`it-IT-FiammaNeural`^جديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	أنثى	`it-IT-IrmaNeural`^جديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	أنثى	`it-IT-FabiolaNeural`^جديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	أنثى	`it-IT-PalmiraNeural`^جديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	أنثى	`it-IT-ImeldaNeural`^جديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	أنثى	`it-IT-PierinaNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-ElzaNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-ManuelaNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-BrendaNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-LeilaNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-YaraNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-GiovannaNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	أنثى	`pt-BR-LeticiaNeural`^جديد	عام
الإسبانية (المكسيك)	`es-MX`	ذكر	`es-MX-CecilioNeural`^جديد	عام
الإسبانية (المكسيك)	`es-MX`	ذكر	`es-MX-LibertoNeural`^جديد	عام
الإسبانية (المكسيك)	`es-MX`	ذكر	`es-MX-LucianoNeural`^جديد	عام
الإسبانية (المكسيك)	`es-MX`	ذكر	`es-MX-PelayoNeural`^جديد	عام
الإسبانية (المكسيك)	`es-MX`	ذكر	`es-MX-YagoNeural`^جديد	عام
الإسبانية (المكسيك)	`es-MX`	ذكر	`es-MX-GerardoNeural`^جديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	ذكر	`it-IT-BenignoNeural`^جديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	ذكر	`it-IT-CataldoNeural`^جديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	ذكر	`it-IT-LisandroNeural`^جديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	ذكر	`it-IT-CalimeroNeural`^جديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	ذكر	`it-IT-RinaldoNeural`^جديد	عام
‏‏الإيطالية (إيطاليا)	`it-IT`	ذكر	`it-IT-GianniNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	ذكر	`pt-BR-DonatoNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	ذكر	`pt-BR-HumbertoNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	ذكر	`pt-BR-FabioNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	ذكر	`pt-BR-JulioNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	ذكر	`pt-BR-ValerioNeural`^جديد	عام
البرتغالية (البرازيل)	`pt-BR`	ذكر	`pt-BR-NicolauNeural`^جديد	عام
الصينية (الماندارين، المبسطة)	`zh-CN-sichuan`	ذكر	`zh-CN-sichuan-YunxiSichuanNeural`^جديد	عام، لهجة سيشوان
الصينية (الماندارين، المبسطة)	`zh-CN-liaoning`	أنثى	`zh-CN-liaoning-XiaobeiNeural`^جديد	عام، لهجة لياونينغ

تحسين الجودة لـ en-SG-LunaNeural وen-SG-WayneNeural
دعم إخراج 48 كيلوهرتز للمعاينة العامة مع en-US-JennyNeural وen-US-AriaNeural وzh-CN-XiaoxiaoNeural

الصوت العصبي المخصص

تم التمكين لإصلاح مشكلات البيانات عبر الإنترنت. تعرف على المزيد حول كيفية حل مشكلات البيانات في Speech Studio.
تمت إضافة إصدار وصفة التدريب. تعرف على المزيد بشأن تحديد إصدار وصفة التدريب لنموذج الصوت الخاص بك.

إنشاء أداة محتوى صوتي

ترقيم الصفحات المدعوم.
مُمكّن من الفرز بشكل عام حسب الاسم ونوع الملف ووقت التحديث في صفحة ملف العمل.

إصدار مايو 2022

صوت TTS العصبية التي تم إنشاؤها مسبقاً

تم إصدار 5 أصوات جديدة في المعاينة العامة بأساليب متعددة لإثراء التنوع في اللغة الإنجليزية الأمريكية. راجع اللغة الكاملة وقائمة الأصوات.
دعم هذه الأنماط الجديدة Angry وExcited وFriendly وHopeful وSad وShouting وUnfriendly وTerrified وWhispering في المعاينة العامة لـ en-US-AriaNeural.
دعم هذه الأنماط الجديدة Angry وCheerful وExcited وFriendly وHopeful وSad وShouting وUnfriendly وTerrified وWhispering في المعاينة العامة لـ en-US-GuyNeural، en-US-JennyNeural.
دعم هذه الأنماط الجديدة Excited وFriendly وHopeful وShouting وUnfriendly وTerrified وWhispering في المعاينة العامة لـ en-US-SaraNeural. راجع أنماط الصوت وأدواره.
إصدار أصوات zh-CN-YunjianNeuralجديدة وzh-CN-YunhaoNeuralو في zh-CN-YunfengNeural المعاينة العامة. راجع اللغة الكاملة وقائمة الأصوات.
دعم نمطين sports-commentaryجديدين، في المعاينة sports-commentary-excited العامة لـ zh-CN-YunjianNeural. راجع أنماط الصوت وأدواره.
دعم نمط advertisement-upbeat جديد 1 في المعاينة العامة لـ zh-CN-YunhaoNeural. راجع أنماط الصوت وأدواره.
يتوفر الأنماط cheerful وsad لـ fr-FR-DeniseNeural بشكل عام في جميع المناطق.
تم تحديث SSML لدعم عناصر MathML لأصوات en-US وen-AU. تعرف على المزيد في ترميز تركيب الكلام.

الصوت العصبي المخصص

مُمكّن من إلغاء التدريب أثناء تدريب النموذج الصوتي. تعرف على المزيد بشأن كيفية إلغاء التدريب.
تمكين استنساخ النموذج (إعادة تسمية النموذج الصوتي). تعرف على المزيد بشأن كيفية إعادة تسمية نموذجك الصوتي.
تم تمكينه لاختبار نموذجك الصوتي عن طريق إضافة البرنامج النصي للاختبار الخاص بك. تعرف على المزيد بشأن كيفية تحميل البرنامج النصي للاختبار.
تم تمكين تحديث إصدار المحرك لنموذج الصوت الخاص بك. تعرف على المزيد بشأن كيفية تحديث إصدار محرك النموذج.
دعم المزيد من مناطق التدريب. راجع دعم المنطقة.
10 إعدادات محلية معتمدة للنص الصوتي العصبي المخصص (معاينة). راجع دعم اللغة.

إنشاء أداة محتوى صوتي

تم التمكين لتجربة أداة إنشاء المحتوى الصوتي دون تسجيل الدخول.
تخطيط محسن لضبط الرسائل الهاتفية.
أداء محسّن: تم تحديد أقصى عدد (200) من الملفات ليتم تحميلها في وقت واحد.
أداء محسّن: تم تحديد الحد الأقصى لمستوى عمق الدليل (5 مستويات).

إصدار مارس 2022

صوت TTS العصبية التي تم إنشاؤها مسبقاً

تمت إضافة دعم في المعاينة Cheerful العامة للأنماط وSad باستخدام fr-FR-DeniseNeural. راجع أنماط الصوت وأدواره.
تم إصدار حاويات غير متصلة بأصوات TTS العصبية مسبقة الصنع في المعاينة العامة. راجع استخدام حاويات Docker في البيئات غير المتصلة.

الصوت العصبي المخصص

التحكم في الوصول المستند إلى الدور المدعوم. تعرف على المزيد بشأن التحكم في الوصول المستند إلى الدور في Azure في Speech Studio
نقاط النهاية الخاصة المدعومة ونقاط نهاية خدمة الشبكة الظاهرية. تعرف على المزيد بشأن كيفية استخدام نقاط النهاية الخاصة مع خدمة الكلام.

إنشاء أداة محتوى صوتي

تحديث حجم الملف وحدود التزامن لموارد الطبقة الحرة (F0) لجعل التجربة متسقة مع Speech SDK وواجهات برمجة التطبيقات. راجع حصص وحدود خدمة الكلام.

إصدار فبراير 2022

الصوت العصبي المخصص

إصدار lite صوت عصبي مخصص في المعاينة العامة. تعرف على المزيد حول ما هو مخصص لايت الصوت العصبي.
تمديد دعم اللغة إلى 49 لغة. راجع دعم اللغة.
دعم المزيد من المناطق/مراكز البيانات. راجع دعم المنطقة.

إنشاء أداة محتوى صوتي

تمت إزالة حد طول الإخراج لتنزيل الصوتيات.

إصدار يناير 2022

لغات وأصوات جديدة

تمت إضافة 10 لغات ومتغيرات جديدة للنص العصبي إلى كلام:

اللغة	اللغة المحلية	النوع	اسم الصوت	دعم النمط
البنغالية (الهند)	`bn-IN`	أنثى	`bn-IN-TanishaaNeural`^جديد	عام
البنغالية (الهند)	`bn-IN`	ذكر	`bn-IN-BashkarNeural`^جديد	عام
‏‏الأيسلندية (أيسلندا)	`is-IS`	أنثى	`is-IS-GudrunNeural`^جديد	عام
‏‏الأيسلندية (أيسلندا)	`is-IS`	ذكر	`is-IS-GunnarNeural`^جديد	عام
‏‏الكانادية (الهند)	`kn-IN`	أنثى	`kn-IN-SapnaNeural`^جديد	عام
‏‏الكانادية (الهند)	`kn-IN`	ذكر	`kn-IN-GaganNeural`^جديد	عام
‏‏الكازخستانية (كازاخستان)	`kk-KZ`	أنثى	`kk-KZ-AigulNeural`^جديد	عام
‏‏الكازخستانية (كازاخستان)	`kk-KZ`	ذكر	`kk-KZ-DauletNeural`^جديد	عام
لاو (لاوس)	`lo-LA`	أنثى	`lo-LA-KeomanyNeural`^جديد	عام
لاو (لاوس)	`lo-LA`	ذكر	`lo-LA-ChanthavongNeural`^جديد	عام
المقدونية (جمهورية مقدونيا الشمالية)	`mk-MK`	أنثى	`mk-MK-MarijaNeural`^جديد	عام
المقدونية (جمهورية مقدونيا الشمالية)	`mk-MK`	ذكر	`mk-MK-AleksandarNeural`^جديد	عام
‏‏المالايالامية (الهند)	`ml-IN`	أنثى	`ml-IN-SobhanaNeural`^جديد	عام
‏‏المالايالامية (الهند)	`ml-IN`	ذكر	`ml-IN-MidhunNeural`^جديد	عام
‏‏البشتونية (أفغانستان)	`ps-AF`	أنثى	`ps-AF-LatifaNeural`^جديد	عام
‏‏البشتونية (أفغانستان)	`ps-AF`	ذكر	`ps-AF-GulNawazNeural`^جديد	عام
الصربية (صربيا، السيريلية)	`sr-RS`	أنثى	`sr-RS-SophieNeural`^جديد	عام
الصربية (صربيا، السيريلية)	`sr-RS`	ذكر	`sr-RS-NicholasNeural`^جديد	عام
‏‏السنهالية (سريلانكا)	`si-LK`	أنثى	`si-LK-ThiliniNeural`^جديد	عام
‏‏السنهالية (سريلانكا)	`si-LK`	ذكر	`si-LK-SameeraNeural`^جديد	عام

للحصول على القائمة الكاملة للأصوات المتوفرة، راجع دعم اللغة.

أصوات جديدة في المعاينة

تمت إضافة أصوات جديدة لمعاينة en-GB وfr-FR وde-DE:

اللغة	اللغة المحلية	النوع	اسم الصوت	دعم النمط
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-AbbiNeural`^جديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-BellaNeural`^جديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-HollieNeural`^جديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	أنثى	`en-GB-OliviaNeural`^جديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	فتاه	`en-GB-MaisieNeural`^جديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-AlfieNeural`^جديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-ElliotNeural`^جديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-EthanNeural`^جديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-NoahNeural`^جديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-OliverNeural`^جديد	عام
الإنجليزية (المملكة المتحدة)	`en-GB`	ذكر	`en-GB-ThomasNeural`^جديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-BrigitteNeural`^جديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-CelesteNeural`^جديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-CoralieNeural`^جديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-JacquelineNeural`^جديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-JosephineNeural`^جديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	أنثى	`fr-FR-YvetteNeural`^جديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	فتاه	`fr-FR-EloiseNeural`^جديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-AlainNeural`^جديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-ClaudeNeural`^جديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-JeromeNeural`^جديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-MauriceNeural`^جديد	عام
‏‏الفرنسية (فرنسا)	`fr-FR`	ذكر	`fr-FR-YvesNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-AmalaNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-ElkeNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-KlarissaNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-LouisaNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-MajaNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	أنثى	`de-DE-TanjaNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	فتاه	`de-DE-GiselaNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-BerndNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-ChristophNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-KasperNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-KillianNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-KlausNeural`^جديد	عام
‏‏الألمانية (ألمانيا)	`de-DE`	ذكر	`de-DE-RalfNeural`^جديد	عام

للحصول على القائمة الكاملة للأصوات المتوفرة، راجع دعم اللغة.

دقة النطق

تحسين نطق الكلمة الإنجليزية لجميع الأصوات he-IL.
تحسين دقة النطق على مستوى الكلمات لـ cs-CZ وda-DK.
علامات التشكيل العربية المحسنة والتعامل مع العبرية نيكود.
تحسين قراءة الكيان لـ ja-JP

Speech Studio

الصوت العصبي المخصص: تمكين اختبار نموذج إضافي باستخدام واجهة برمجة تطبيقات الدفعة (واجهة برمجة تطبيقات الصوت الطويلة)
إنشاء محتوى الصوت: تمكين المزيد من تنسيقات الإخراج

إصدار أكتوبر 2021

لغات وأصوات جديدة

تمت إضافة 49 لغة جديدة و98 صوتا للنص العصبي إلى الكلام:

الأدري في af-ZA الأفريكانية (جنوب أفريقيا)، وليم في af-ZA الأفريكانية (جنوب أفريقيا)، مكديس في am-ET الأمهرية (إثيوبيا)، أمها في am-ET الأمهرية (إثيوبيا)، فاطمة باللغة ar-AE العربية (الإمارات العربية المتحدة)، حمدان بالعربية ar-AE (الإمارات العربية المتحدة)، ليلى بالعربية ar-BH (البحرين)، علي بالعربية ar-BH (البحرين)، أمينة بالعربية ar-DZ (الجزائر)، اسماعيل بالعربية ar-DZ (الجزائر)، رنا بالعربية ar-IQ (العراق)، باسل باللغة ar-IQ العربية (العراق)، صنعاء باللغة ar-JO العربية (الأردن)، تيم باللغة ar-JO العربية (الأردن)، نورا باللغة ar-KW العربية (الكويت)، فهد باللغة ar-KW العربية (الكويت)، إيمان باللغة ar-LY العربية (ليبيا)، عمر باللغة ar-LY العربية (ليبيا)، منى ar-MA باللغة العربية (المغرب)، جمال باللغة ar-MA العربية (المغرب)، أمل باللغة ar-QA العربية (قطر)، معاز باللغة ar-QA العربية (قطر)، أماني باللغة ar-SY العربية (سوريا)، الليث باللغة ar-SY العربية (سوريا)، ريم باللغة ar-TN العربية (تونس)، هيدي باللغة ar-TN العربية (تونس)، مريم باللغة ar-YE العربية (اليمن)، صالح باللغة ar-YE العربية (اليمن)، نابانيتا في bn-BD بنغالا (بنغلاديش)، براديب في bn-BD بنغالا (بنغلاديش)، أسيليا باللغة en-KE الإنجليزية (كينيا)، تشيليمبا باللغة en-KE الإنجليزية (كينيا)، إزنين باللغة en-NG الإنجليزية (نيجيريا)، أبيو باللغة en-NG الإنجليزية (نيجيريا)، إيماني باللغة en-TZ الإنجليزية (تنزانيا)، إليمو باللغة en-TZ الإنجليزية (تنزانيا)، صوفيا باللغة es-BO الإسبانية (بوليفيا)، مارسيلو باللغة es-BO الإسبانية (بوليفيا)، كاتالينا باللغة es-CL الإسبانية (شيلي)، لورينزو باللغة es-CL الإسبانية (تشيلي)، ماريا في es-CR الإسبانية (كوستاريكا)، خوان باللغة es-CR الإسبانية (كوستاريكا)، بلقاس باللغة es-CU الإسبانية (كوبا)، مانويل باللغة es-CU الإسبانية (كوبا)، رامونا باللغة es-DO الإسبانية (جمهورية الدومينيكان)، إميليو باللغة es-DO الإسبانية (جمهورية الدومينيكان)، أندريا باللغة es-EC الإسبانية (إكوادور)، لويس باللغة es-EC الإسبانية (إكوادور)، تيريزا باللغة es-GQ الإسبانية (غينيا الاستوائية)، خافيير باللغة es-GQ الإسبانية (غينيا الاستوائية)، مارتا باللغة es-GT الإسبانية (غواتيمالا)، أندريس باللغة es-GT الإسبانية (غواتيمالا)، كارلا في es-HN الإسبانية (هندوراس)، كارلوس باللغة es-HN الإسبانية (هندوراس)، يولاندا باللغة es-NI الإسبانية (نيكاراغوا)، فيديريكو باللغة es-NI الإسبانية (نيكاراغوا)، مارغريتا باللغة es-PA الإسبانية (بنما)، روبرتو باللغة es-PA الإسبانية (بنما)، كاميلا باللغة es-PE الإسبانية (بيرو)، أليكس باللغة es-PE الإسبانية (بيرو)، كارينا باللغة es-PR الإسبانية (بورتوريكو)، فيكتور باللغة es-PR الإسبانية (بورتوريكو)، تانيا باللغة es-PY الإسبانية (باراغواي)، ماريو باللغة es-PY الإسبانية (باراغواي)، لورينا باللغة es-SV الإسبانية (السلفادور)، رودريغو في es-SV الأسبانية (السلفادور)، فالنتينا باللغة es-UY الإسبانية (أوروغواي)، ماتيو باللغة es-UY الإسبانية (أوروغواي)، باولا باللغة es-VE الإسبانية (فنزويلا)، سيباستيان باللغة es-VE الإسبانية (فنزويلا)، ديلارا باللغة fa-IR الفارسية (إيران)، فريد باللغة fa-IR الفارسية (إيران)، بركاتيكا في fil-PH الفلبين (الفلبين)، أنجيلو في fil-PH الفلبين (الفلبين)، سابيلا في gl-ES غاليسيا، روي في gl-ES غاليسيا، سيتي في jv-ID Javanese (إندونيسيا)، ديماس في jv-ID Javanese (إندونيسيا)، سريمام في km-KH الخمير (كمبوديا)، بيسيث في km-KH الخمير (كمبوديا)، نيلار في my-MM البورمية (ميانمار)، ثيها في my-MM البورمية (ميانمار)، أوباكس في so-SO الصومال (الصومال)، موسي في so-SO الصومال (الصومال)، توتي في su-ID سوندانسي (إندونيسيا)، جاجانج في su-ID الصندانسية (إندونيسيا)، ريهيما في sw-TZ السواحلية (تنزانيا) )، دودي في sw-TZ السواحلية (تنزانيا)، سارانيا في ta-LK التاميلية (سري لانكا)، كومار في ta-LK التاميلية (سري لانكا)، فنبا في ta-SG التاميلية (سنغافورة)، أنبو في ta-SG التاميلية (سنغافورة)، غول في ur-IN الأوردية (الهند)، سلمان في ur-IN الأوردية (الهند)، مادينا في uz-UZ الأوزبكية (أوزبكستان)، ساردور في uz-UZ الأوزبكية (أوزبكستان)، ثاندو في zu-ZA الزولو (جنوب أفريقيا)، ثيبا في zu-ZA الزولو (جنوب أفريقيا).

إصدار سبتمبر 2021

صوت روبوت دردشة جديد في en-US الإنجليزية (الولايات المتحدة): تمثل سارة امرأة شابة بالغة تتحدث بشكل عارض أكثر وتناسب سيناريوهات روبوت الدردشة بشكل أفضل.
تمت إضافة أنماط جديدة لـ ja-JP صوت نانامي الياباني: تتوفر الآن ثلاثة أنماط جديدة مع Nanami: الدردشة وخدمة العملاء والبهجة.
تحسين النطق الكلي: Ardi في id-ID، Premwadee في th-TH، كريستيل في da-DK، HoaiMy وNmMinh في vi-VN.
صوتان جديدان باللغة zh-CN الصينية (الماندارين، الصين) في المعاينة: Xiaochen و Xiaoyan، محسنان لسيناريوهات الكلام التلقائي وخدمة العملاء.

إصدار يوليو 2021

النص العصبي لتحديثات الكلام

تم تقليل أخطاء النطق في العبرية بنسبة 20٪.

تحديثات Speech Studio

الصوت العصبي المخصص: تم تحديث مسار التدريب إلى UniTTSv3 الذي يتم من خلاله تحسين جودة النموذج بينما يتم تقليل وقت التدريب بنسبة 50٪ للنماذج الصوتية.
إنشاء محتوى الصوت: تم إصلاح مشكلة الأداء "تصدير" والخطأ في تحديد الصوت العصبي المخصص.

إصدار يونيو 2021

تحديثات Speech Studio

الصوت العصبي المخصص: تم توسيع التدريب الصوتي العصبي المخصص لدعم جنوب شرق آسيا. الميزات الجديدة التي تم إصدارها لدعم التحقق من حالة تحميل البيانات.
إنشاء محتوى الصوت: تم إصدار ميزة جديدة لدعم المعجم المخصص. باستخدام هذه الميزة، يمكن للمستخدمين بسهولة إنشاء ملفات المعجم الخاصة بهم وتحديد النطق المخصص لإخراج الصوت الخاص بهم.

إصدار مايو 2021

اللغات والأصوات الجديدة المضافة لـ TTS العصبية

عشر لغات جديدة مقدمة - تتم إضافة 20 صوتاً جديداً في 10 لغات جديدة إلى قائمة اللغات العصبية TTS: Yan باللغة en-HK الإنجليزية (هونغ كونغ)، سام باللغة en-HK الإنجليزية (هونغ كونغ)، مولي باللغة en-NZ الإنجليزية (نيوزيلندا)، ميتشل باللغة en-NZ الإنجليزية (نيوزيلندا)، لونا باللغة en-SG الإنجليزية (سنغافورة)، واين باللغة en-SG الإنجليزية (سنغافورة)، ليا باللغة en-ZA الإنجليزية (جنوب أفريقيا)، لوك باللغة en-ZA الإنجليزية (جنوب أفريقيا)، دواني في gu-IN الغوجاراتي (الهند)، نيرانجان في gu-IN الغواجاراتي (الهند)، آروهي في mr-IN ماراتيهي (الهند)، مانهار في mr-IN ماراتيهي (الهند)، إيلينا باللغة es-AR الإسبانية (الأرجنتين)، توماس باللغة es-AR الإسبانية (الأرجنتين)، سالومي باللغة es-CO الإسبانية (كولومبيا)، غونزالو باللغة es-CO الإسبانية (كولومبيا)، بالوما باللغة es-US الإسبانية (الولايات المتحدة)، ألونسو في es-US الإسبانية (الولايات المتحدة)، زري باللغة sw-KE السواحيلية (كينيا)، رفيكي باللغة sw-KE السواحيلية (كينيا).
أحد عشر صوتاً جديداً في الولايات المتحدة في المعاينة - تتم إضافة 11 صوتاً جديداً في الولايات المتحدة في المعاينة إلى الإنجليزية الأمريكية، وهي آشلي، أمبر، آنا، براندون، كريستوفر، كورا، إليزابيث، إريك، ميشيل، مونيكا، يعقوب.
خمسه zh-CN أصوات صينية (الماندارين، المبسطة) متاحة بشكل عام - يتم تغيير 5 أصوات صينية (الماندارين، المبسطة) من المعاينة إلى متوفرة بشكل عام. وهم يونكسي، شياومو، شياومان، شياوشوان، شياوروي. الآن، هذه الأصوات متاحة في جميع المناطق. تتم إضافة Yunxi بنمط "مساعد" جديد، وهو مناسب لروبوت الدردشة وعامل الصوت. يتم تحسين أنماط الصوت في Xiaomo لتكون أكثر طبيعية وأكثر تميزاً.

إصدار أبريل 2021

يتوفر النص العصبي إلى كلام عبر 21 منطقة

12 منطقة جديدة تمت إضافتها - النص العصبي إلى الكلام متاح الآن في هذه المناطق ال 12 الجديدة: Japan East، ، Korea CentralJapan West، North Central US، North EuropeSouth Central US، Southeast Asia، UK South، ، west Central US، West Europe، West US. West US 2 تحقق هنا للحصول على قائمة كاملة من 21 منطقة مدعومة.

إصدار مارس 2021

اللغات والأصوات الجديدة المضافة لـ TTS العصبية

ست لغات جديدة تم تقديمها - تتم إضافة 12 صوتا جديدا في 6 لغات جديدة إلى قائمة اللغات العصبية TTS: نيا في cy-GB الويلزية (المملكة المتحدة)، ألد في cy-GB الويلزية (المملكة المتحدة)، روزا باللغة en-PH الإنجليزية (الفلبين)، جيمس باللغة en-PH الإنجليزية (الفلبين)، شارلين باللغة fr-BE الفرنسية (بلجيكا)، جيرارد باللغة fr-BE الفرنسية (بلجيكا)، دينا باللغة nl-BE الهولندية (بلجيكا)، أرنو باللغة nl-BE الهولندية (بلجيكا)، بولينا باللغة uk-UA الأوكرانية (أوكرانيا)، أوستاب في uk-UA أوكرانيا (أوكرانيا)، أوزما في ur-PK الأوردية (باكستان)، أساد في ur-PK الأوردية (باكستان).
خمس لغات من المعاينة إلى GA - 10 أصوات في 5 لغات تم تقديمها في نوفمبر هي الآن GA: Kert في et-EE الإستونية (إستونيا)، كولم في ga-IE الأيرلندية (أيرلندا)، نيلز في lv-LV لاتفيا (لاتفيا)، ليونا في lt-LT الليتوانية (ليتوانيا)، جوزيف في mt-MT المالطية (مالطا).
صوت ذكر جديد تمت إضافته للفرنسية (كندا) - يتوفر صوت جديد أنطوان للفرنسية fr-CA (كندا).
تحسين الجودة - انخفاض معدل خطأ النطق على hu-HU المجرية - 48.17٪، nb-NO النرويجية - 52.76٪، nl-NL الهولندية (هولندا) - 22.11٪.

مع هذا الإصدار، ندعم الآن ما مجموعه 142 صوتاً عصبياً عبر 60 لغة / منطقة محلية. بالإضافة إلى ذلك، يتوفر أكثر من 70 صوتاً قياسياً في 49 لغة/لغة. تفضل بزيارة دعم اللغة للحصول على القائمة الكاملة.

الحصول على أحداث وضع الوجه لتحريك الأحرف

يتضمن النص العصبي إلى الكلام الآن حدث viseme. تسمح أحداث Viseme للمستخدمين بالحصول على سلسلة من أوضاع الوجه جنباً إلى جنب مع الكلام الذي تم تركيبه. يمكن استخدام Visemes للتحكم في حركة نماذج الأفاتار ثلاثية الأبعاد و2D، ومطابقة حركات الفم مع الكلام المجمع. تتوفر أحداث Viseme للصوت en-US-AriaNeural فقط في الوقت الحالي.

إضافة عنصر الإشارة المرجعية في لغة ترميز تركيب الكلام (SSML)

يسمح لك عنصر الإشارة المرجعية بإدراج علامات مخصصة في SSML للحصول على إزاحة كل علامة في دفق الصوت. يمكن استخدامه للإشارة إلى موقع معين في تسلسل النص أو العلامة.

إصدار فبراير 2021

التوفر العام للصوت العصبي المخصص

الصوت العصبي المخصص هو GA في فبراير ب 13 لغة: الصينية (الماندارين، المبسطة)، الإنجليزية (أستراليا)، الإنجليزية (الهند)، الإنجليزية (المملكة المتحدة)، الإنجليزية (الولايات المتحدة)، الفرنسية (كندا)، الفرنسية (فرنسا)، الألمانية (ألمانيا)، الإيطالية (إيطاليا)، اليابانية (اليابان)، الكورية (كوريا)، البرتغالية (البرازيل)، الإسبانية (المكسيك)، والإسبانية (إسبانيا). تعرف على المزيد حول ما هو الصوت العصبي المخصص وكيفية استخدامه بمسؤولية. تتطلب الميزة الصوتية العصبية المخصصة التسجيل وقد تحد Microsoft من الوصول استنادا إلى معايير الأهلية من Microsoft. تعرف على المزيد بشأن الوصول المحدود.

إصدار ديسمبر 2020

أصوات عصبية جديدة في التوافر العام والمعاينة

تم إصدار 51 صوتاً جديداً لما مجموعه 129 صوتاً عصبياً عبر 54 لغة / منطقة محلية:

46 صوتا جديدا في لغات الجمعية العامة: شاكر باللغة ar-EG العربية (مصر)، حامد باللغة ar-SA العربية (المملكة العربية السعودية)، بوريسلاف باللغة bg-BG البلغارية (بلغاريا)، جوانا في ca-ES كاتالان، أنتونين في cs-CZ التشيك (الجمهورية التشيكية)، جيبي باللغة da-DK الدنماركية (الدنمارك)، جوناس باللغة de-AT الألمانية (النمسا)، يناير باللغة de-CH الألمانية (سويسرا)، نستوراس في el-GR اليونانية (اليونان)، ليام باللغة en-CA الإنجليزية (كندا)، كونور باللغة en-IE الإنجليزية (أيرلندا)، مادور باللغة en-IN الهندية (الهند)، موهان في en-IN التيلوج (الهند)، Prabhat باللغة en-IN الإنجليزية (الهند)، فالوفار باللغة en-IN التاميلية (الهند)، إنريك باللغة es-ES الكتالونية، كيرت باللغة et-EE الإستونية (إستونيا)، هاري باللغة fi-FI الفنلندية (فنلندا)، سلمى باللغة fi-FI الفنلندية (فنلندا)، فابريس باللغة fr-CH الفرنسية (سويسرا)، كولم باللغة ga-IE الأيرلندية (أيرلندا)، أفري باللغة he-IL العبرية (إسرائيل)، ريبكو باللغة hr-HR الكرواتية (كرواتيا)، تاماز باللغة hu-HU المجرية (المجر)، غادي باللغة id-ID الإندونيسية (إندونيسيا)، ليونا في lt-LT الليتوانية (ليتوانيا)، نيلز في lv-LV اللاتفية (لاتفيا)، عثمان في ms-MY الماليزية (ماليزيا)، يوسف في mt-MT المالطية (مالطا)، فين nb-NO باللغة النرويجية، بوكمال (النرويج)، برينيل باللغة nb-NO النرويجية، بوكمال (النرويج)، فينا باللغة nl-NL الهولندية (هولندا)، مارتن باللغة nl-NL الهولندية (هولندا)، أغنيزسكا باللغة pl-PL البولندية (بولندا)، ماريك باللغة pl-PL البولندية (بولندا)، دوارتي باللغة pt-BR البرتغالية (البرازيل)، راكيل باللغة pt-PT البرتغالية (بوتغال)، إميل باللغة ro-RO الرومانية (رومانيا)، ديمتري بالروسية ru-RU (روسيا)، سفيتلانا في ru-RU الروسية (روسيا)، لوكاس في sk-SK السلوفاكية (سلوفاكيا)، روك باللغة sl-SI السلوفينية (سلوفينيا)، ماتياس باللغة sv-SE السويدية (السويد)، صوفيا باللغة sv-SE السويدية (السويد)، نيوات باللغة th-TH التايلاندية (تايلاند)، أحمد باللغة tr-TR التركية (توركي)، نامينه باللغة vi-VN الفيتنامية (فيتنام)، HsiaoChen في zh-TW الماندارين التايوانية (تايوان)، يون جيه في zh-TW الماندارين التايوانية (تايوان)، هيومان في zh-HK الكانتونية الصينية (منطقة هونغ كونغ الخاصة مسؤول istrative)، وانلونغ في zh-HK الكانتونية الصينية (هونغ كونغ SAR).
5 أصوات جديدة في معاينات محلية: Kert في et-EE الإستونية (إستونيا)، كولم في ga-IE الأيرلندية (أيرلندا)، نايلس في lv-LV لاتفيا (لاتفيا)، ليونا في lt-LT الليتوانية (ليتوانيا)، جوزيف في mt-MT المالطية (مالطا).

مع هذا الإصدار، ندعم الآن ما مجموعه 129 صوتاً عصبياً عبر 54 لغة / منطقة محلية. بالإضافة إلى ذلك، يتوفر أكثر من 70 صوتاً قياسياً في 49 لغة/لغة. تفضل بزيارة دعم اللغة للحصول على القائمة الكاملة.

التحديثات لإنشاء محتوى الصوت

تحسين واجهة المستخدم لاختيار الصوت مع فئات الصوت والأوصاف الصوتية التفصيلية.
تمكين ضبط النغمات لجميع الأصوات العصبية عبر لغات مختلفة.
أتمتة ترجمة واجهة المستخدم استناداً إلى لغة المستعرض.
عناصر التحكم الممكنة StyleDegree لجميع zh-CN الأصوات العصبية. تفضل بزيارة أداة إنشاء محتوى الصوت للتحقق من الميزات الجديدة.

التحديثات لأصوات zh-CN

تحديث جميع zh-CN الأصوات العصبية لدعم التحدث باللغة الإنجليزية.
تمكين جميع zh-CN الأصوات العصبية لدعم تعديل الترتيب. يمكن استخدام أداة إنشاء محتوى SSML أو الصوت لضبط أفضل تكفير.
تحديث جميع zh-CN الأصوات العصبية متعددة الأنماط لدعم StyleDegree التحكم. كثافة المشاعر (لينة أو قوية) قابلة للتعديل.
تم تحديثه zh-CN-YunyeNeural لدعم أنماط متعددة يمكن أن تؤدي إلى عواطف مختلفة.

إصدار نوفمبر 2020

إعدادات محلية وأصوات جديدة في المعاينة

يتم تقديم خمس أصوات ولغات جديدة إلى قائمة مشاريع النص العصبي إلى الكلام. وهي: غرايس في المالطية (مالطا)، أونا في الليتوانية (ليتوانيا)، أنو في الإستونية (إستونيا)، أورلينا في الأيرلندية (أيرلندا) وإفيريتا في لاتفيا (لاتفيا).
خمسة أصوات جديدة zh-CN مع أنماط وأدوار متعددة الدعم: Xiaohan وXiaomo وXiaorui وXiaoxuan وYunxi.

تتوفر هذه الأصوات في المعاينة العامة في ثلاث مناطق Azure: EastUS وSouthEastAsia وWestEurope.

نص عصبي إلى SPEECH Container GA

باستخدام النص العصبي إلى حاوية الكلام، يمكن للمطورين تشغيل تركيب الكلام مع الأصوات الرقمية الأكثر طبيعية في بيئتهم الخاصة لمتطلبات أمان وإدارة بيانات محددة. تحقق من كيفية تثبيت حاويات الكلام.

الميزات الجديدة

الصوت المخصص: تمكين المستخدمين من نسخ نموذج صوت من منطقة إلى أخرى؛ تعليق نقطة النهاية المدعوم واستئنافه. انتقل إلى المدخل هنا.
دعم علامة صمت SSML.
تحسينات جودة صوت TTS العامة: تحسين دقة النطق على مستوى الكلمة في nb-NO. تم تقليل خطأ النطق بنسبة 53٪.

اقرأ المزيد في هذه المدونة التقنية.

إصدار أكتوبر 2020

الميزات الجديدة

تدعم جيني نمط newscast الجديد. تعرف على كيفية استخدام أنماط التحدث في SSML.
تمت ترقية الأصوات العصبية إلى HiFiNet vocoder، مع دقة صوت أعلى وسرعة تركيب أسرع. وهذا يفيد العملاء الذين يعتمد سيناريوهم على صوت hi-fi أو التفاعلات الطويلة، بما في ذلك دبلجة الفيديو أو الكتب الصوتية أو المواد التعليمية عبر الإنترنت. اقرأ المزيد بشأن القصة وسماع العينات الصوتية على مدونة مجتمع التكنولوجيا لدينا
الصوت المخصص وإنشاء محتوى الصوت Studio مترجم إلى 17 لغة. يمكن للمستخدمين بسهولة تبديل واجهة المستخدم إلى لغة محلية للحصول على تجربة أكثر ودية.
إنشاء محتوى الصوت: إضافة عنصر تحكم درجة النمط لـ XiaoxiaoNeural؛ تحسين ميزة الفواصل المخصصة لتضمين فواصل تزايدية تبلغ 50 ملّي ثانية.

تحسينات عامة على جودة صوت TTS

دقة النطق المحسنة على مستوى الكلمات في pl-PL (تقليل معدل الخطأ: 51٪) وfi-FI (تقليل معدل الخطأ: 58٪)
تحسين ja-JP قراءة كلمة واحدة لسيناريو القاموس. انخفاض خطأ النطق بنسبة 80٪.
zh-CN-XiaoxiaoNeural: تحسين التوجه/CustomerService/Newscast/البهجة/جودة صوت النمط الغاضب.
zh-CN: تحسين نطق Erhua والنبرة الفاتحة وتجسيد المساحة المحسنة، ما يحسن إلى حد كبير من النطق.

إصدار سبتمبر 2020

الميزات الجديدة

النص العصبي إلى كلام
- تم تمديده لدعم 18 لغة / لغة جديدة. وهم البلغارية والتشيكية والألمانية (النمسا) والألمانية (سويسرا) واليونانية والإنجليزية (أيرلندا) والفرنسية (سويسرا) والعبرية والكرواتية والمجرية والإندونيسية والمالياية والرومانية والسلوفاكية والسلوفينية والتاميلية والتيلوجو والفيتنامية.
- إصدار 14 صوتا جديداً لإثراء التنوع في اللغات الحالية. راجع اللغة الكاملة وقائمة الأصوات.
- أنماط التحدث الجديدة لـ en-US وzh-CN الأصوات. يدعم جيني، الصوت الجديد باللغة الإنجليزية (الولايات المتحدة)، روبوت الدردشة وخدمة العملاء وأنماط المساعد. تتوفر 10 أنماط جديدة للتحدث مع صوت zh-CN، XiaoXiao. بالإضافة إلى ذلك، يدعم StyleDegree الصوت العصبي XiaoXiao الضبط. تعرف على كيفية استخدام أنماط التحدث في SSML.
الحاويات: النص العصبي إلى حاوية الكلام التي تم إصدارها في المعاينة العامة مع 16 صوتا متوفرة في 14 لغة. تعرف على المزيد حول كيفية نشر حاويات الكلام للنص العصبي على الكلام

اقرأ الإعلان الكامل عن تحديثات TTS لـ Ignite 2020

إصدار أغسطس 2020

الميزات الجديدة

النص العصبي إلى كلام: نمط حديث جديد لصوت en-USAria. يمكن أن تبدو AriaNeural وكأنها قالب أخبار عند قراءة الأخبار. يبدو أسلوب "نشرة الأخبار الرسمية" أكثر جدية، في حين أن أسلوب "نشرة الأخبار غير الرسمية" يكون أكثر استرخاءً وغير رسمي. تعرف على كيفية استخدام أنماط التحدث في SSML.
صوت مخصص: يتم إصدار ميزة جديدة للتحقق تلقائيا من جودة بيانات التدريب. عند تحميل بياناتك، سيفحص النظام الجوانب المختلفة لبيانات الصوت والنسخة، ويصلح تلقائياً المشكلات أو يقوم بتصفيتها لتحسين جودة النموذج الصوتي. يغطي هذا حجم الصوت، ومستوى الضوضاء، ودقة نطق الكلام، ومواءمة الكلام مع النص الطبيعي، والصمت في الصوت، بالإضافة إلى تنسيق الصوت والنص.
إنشاء محتوى الصوت: مجموعة من الميزات الجديدة لتمكين المزيد من قدرات ضبط الصوت وإدارة الصوت.
- النطق: يتم تحديث ميزة ضبط النطق إلى أحدث مجموعة هواتف. يمكنك اختيار عنصر phoneme الصحيح من المكتبة وتحسين نطق الكلمات التي حددتها.
- تنزيل: يتم تحسين ميزة الصوت "Download"/"Export" لدعم إنشاء الصوت حسب الفقرة. يمكنك تحرير المحتوى في نفس الملف/SSML، مع إنشاء مخرجات صوت متعددة. يتم تحسين بنية ملف "Download" أيضاً. الآن، يمكنك بسهولة الحصول على جميع الملفات الصوتية في مجلد واحد.
- حالة المهمة: تم تحسين تجربة التصدير متعدد الملفات. عند تصدير ملفات متعددة في الماضي، إذا فشل أحد الملفات، فستفشل المهمة بأكملها. ولكن الآن، سيتم تصدير جميع الملفات الأخرى بنجاح. يتم إثراء تقرير المهمة بمعلومات أكثر تفصيلاً وتنظيماً. يمكنك التحقق من السجلات لجميع الملفات والجمل الفاشلة الآن مع التقرير.
- وثائق SSML: مرتبطة بمستند SSML لمساعدتك في التحقق من القواعد الخاصة بكيفية استخدام جميع ميزات الضبط.
يتم تحديث واجهة برمجة تطبيقات القائمة الصوتية لتضمين اسم عرض سهل الاستخدام وأنماط التحدث المدعومة للأصوات العصبية.

تحسينات عامة على جودة صوت TTS

انخفاض خطأ النطق على مستوى الكلمات ٪ لـ ru-RU (تم تقليل الأخطاء بنسبة 56٪) وsv-SE (تم تقليل الأخطاء بنسبة 49٪)
تحسين قراءة الكلمات الزائفة على en-US الأصوات العصبية بنسبة 40٪. ومن أمثلة الكلمات المتعددة الأصوات "قراءة" و"مباشر" و"محتوى" و"سجل" و"عنصر" وما إلى ذلك.
تحسين طبيعية نغمة السؤال في fr-FR. MOS (متوسط نقاط الرأي) كسب: +0.28
تحديث vocoders للأصوات التالية، مع تحسينات الدقة وسرعة الأداء الإجمالية بنسبة 40٪.

اللغة المحلية الصوت

en-GB ميا

es-MX داليا

fr-CA سيلفي

fr-FR دينيس

ja-JP نانامي

ko-KR صن-هي

اللغة المحلية	الصوت
`en-GB`	ميا
`es-MX`	داليا
`fr-CA`	سيلفي
`fr-FR`	دينيس
`ja-JP`	نانامي
`ko-KR`	صن-هي

إصلاح الأخطاء

تم إصلاح عدد من الأخطاء باستخدام أداة إنشاء محتوى الصوت
- تم إصلاح مشكلة التحديث التلقائي.
- تم إصلاح المشكلات المتعلقة بأنماط الصوت في zh-CN في منطقة جنوب شرق آسيا.
- تم إصلاح مشكلة الاستقرار، بما في ذلك خطأ تصدير مع علامة "الفاصل"، وأخطاء في علامات الترقيم.

إصدار مايو 2024

تقييم النطق

يدعم تقييم نطق الكلام الآن 24 لغة متوفرة بشكل عام (مع إضافة لغة جديدة واحدة)، مع 7 لغات أخرى متوفرة في المعاينة العامة. لمزيد من المعلومات، راجع قائمة اللغات الكاملة لتقييم النطق.

اللغة	إعدادات محلية (BCP-47)
‏‏العربية (مصر)	`ar-EG`¹
العربية (المملكة العربية السعودية)	`ar-SA`
الكتالانية	`ca-ES`¹
الصينية (الكانتونية، التقليدية)	`zh-HK`¹
الصينية (الماندارين، المبسطة)	`zh-CN`
الصينية (الماندارين التايوانية، التقليدية)	`zh-TW`¹
الهولندية (هولندا)	`nl-NL`
الإنجليزية (أستراليا)	`en-AU`
الإنجليزية (كندا)	`en-CA`
الإنجليزية (الهند)	`en-IN`
الإنجليزية (المملكة المتحدة)	`en-GB`
الإنجليزية (الولايات المتحدة)	`en-US`
‏‏الفنلندية (فنلندا)	`fi-FI`¹
الفرنسية (كندا)	`fr-CA`
‏‏الفرنسية (فرنسا)	`fr-FR`
‏‏الألمانية (ألمانيا)	`de-DE`
‏‏الهندية (الهند)	`hi-IN`
‏‏الإيطالية (إيطاليا)	`it-IT`
‏‏اليابانية (اليابان)	`ja-JP`
‏‏الكورية (كوريا)	`ko-KR`
الماليزية (ماليزيا)	`ms-MY`
النرويجية بوكمال، (النرويج)	`nb-NO`
‏‏البولندية (بولندا)	`pl-PL`¹
البرتغالية (البرازيل)	`pt-BR`
البرتغالية (البرتغال)	`pt-PT`¹
‏‏الروسية (روسيا)	`ru-RU`
الإسبانية (المكسيك)	`es-MX`
الأسبانية (إسبانيا)	`es-ES`
السويدية (السويد)‏‏	`sv-SE`
‏‏التاميلية (الهند)	`ta-IN`
الفيتنامية (فيتنام)	`vi-VN`

¹ اللغة في المعاينة العامة لتقييم النطق.

إصدار أبريل 2024

ترجمة الكلام التلقائية متعددة اللغات (معاينة)

تتوفر ترجمة الكلام التلقائية متعددة اللغات في المعاينة العامة. تحدث هذه الميزة المبتكرة ثورة في الطريقة التي يتم بها التغلب على حواجز اللغة، وتقدم قدرات لا مثيل لها للاتصال السلس عبر المناظر الطبيعية اللغوية المتنوعة.

أهم النقاط الرئيسية

لغة إدخال غير محددة: يمكن أن تتلقى ترجمة الكلام متعددة اللغات الصوت بمجموعة واسعة من اللغات، وليس هناك حاجة لتحديد لغة الإدخال المتوقعة. إنها تجعل من فهم السياقات العالمية والتعاون فيها ميزة لا تقدر بثمن دون الحاجة إلى الإعداد المسبق.
تبديل اللغة: تسمح ترجمة الكلام متعددة اللغات بالتحدث بلغات متعددة أثناء نفس الجلسة، وترجمتها جميعا إلى نفس اللغة المستهدفة. ليست هناك حاجة لإعادة تشغيل جلسة عمل عند تغيير لغة الإدخال أو أي إجراءات أخرى من قبلك.

طريقة العمل

مترجم السفر: يمكن أن تعزز ترجمة الكلام متعددة اللغات تجربة السياح الذين يزورون الوجهات الأجنبية من خلال تزويدهم بالمعلومات والمساعدة بلغتهم المفضلة. يمكن لخدمات الفندق والجولات الإرشادية ومراكز الزوار الاستفادة من هذه التقنية لتلبية الاحتياجات اللغوية المتنوعة.
المؤتمرات الدولية: يمكن لترجمة الكلام متعددة اللغات تسهيل التواصل بين المشاركين من مناطق مختلفة الذين قد يتحدثون لغات مختلفة باستخدام تسمية توضيحية مترجمة مباشرة. يمكن للحضور التحدث بلغاتهم الأصلية دون الحاجة إلى تحديدها، ما يضمن فهما سلسا والتعاون.
الاجتماعات التعليمية: في الفصول الدراسية متعددة الثقافات أو بيئات التعلم عبر الإنترنت، يمكن أن تدعم ترجمة الكلام متعددة اللغات التنوع اللغوي بين الطلاب والمعلمين. يسمح بالاتصال والمشاركة السلسة دون الحاجة إلى تحديد لغة كل طالب أو معلم.

طريقة الوصول

للحصول على مقدمة مفصلة، تفضل بزيارة نظرة عامة على ترجمة الكلام. بالإضافة إلى ذلك، يمكنك الرجوع إلى نماذج التعليمات البرمجية في كيفية ترجمة الكلام. هذه الميزة الجديدة مدعومة بالكامل من قبل جميع إصدارات SDK من 1.37.0 فصاعدا.

الكلام في الوقت الحقيقي إلى نص مع يوميات (GA)

أصبح الكلام إلى النص في الوقت الحقيقي مع يوميات متاحا الآن بشكل عام.

يمكنك إنشاء الكلام إلى تطبيقات نصية تستخدم يوميات للتمييز بين المتحدثين المختلفين الذين يشاركون في المحادثة. لمزيد من المعلومات حول اليوميات في الوقت الحقيقي، راجع البدء السريع للمذكرات في الوقت الحقيقي.

تحديث نموذج تحويل الكلام إلى نص

أصدر الكلام إلى النص في الوقت الحقيقي نماذج جديدة ذات قدرات ثنائية اللغة. en-IN يدعم النموذج الآن كلا من السيناريوهات ثنائية اللغة الإنجليزية والهندية ويوفر دقة محسنة. تم الآن تجهيز اللغات العربية (ar-AE، ar-BH، ar-DZ، ar-IL، ar-IQ، ar-LYar-MAar-QAar-OMar-LBar-KWar-SAar-SYar-PS، ar-TN، ) ar-YEبدعم ثنائي اللغة للغة الإنجليزية، والدقة المحسنة، ودعم مركز الاتصال.

يوفر النسخ الدفعي نماذج مع بنية جديدة لهذه الإعدادات المحلية: es-ESو. es-MXzh-CNfr-FRit-ITja-JPko-KRpt-BR تعزز هذه النماذج بشكل كبير قابلية القراءة والتعرف على الكيان.

إصدار مارس 2024

التوفر العام للهمس (GA)

يتوفر الآن نموذج الكلام الهمس إلى نص مع Azure الذكاء الاصطناعي Speech بشكل عام.

راجع ما هو نموذج الهمس؟ لمعرفة المزيد حول وقت استخدام Azure الذكاء الاصطناعي Speech مقابل خدمة Azure OpenAI.

إصدار فبراير 2024

تقييم النطق

يدعم تقييم نطق الكلام الآن 23 لغة متوفرة بشكل عام (مع إضافة 5 لغات جديدة)، مع 3 لغات أخرى متوفرة في المعاينة العامة. لمزيد من المعلومات، راجع قائمة اللغات الكاملة لتقييم النطق.

قائمة العبارات

دعم قائمة العبارات المضافة للإعدادات المحلية التالية: ar-SA، de-CH، en-IE، en-ZA، es-US، id-ID، nl-NL، pl-PL، pt-PT، ru-RU، sv-SE، th-TH، vi-VN، zh-HK، zh-TW.

إصدار نوفمبر 2023

تقديم نمذجة الكلام ثنائية اللغة!

يسعدنا الكشف عن إضافة رائدة إلى نمذجة الكلام في الوقت الحقيقي - نمذجة الكلام ثنائية اللغة. يسمح هذا التحسين الكبير لنموذج الكلام لدينا بدعم أزواج اللغة الثنائية اللغة بسلاسة، مثل الإنجليزية والإسبانية، بالإضافة إلى الإنجليزية والفرنسية. تمكن هذه الميزة المستخدمين من التبديل بين اللغات دون عناء أثناء التفاعلات في الوقت الحقيقي، مما يمثل لحظة محورية في التزامنا بتعزيز تجارب الاتصال.

أهم النقاط الرئيسية:

الدعم ثنائي اللغة: باستخدام أحدث إصدار لدينا، يمكن للمستخدمين التبديل بسلاسة بين الإنجليزية والإسبانية أو بين الإنجليزية والفرنسية أثناء تفاعلات الكلام في الوقت الحقيقي. تم تصميم هذه الوظيفة لاستيعاب المتحدثين ثنائيي اللغة الذين ينتقلون بشكل متكرر بين هاتين اللغتين.
تجربة المستخدم المحسنة: سيجد المتحدثون ثنائيو اللغة، سواء في العمل أو المنزل أو في مختلف إعدادات المجتمع، هذه الميزة مفيدة للغاية. إن قدرة النموذج على فهم كل من الإنجليزية والإسبانية والاستجابة لها في الوقت الحقيقي تفتح إمكانيات جديدة للاتصال الفعال والسوائل.

كيفية الاستخدام:

اختر es-US (الإسبانية والإنجليزية) أو fr-CA (الفرنسية والإنجليزية) عند استدعاء Speech Service API أو تجربتها على Speech Studio. لا تتردد في التحدث بأي لغة أو مزجها معا - تم تصميم النموذج للتكيف ديناميكيا، مما يوفر استجابات دقيقة وواعية بالسياق بكلتا اللغتين.

حان الوقت لرفع مستوى لعبة الاتصال الخاصة بك مع أحدث إصدار من الميزات لدينا - اتصال سلس متعدد اللغات في متناول يدك!

تحديث نماذج تحويل الكلام إلى نص

نحن متحمسون لتقديم تحديث كبير لنماذج الكلام لدينا، واعدين بدقة محسنة، وقابلية قراءة محسنة، والتعرف على الكيان المحسن. تأتي هذه الترقية مع بنية جديدة قوية، مدعومة بمجموعة بيانات تدريب موسعة، ما يضمن تقدما ملحوظا في الأداء العام. وهو يتضمن نماذج تم إصدارها حديثا ل en-US وzh-CN وja-JP و it-IT و pt-BR و es-MX و es-ES و fr-FR و de-DE و ko-KR و tr-TR و sv-SE و he-IL.

يبرز:

دقة أفضل مع بنية النموذج الجديد: ترفع بنية النموذج المعاد تعريفها، إلى جانب مجموعة بيانات تدريب أكثر ثراء، مستويات الدقة، واعدة بإخراج كلام أكثر دقة.
تحسين قابلية القراءة: يقدم أحدث نموذج لدينا دفعة كبيرة لسهولة القراءة، ما يعزز اتساق المحتوى المنطوق ووضوحه.
التعرف المتقدم على الكيان: يتلقى التعرف على الكيان ترقية كبيرة، ما يؤدي إلى نتائج أكثر دقة ودقة.

التأثيرات المحتملة: على الرغم من هذه التطورات، من الضروري مراعاة التأثيرات المحتملة:

ميزة مهلة الصمت المخصصة: قد يواجه المستخدمون الذين يستخدمون مهلة الصمت المخصصة، خاصة مع الإعدادات المنخفضة، تجزئة زائدة وإغفالات محتملة لعبارة من كلمة واحدة.
قد يعرض النموذج الجديد مشكلات التوافق مع ميزة بادئة الكلمة الأساسية، وينصح المستخدمون بتقييم أدائه في تطبيقاتهم المحددة.
تقليل كلمات أو عبارات الثراء: قد يلاحظ المستخدمون انخفاضا في كلمات أو عبارات الثراء مثل "um" أو "uh" في إخراج الكلام.
عدم الدقة في مدة الطابع الزمني للكلمات: قد تعرض بعض كلمات التباعد عدم الدقة في مدة الطابع الزمني، مما يتطلب الانتباه في التطبيقات التي تعتمد على التوقيت الدقيق.
تباين توزيع نقاط الثقة: يجب أن يكون المستخدمون الذين يعتمدون على درجات الثقة والحدود المرتبطة بها على دراية بالتباينات المحتملة في التوزيع، مما يتطلب تعديلات للأداء الأمثل.
قد يتأثر تحسين دقة ميزة قائمة العبارات بسوء فهم بعض العبارات.

نحن نشجعك على استكشاف هذه التحسينات والنظر في المشكلات المحتملة لانتقال سلس، وكما هو الحال دائما، فإن ملاحظاتك مفيدة في تحسين خدماتنا وتطويرها.

تقييم النطق

يدعم تقييم نطق الكلام الآن 18 لغة متوفرة بشكل عام، مع ست لغات أخرى متوفرة في المعاينة العامة. لمزيد من المعلومات، راجع قائمة اللغات الكاملة لتقييم النطق.
يسعدنا أن نعلن أن تقييم النطق يقدم ميزات جديدة بدءا من 1 نوفمبر 2023: Prosody و Grammar و Vocabulary و Topic. تهدف هذه التحسينات إلى توفير تجربة تعلم لغة أكثر شمولا لتقييمات القراءة والتحدث. قم بالترقية إلى الإصدار 1.35.0 من SDK أو أحدث لاستكشاف مزيد من التفاصيل في كيفية استخدام تقييم النطق وتقييم النطق في Speech Studio.

إصدار سبتمبر 2023

الهمس المعاينة العامة

يدعم Azure الذكاء الاصطناعي Speech الآن نموذج الهمس من OpenAI عبر واجهة برمجة تطبيقات النسخ الدفعي. لمعرفة المزيد، راجع دليل إنشاء نسخ دفعي .

إشعار

تدعم خدمة Azure OpenAI أيضا نموذج الهمس الخاص ب OpenAI لتحويل الكلام إلى نص باستخدام واجهة برمجة تطبيقات REST متزامنة. لمعرفة المزيد، تحقق من التشغيل السريع.

راجع ما هو نموذج الهمس؟ لمعرفة المزيد حول وقت استخدام Azure الذكاء الاصطناعي Speech مقابل خدمة Azure OpenAI.

معاينة عامة لواجهة برمجة تطبيقات REST V3.2 لتحويل الكلام إلى نص

يتوفر Speech to text REST API v3.2 في المعاينة. يتوفر الكلام إلى نص REST API v3.1 بشكل عام. سيتم إيقاف Speech to text REST API v3.0 في 1 أبريل 2026. لمزيد من المعلومات، راجع دلائل الترحيل Speech to text REST API v3.0 إلى v3.1 وv3.1 إلى v3.2 .

إصدار أغسطس 2023

الكلام الجديد إلى إعدادات النص المحلية:

يدعم تحويل الكلام إلى نص محليين جديدين كما هو موضح في الجدول التالي. راجع قائمة اللغات الكاملة هنا.

اللغة المحلية	اللغة
`pa-IN`	البنجابية (الهند)
`ur-IN`	‏‏الأردية (الهند)

تقييم النطق

يدعم تقييم نطق الكلام الآن 3 لغات إضافية متوفرة بشكل عام باللغة الإنجليزية (كندا) والإنجليزية (الهند) والفرنسية (كندا)، مع 3 لغات إضافية متوفرة في المعاينة. لمزيد من المعلومات، راجع قائمة اللغات الكاملة لتقييم النطق.

إصدار مايو 2023

تقييم النطق

يدعم تقييم نطق الكلام الآن 3 لغات إضافية متوفرة بشكل عام باللغة الألمانية (ألمانيا) واليابانية (اليابان) والأسبانية (المكسيك)، مع توفر 4 لغات إضافية في المعاينة. لمزيد من المعلومات، راجع قائمة اللغات الكاملة لتقييم النطق.
يمكنك الآن استخدام مستوى التزام الكلام إلى النص القياسي لتقييم النطق في جميع المناطق العامة. إذا قمت بشراء مستوى التزام لتحويل الكلام القياسي إلى نص، فإن الإنفاق على تقييم النطق يذهب نحو الوفاء بالالتزام. راجع تسعير مستوى الالتزام.

إصدار فبراير 2023

تقييم النطق

يدعم تقييم نطق الكلام الآن 5 لغات إضافية متوفرة بشكل عام باللغة الإنجليزية (المملكة المتحدة) والإنجليزية (أستراليا) والفرنسية (فرنسا) والإسبانية (أسبانيا) والصينية (الماندارين والمبسطة)، مع لغات أخرى متوفرة في المعاينة.
تمت إضافة نماذج رموز توضح كيفية استخدام تقييم النطق في وضع الدفق في التطبيق الخاص بك.
- C#‎: راجع نموذج التعليمات البرمجية.
- C++‎: راجع نموذج التعليمات البرمجية.
- java: راجع نموذج التعليمات البرمجية.
- javascript: راجع نموذج التعليمات البرمجية.
- Objective-C: راجع نموذج التعليمات البرمجية.
- Python: راجع نموذج التعليمات البرمجية.
- Swift: راجع نموذج التعليمات البرمجية.

الكلام المخصص

تتم إضافة دعم الصوت + النسخة المكتوبة بعلامة بشرية للإعدادات de-AT المحلية.

إصدار يناير 2023

الكلام المخصص

تتم إضافة دعم الصوت + النسخة المكتوبة بتسمية بشرية للإعدادات المحلية الإضافية: ar-BHوar-EGar-MAar-DZar-SAar-TNar-YE.ja-JP

تتم إضافة دعم تكييف النص المنظم للإعدادات de-ATالمحلية .

إصدار ديسمبر 2022

Speech to text REST API

يتوفر الإصدار 3.1 من Speech to text REST API بشكل عام. سيتم إيقاف الإصدار 3.0 من Speech to text REST API . لمزيد من المعلومات حول كيفية الترحيل، راجع الدليل.

إصدار أكتوبر 2022

الكلام الجديد إلى اللغة النصية

دعم إضافي لملايلام (الهند) بالإعدادات ml-IN المحلية. راجع قائمة اللغات الكاملة هنا.

إصدار يوليو 2022

الكلام الجديد إلى إعدادات النص المحلية:

تمت إضافة 7 إعدادات محلية جديدة كما هو موضح في الجدول التالي. راجع قائمة اللغات الكاملة هنا.

اللغة المحلية	اللغة
`bs-BA`	البوسنية (البوسنة والهرسك)
`yue-CN`	الصينية (الكانتونية، المبسطة)
`zh-CN-sichuan`	الصينية (الماندارين الجنوبية الغربية، المبسطة)
`wuu-CN`	الصينية (الوو، مبسطة)
`ps-AF`	‏‏البشتونية (أفغانستان)
`so-SO`	‏‏الصومالية (الصومال)
`cy-GB`	‏‏الويلزية (المملكة المتحدة)

إصدار يونيو 2022

الكلام الجديد إلى إعدادات النص المحلية:

تمت إضافة 10 لغات محلية جديدة كما هو موضح في الجدول التالي. راجع قائمة اللغات الكاملة هنا.

اللغة المحلية	اللغة
`sq-AL`	‏‏الألبانية (ألبانيا)
`hy-AM`	‏‏الأرمينية (أرمينيا)
`az-AZ`	الأذربيجانية (أذربيجان)
`eu-ES`	الباسكية
`gl-ES`	الجاليشية
`ka-GE`	‏‏الجورجية (جورجيا)
`it-CH`	الإيطالية (سويسرا)
`kk-KZ`	‏‏الكازخستانية (كازاخستان)
`mn-MN`	المنغولية (منغوليا)
`ne-NP`	‏‏النيبالية (نيبال)

إصدار أبريل 2022

الكلام الجديد إلى إعدادات النص المحلية:

فيما يلي قائمة بالحقول المحلية الجديدة. راجع قائمة اللغات الكاملة هنا.

اللغة المحلية	اللغة
`bn-IN`	البنغالية (الهند)

إصدار يناير 2022

الكلام الجديد إلى إعدادات النص المحلية:

فيما يلي قائمة بالحقول المحلية الجديدة. راجع قائمة اللغات الكاملة هنا.

اللغة المحلية	اللغة
`af-ZA`	‏‏الأفريقية (جنوب أفريقيا)
`am-ET`	‏‏الأمهرية (أثيوبيا)‏
`de-CH`	الألمانية (سويسرا)
`fr-BE`	الفرنسية (بلجيكا)
`is-IS`	‏‏الأيسلندية (أيسلندا)
`jv-ID`	الجافانية (إندونيسيا)
`km-KH`	‏‏الخميرية (كمبوديا)
`kn-IN`	‏‏الكانادية (الهند)
`lo-LA`	لاو (لاوس)
`mk-MK`	المقدونية (شمال مقدونيا)
`my-MM`	البورمية (ميانمار)
`nl-BE`	الهولندية (بلجيكا)
`si-LK`	‏‏السنهالية (سريلانكا)
`sr-RS`	الصربية (صربيا)
`sw-TZ`	السواحيلية (تنزانيا)
`uk-UA`	‏‏الأوكرانية (أوكرانيا)
`uz-UZ`	الأوزبكية (أوزبكستان)
`zu-ZA`	زولو (جنوب أفريقيا)

إصدار يوليو 2021

الكلام الجديد إلى إعدادات النص المحلية:

فيما يلي قائمة بالحقول المحلية الجديدة. راجع قائمة اللغات الكاملة هنا.

اللغة المحلية	اللغة
`ar-DZ`	‏‏العربية (الجزائر)
`ar-LY`	‏‏العربية (ليبيا)
`ar-MA`	‏‏العربية (المغرب)
`ar-TN`	العربية (تونس)
`ar-YE`	‏‏العربية (اليمن)
`bg-BG`	البلغارية (بلغاريا)
`el-GR`	اليونانية (اليونان)
`et-EE`	‏‏الإستونية (استونيا)
`fa-IR`	الفارسية (إيران)
`ga-IE`	‏‏الأيرلندية (أيرلندا)‏
`hr-HR`	‏‏الكرواتية (كرواتيا)
`lt-LT`	‏‏اللتوانية (لتوانيا)
`lv-LV`	‏‏اللاتفيانية (لاتفيا)
`mt-MT`	‏‏المالطية (مالطة)
`ro-RO`	‏‏الرومانية (رومانيا)
`sk-SK`	‏‏السلوفاكية (سلوفاكيا)
`sl-SI`	‏‏السلوفينية (سلوفينيا)
`sw-KE`	‏‏السواحيلية (كينيا)

إصدار يناير 2021

الكلام الجديد إلى إعدادات النص المحلية:

فيما يلي قائمة بالحقول المحلية الجديدة. راجع قائمة اللغات الكاملة هنا.

اللغة المحلية	اللغة
`ar-AE`	العربية (الإمارات العربية المتحدة)
`ar-IL`	العربية (إسرائيل)
`ar-IQ`	‏‏العربية (العراق)
`ar-OM`	العربية (عمان)
`ar-PS`	اللغة العربية (السلطة الفلسطينية)
`de-AT`	الألمانية (النمسا)
`en-GH`	الإنجليزية (غانا)
`en-KE`	الإنجليزية (كينيا)
`en-NG`	الإنجليزية (نيجيريا)
`en-TZ`	الإنجليزية (تنزانيا)
`es-GQ`	الإسبانية (غينيا الاستوائية)
`fil-PH`	‏‏الفلبينية (الفلبين)
`fr-CH`	الفرنسية (سويسرا)
`he-IL`	‏‏العبرية (إسرائيل)
`id-ID`	الإندونيسية (إندونيسيا)
`ms-MY`	الماليزية (ماليزيا)
`vi-VN`	الفيتنامية (فيتنام)

إصدار أغسطس 2020

الكلام الجديد إلى لغة النص:

أصدرت ميزة "الكلام إلى النص" 26 لغة جديدة في أغسطس: لغتان cs-CZ أوروبيتان و5 hu-HUلغات إنجليزية و19 لغة إسبانية تغطي معظم بلدان/مناطق أمريكا الجنوبية. فيما يلي قائمة بالحقول المحلية الجديدة. راجع قائمة اللغات الكاملة هنا.

اللغة المحلية	اللغة
`cs-CZ`	‏‏التشيكية (جمهورية التشيك)
`en-HK`	الإنجليزية (منطقة هونغ كونغ الخاصة مسؤول istrative Region)
`en-IE`	الإنجليزية (أيرلندا)
`en-PH`	‏‏الإنجليزية (الفلبين)
`en-SG`	الإنجليزية (سنغافورة)
`en-ZA`	الإنجليزية (جنوب أفريقيا)
`es-AR`	الإسبانية (الأرجنتين)
`es-BO`	‏‏الإسبانية (بوليفيا)
`es-CL`	الأسبانية (تشيلي)
`es-CO`	‏‏الإسبانية (كولومبيا)
`es-CR`	‏‏الإسبانية (كوستاريكا)
`es-CU`	الأسبانية (كوبا)
`es-DO`	‏‏الإسبانية (جمهورية الدومينيك)
`es-EC`	‏‏الإسبانية (إكوادور)
`es-GT`	‏‏الإسبانية (غواتيمالا)‏‏
`es-HN`	‏‏الإسبانية (هندوراس)
`es-NI`	‏‏الإسبانية (نيكاراجوا)
`es-PA`	‏‏الإسبانية (بنما)
`es-PE`	‏‏الإسبانية (بيرو)
`es-PR`	‏‏الإسبانية (بورتوريكو)
`es-PY`	‏‏الإسبانية (باراجواي)
`es-SV`	‏‏الإسبانية (السلفادور)
`es-US`	الإسبانية (الولايات المتحدة الأمريكية)
`es-UY`	‏‏الإسبانية (الأوروجواي)
`es-VE`	الأسبانية (فنزويلا)
`hu-HU`	المجرية (المجر)

إصدار 2024-فبراير

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 4.6.0
تحويل الكلام إلى نص 4.6.0
نص عصبي إلى كلام 3.1.0

ترقية الكلام إلى مكونات النص إلى الأحدث. ترقية جميع es نماذج لغة إلى الأحدث. زيادة المخزن المؤقت لتحويل الوسائط لحالات استخدام الكلام إلى النص.

إصدار 2023-نوفمبر

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 4.5.0
تحويل الكلام إلى نص 4.5.0
نص عصبي إلى كلام 2.19.0

إصدار 2023-أكتوبر

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 4.4.0
تحويل الكلام إلى نص 4.4.0
نص عصبي إلى كلام 2.18.0

إصلاح مجموعة من مشكلات الثغرات الأمنية عالية المخاطر.

إزالة السجلات المكررة في الحاويات.

ترقية مكون الوسائط الداخلية إلى الأحدث.

إضافة دعم للصوت en-IN-NeerjaNeural.

إصدار 2023-سبتمبر

إضافة دعم لأحدث إصدارات النموذج:

تعريف لغة الكلام 1.12.0
تحويل الكلام المخصص إلى نص 4.3.0
تحويل الكلام إلى نص 4.3.0
نص عصبي إلى كلام 2.17.0

ترقية الكلام المخصص إلى نص والكلام إلى نص إلى أحدث إطار عمل.

إصلاح مشكلات الثغرات الأمنية.

إضافة دعم للصوت ar-AE-FatimaNeural.

إصدار 2023-يوليو

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 4.1.0
تحويل الكلام إلى نص 4.1.0
نص عصبي إلى كلام 2.15.0

إصلاح مشكلة تشغيل الكلام إلى حاوية نصية عبر docker خيارات التحميل مع ملفات النموذج المخصصة المحلية.

إصلاح المشكلة التي في بعض الحالات RECOGNIZING لا يظهر الحدث استجابة من خلال Speech SDK.

إصلاح مشكلات الثغرات الأمنية.

إصدار 2023-يونيو

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 4.0.0
تحويل الكلام إلى نص 4.0.0
نص عصبي إلى كلام 2.14.0

تتم ترقية الكلام المحلي إلى الصور النصية إلى .NET 6.0

ترقية نماذج العرض للترجمة بما في ذلك en-usوالمزيدja-jpar-egar-bhko-kr.

ترقية الكلام إلى مكون حاوية نصية لمعالجة مشكلات الثغرات الأمنية.

إضافة دعم للأصوات de-DE-AmalaNeuralالمحلية وde-AT-IngridNeuralde-AT-JonasNeural وen-US-JennyMultilingualNeural

إصدار 2023-مايو

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.14.0
تحويل الكلام إلى نص 3.14.0
نص عصبي إلى كلام 2.13.0

he-IL إصلاح مشكلة علامات الترقيم

إصلاح مشكلات الثغرات الأمنية

إضافة صوت en-US-MichelleNeuralمحلي جديد و es-MX-CandelaNeural

إصدار 2023-أبريل

تحديثات أمنية

إصلاح مشكلات الثغرات الأمنية

إصدار 2023-مارس

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.12.0
تحويل الكلام إلى نص 3.12.0
تعريف لغة الكلام 1.11.0
نص عصبي إلى كلام 2.11.0

إصلاح مشكلات الثغرات الأمنية

إصلاح مشكلة الكتابة بالأحرف tr-TR الكبيرة

ترقية الكلام إلى نماذج عرض النص en-US

إضافة دعم للنص العصبي العصبي الذي تم إنشاؤه مسبقا إلى الصوت المحلي للكلام ar-AE-HamdanNeural

إصدار 2023-فبراير

إصدارات حاوية جديدة

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.11.0
تحويل الكلام إلى نص 3.11.0
نص عصبي إلى كلام 2.10.0

إصلاح مشكلات الثغرات الأمنية

الترقية المنتظمة لنماذج الكلام

إضافة لغة أبهرية جديدة:

ar-IL
ar-PS

ترقية نماذج العرض العبرية والتركية

إصدار 2023-يناير

إصدارات حاوية جديدة

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.10.0
تحويل الكلام إلى نص 3.10.0
نص عصبي إلى كلام 2.9.0

إصلاح مشكلة وضع الفرضية

إصلاح مشكلة وكيل HTTP

وضع قطع اتصال الكلام المخصص إلى حاوية نصية

إضافة دعم حاوية CNV غير المتصلة إلى واجهة TTS الأمامية

أضف دعما لأصوات الإعدادات المحلية هذه:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

إصدار 2022-ديسمبر

إصدارات حاوية جديدة

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.9.0
تحويل الكلام إلى نص 3.9.0
نص عصبي إلى كلام 2.8.0

إصلاح مشكلة ipv4/ipv6

إصلاح مشكلة الثغرات الأمنية

إصدار 2022-نوفمبر

إصدارات حاوية جديدة

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.8.0
تحويل الكلام إلى نص 3.8.0
نص عصبي إلى كلام 2.7.0

إصدار 2022-أكتوبر

إصدارات حاوية جديدة

إضافة دعم لأحدث إصدارات النموذج:

تحويل الكلام المخصص إلى نص 3.7.0
تحويل الكلام إلى نص 3.7.0
نص عصبي إلى كلام 2.6.0

إصدار 2022-سبتمبر

تحويل الكلام إلى نص 3.6.0-amd64

إضافة دعم لأحدث إصدارات النموذج.

إضافة دعم لهذه الإعدادات المحلية:

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
الإيطالية (سويسرا)
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
هكذا
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

تحديثات شهرية منتظمة بما في ذلك ترقيات الأمان وإصلاحات الثغرات الأمنية.

تحويل الكلام المخصص إلى نص 3.6.0-amd64

تحديثات شهرية منتظمة بما في ذلك ترقيات الأمان وإصلاحات الثغرات الأمنية.

نص عصبي إلى كلام v2.5.0

أضف دعما لهذه الأصوات العصبية التي تم إنشاؤها مسبقا:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

تحديثات شهرية منتظمة بما في ذلك ترقيات الأمان وإصلاحات الثغرات الأمنية.

إصدار 2022-مايو

حاوية الكشف عن لغة الكلام v1.9.0-amd64-preview

إصلاحات الأخطاء للكشف عن لغة الكلام.

إصدار 2022-مارس

تحويل الكلام المخصص إلى نص Container v3.1.0

أضف الدعم للحصول على نماذج العرض.

إصدار 2022-يناير

تحويل الكلام إلى نص Container v3.0.0

إضافة دعم لاستخدام الحاويات في بيئات غير متصلة.

تحويل الكلام إلى نص Container v2.18.0

تحديثات شهرية منتظمة بما في ذلك ترقيات الأمان وإصلاحات الثغرات الأمنية.

نص عصبي عصبي إلى Speech Container v1.12.0

أضف دعما لهذه الأصوات العصبية التي تم إنشاؤها مسبقا: am-et-amehaneuralو am-et-mekdesneuralso-so-muuseneural و.so-so-ubaxneural

تحديثات شهرية منتظمة بما في ذلك ترقيات الأمان وإصلاحات الثغرات الأمنية.

Share via

ما الجديد في Azure الذكاء الاصطناعي Speech؟

أهم النقاط الأخيرة

ملاحظات الإصدار

الخطط القادمة لمستخدمي Linux وAndroid:

Speech SDK 1.37.0: إصدار 2024-أبريل

الميزات الجديدة

إصلاح الأخطاء

العينات

Speech SDK 1.36.0: إصدار 2024-مارس

الميزات الجديدة

إصلاح الأخطاء

العينات

Speech SDK 1.35.0: إصدار فبراير 2024

الميزات الجديدة

إصلاح الأخطاء

العينات

Speech SDK 1.34.1: إصدار يناير 2024

كسر التغييرات

الميزات الجديدة

إصلاح الأخطاء

Speech SDK 1.34.0: إصدار نوفمبر 2023

كسر التغييرات

الميزات الجديدة

إصلاح الأخطاء

العينات

Speech CLI 1.34.0: إصدار نوفمبر 2023

الميزات الجديدة

إصلاح الأخطاء

Speech SDK 1.33.0: إصدار أكتوبر 2023

إشعار التغيير العاجل

الميزات الجديدة

إصلاح الأخطاء

العينات

Speech CLI 1.33.0: إصدار أكتوبر 2023

الميزات الجديدة

إصلاح الأخطاء

Speech SDK 1.32.1: إصدار سبتمبر 2023

إصلاح الأخطاء

العينات

Speech SDK 1.31.0: إصدار أغسطس 2023

ميزات جديدة

كسر التغييرات

إصلاح الأخطاء

العينات

Speech SDK 1.30.0: إصدار يوليو 2023

ميزات جديدة

إصلاح الأخطاء

ملاحظات إضافية

العينات

Speech SDK 1.29.0: إصدار يونيو 2023

ميزات جديدة

إصلاح الأخطاء

العينات

Speech SDK 1.28.0: إصدار مايو 2023

كسر التغيير

ميزات جديدة

إصلاح الأخطاء

العينات

Speech SDK 1.27.0: إصدار أبريل 2023

إعلام حول التغييرات القادمة

ميزات جديدة

إصلاح الأخطاء

العينات

Speech SDK 1.26.0: إصدار مارس 2023

كسر التغييرات

الميزات الجديدة

إصلاح الأخطاء

العينات

Speech SDK 1.25.0: إصدار يناير 2023

كسر التغييرات

الميزات الجديدة

إصلاح الأخطاء

العينات

Speech SDK 1.24.2: إصدار نوفمبر 2022

الميزات الجديدة

إصلاح الأخطاء

Speech SDK 1.24.1: إصدار نوفمبر 2022

الميزات الجديدة

إصلاح الأخطاء