ما المقصود بالتعرف على الكلمات الرئيسية؟
يكتشف التعرف على الكلمات الرئيسية كلمة أو عبارة قصيرة داخل دفق صوتي. ويشار إليه أيضا باسم اكتشاف الكلمات الرئيسية.
حالة الاستخدام الأكثر شيوعا للتعرف على الكلمات الرئيسية هي التنشيط الصوتي للمساعدين الافتراضيين. على سبيل المثال، "يا Cortana" هي الكلمة الرئيسية لمساعد Cortana. عند التعرف على الكلمة الرئيسية ، يتم تنفيذ إجراء محدد للسيناريو. بالنسبة لسيناريوهات المساعد الظاهري، يتمثل الإجراء الشائع الناتج في التعرف على الكلام للصوت الذي يتبع الكلمة الرئيسية.
بشكل عام ، يستمع المساعدون الافتراضيون دائما. يعمل التعرف على الكلمات الرئيسية كحدود خصوصية للمستخدم. يعمل متطلب الكلمة الرئيسية كبوابة تمنع صوت المستخدم غير ذي الصلة من عبور الجهاز المحلي إلى السحابة.
لتحقيق التوازن بين الدقة والكمون والتعقيد الحسابي، يتم تنفيذ التعرف على الكلمات الرئيسية كنظام متعدد المراحل. بالنسبة لجميع المراحل التي تتجاوز المرحلة الأولى ، لا تتم معالجة الصوت إلا إذا كان يعتقد أن المرحلة التي تسبقه قد تعرفت على الكلمة الرئيسية المثيرة للاهتمام.
تم تصميم النظام الحالي بمراحل متعددة تمتد عبر الحافة والسحابة:

يتم قياس دقة التعرف على الكلمات الرئيسية من خلال المقاييس التالية:
- معدل القبول الصحيح: يقيس قدرة النظام على التعرف على الكلمة الرئيسية عندما ينطقها المستخدم. يعرف معدل القبول الصحيح أيضا باسم المعدل الإيجابي الحقيقي.
- معدل القبول الخاطئ: يقيس قدرة النظام على تصفية الصوت الذي ليس الكلمة الرئيسية التي يتحدث بها المستخدم. يعرف معدل القبول الخاطئ أيضا باسم المعدل الإيجابي الخاطئ.
الهدف هو زيادة معدل القبول الصحيح مع تقليل معدل القبول الخاطئ. تم تصميم النظام الحالي للكشف عن كلمة رئيسية أو عبارة مسبوقة بقدر قصير من الصمت. اكتشاف كلمة رئيسية في منتصف الجملة أو النطق غير مدعوم.
كلمة رئيسية مخصصة للطرز الموجودة على الجهاز
باستخدام مدخل الكلمات الرئيسية المخصص على Speech Studio، يمكنك إنشاء نماذج التعرف على الكلمات الرئيسية التي يتم تنفيذها على الحافة عن طريق تحديد أي كلمة أو عبارة قصيرة. يمكنك تخصيص نموذج كلماتك الرئيسية بشكل أكبر عن طريق اختيار النطق الصحيح.
التسعير
لا توجد تكلفة لاستخدام الكلمات الرئيسية المخصصة لإنشاء نماذج، بما في ذلك النماذج الأساسية والمتقدمة. لا توجد أيضا تكلفة لتشغيل الطرز على الجهاز باستخدام Speech SDK.
أنواع النماذج
يمكنك استخدام كلمة رئيسية مخصصة لإنشاء نوعين من الطرز على الجهاز لأي كلمة رئيسية.
| نوع الموديل | الوصف |
|---|---|
| أساسي | الأنسب لأغراض العرض التوضيحي أو النماذج الأولية السريعة. يتم إنشاء النماذج باستخدام نموذج أساسي مشترك ويمكن أن تستغرق ما يصل إلى 15 دقيقة لتكون جاهزة. قد لا تتمتع النماذج بخصائص الدقة المثلى. |
| متقدم | الأنسب لأغراض تكامل المنتجات. يتم إنشاء النماذج مع تكييف نموذج أساسي مشترك باستخدام بيانات التدريب المحاكية لتحسين خصائص الدقة. قد يستغرق الأمر ما يصل إلى 48 ساعة حتى تكون النماذج جاهزة. |
ملاحظة
يمكنك عرض قائمة بالمناطق التي تدعم نوع النموذج المتقدم في وثائق دعم منطقة التعرف على الكلمات الرئيسية.
لا يتطلب أي من نوعي الطرازين تحميل بيانات التدريب. تتعامل الكلمة الرئيسية المخصصة بشكل كامل مع توليد البيانات والتدريب على النماذج.
النطق
عند إنشاء نموذج جديد، تقوم الكلمة الرئيسية المخصصة تلقائيا بإنشاء نطق محتمل للكلمة الرئيسية المقدمة. يمكنك الاستماع إلى كل نطق واختيار جميع الأشكال التي تمثل عن كثب الطريقة التي تتوقع أن يقول بها المستخدمون الكلمة الرئيسية. لا ينبغي تحديد جميع النطق الآخر.
من المهم أن تكون متعمدا بشأن النطق الذي تختاره لضمان أفضل خصائص الدقة. على سبيل المثال ، إذا اخترت نطقا أكثر مما تحتاج إليه ، فقد تحصل على معدلات قبول خاطئة أعلى. إذا اخترت عددا قليلا جدا من النطق ، حيث لا يتم تغطية جميع الاختلافات المتوقعة ، فقد تحصل على معدلات قبول صحيحة أقل.
نماذج الاختبار
بعد إنشاء الطرز الموجودة على الجهاز بواسطة كلمة رئيسية مخصصة، يمكن اختبارها مباشرة على البوابة الإلكترونية. يمكنك استخدام البوابة الإلكترونية للتحدث مباشرة إلى متصفحك والحصول على نتائج التعرف على الكلمات الرئيسية.
التحقق من الكلمات الرئيسية
التحقق من الكلمات الرئيسية هي خدمة سحابية تقلل من تأثير القبولات الخاطئة من الطرز الموجودة على الجهاز مع الطرز القوية التي تعمل على Azure. لا يلزم الضبط أو التدريب حتى يعمل التحقق من الكلمات الرئيسية مع كلمتك الرئيسية. يتم نشر تحديثات النماذج الإضافية باستمرار على الخدمة لتحسين الدقة والكمون وتكون شفافة لتطبيقات العميل.
التسعير
يتم استخدام التحقق من الكلمات الرئيسية دائما مع تحويل الكلام إلى نص. لا توجد تكلفة لاستخدام التحقق من الكلمات الرئيسية تتجاوز تكلفة تحويل الكلام إلى نص.
التحقق من الكلمات الرئيسية وتحويل الكلام إلى نص
عند استخدام التحقق من الكلمات الرئيسية، يتم دائما دمجها مع تحويل الكلام إلى نص. تعمل كلتا الخدمتين بالتوازي ، مما يعني إرسال الصوت إلى كلتا الخدمتين للمعالجة المتزامنة.

يؤدي تشغيل التحقق من الكلمات الرئيسية وتحويل الكلام إلى نص بالتوازي إلى تحقيق الفوائد التالية:
- لا يوجد زمن انتقال آخر على نتائج تحويل الكلام إلى نص: يعني التنفيذ المتوازي أن التحقق من الكلمات الرئيسية لا يضيف أي زمن وصول. يتلقى العميل نتائج تحويل الكلام إلى نص بنفس السرعة. إذا حدد التحقق من صحة الكلمة الرئيسية أن الكلمة الرئيسية لم تكن موجودة في الصوت، إنهاء معالجة تحويل الكلام إلى نص. يحمي هذا الإجراء من معالجة تحويل الكلام إلى نص غير ضرورية. تزيد معالجة نموذج الشبكة والسحابة من زمن الوصول المدرك للمستخدم للتنشيط الصوتي. لمزيد من المعلومات، راجع التوصيات والإرشادات.
- بادئة الكلمات الرئيسية القسرية في نتائج تحويل الكلام إلى نص: تضمن معالجة تحويل الكلام إلى نص أن تكون النتائج المرسلة إلى العميل مسبوقة بالكلمة الرئيسية. يسمح هذا السلوك بزيادة الدقة في نتائج تحويل الكلام إلى نص للكلام الذي يتبع الكلمة الرئيسية.
- زيادة مهلة تحويل الكلام إلى نص: نظرا للوجود المتوقع للكلمة الرئيسية في بداية الصوت، يسمح تحويل الكلام إلى نص بتوقف مؤقت أطول يصل إلى خمس ثوان بعد الكلمة الرئيسية قبل أن تحدد نهاية الكلام وتنهي معالجة تحويل الكلام إلى نص. يضمن هذا السلوك معالجة تجربة المستخدم بشكل صحيح للأوامر المرحلية (keywordpausecommand>><<>) والأوامر المتسلسلة (<<أمر الكلمة>< الأساسية>).
ردود التحقق من الكلمات الرئيسية واعتبارات زمن الوصول
لكل طلب إلى الخدمة، يعرض التحقق من صحة الكلمة الرئيسية أحد الردود: تم قبوله أو رفضه. يختلف زمن انتقال المعالجة وفقا لطول الكلمة الرئيسية وطول مقطع الصوت المتوقع أن يحتوي على الكلمة الرئيسية. لا يتضمن زمن انتقال المعالجة تكلفة الشبكة بين العميل وخدمات Azure Speech.
| استجابة التحقق من الكلمات الرئيسية | الوصف |
|---|---|
| مقبول | يشير إلى أن الخدمة تعتقد أن الكلمة الرئيسية موجودة في دفق الصوت المقدم كجزء من الطلب. |
| مرفوض وغير موافق عليه | يشير إلى أن الخدمة تعتقد أن الكلمة الرئيسية لم تكن موجودة في دفق الصوت المقدم كجزء من الطلب. |
غالبا ما تؤدي الحالات المرفوضة إلى زمن انتقال أعلى حيث تعالج الخدمة صوتا أكثر من الحالات المقبولة. بشكل افتراضي، يعالج التحقق من الكلمة الرئيسية أسبوعين كحد أقصى من الصوت للبحث عن الكلمة الرئيسية. إذا تم تحديد الكلمة الرئيسية على أنها غير موجودة في ثانيتين ، فإن مهلة الخدمة تشير إلى استجابة مرفوضة للعميل.
استخدام التحقق من صحة الكلمات الرئيسية مع الطرز الموجودة على الجهاز من الكلمات الرئيسية المخصصة
تتيح حزمة تطوير البرامج (SDK) الخاصة بالكلام الاستخدام السلس للطرز الموجودة على الجهاز والتي تم إنشاؤها باستخدام كلمة رئيسية مخصصة مع التحقق من الكلمات الرئيسية وتحويل الكلام إلى نص. يتعامل بشفافية:
- بوابة الصوت للتحقق من الكلمات الرئيسية والتعرف على الكلام استنادا إلى نتائج نموذج على الجهاز.
- توصيل الكلمة الرئيسية بالتحقق من الكلمات الرئيسية.
- توصيل أي بيانات وصفية أخرى إلى السحابة لتنسيق السيناريو من البداية إلى النهاية.
لست بحاجة إلى تحديد أي معلمات تكوين بشكل صريح. يتم استخراج جميع المعلومات الضرورية تلقائيا من الطراز الموجود على الجهاز الذي تم إنشاؤه بواسطة الكلمة الرئيسية المخصصة.
توضح العينة والبرامج التعليمية المرتبطة هنا كيفية استخدام Speech SDK:
- عينات المساعد الصوتي على GitHub
- البرنامج التعليمي: تمكين مساعدك الصوتي الذي تم إنشاؤه باستخدام خدمة Azure Bot باستخدام حزمة تطوير البرامج (SDK) للكلام C#
- البرنامج التعليمي: إنشاء تطبيق أوامر مخصصة مع أوامر صوتية بسيطة
تكامل SDK الكلام والسيناريوهات
تتيح حزمة تطوير البرامج (SDK) الخاصة بالكلام سهولة استخدام نماذج التعرف على الكلمات الرئيسية المخصصة على الجهاز والتي تم إنشاؤها باستخدام التحقق المخصص من الكلمات الرئيسية والكلمات الرئيسية. لضمان تلبية احتياجات منتجك، تدعم SDK السيناريوهين التاليين:
| السيناريو | الوصف | عينات |
|---|---|---|
| التعرف على الكلمات الرئيسية من طرف إلى طرف باستخدام تحويل الكلام إلى نص | الأنسب للمنتجات التي ستستخدم نموذج كلمات رئيسية مخصصا على الجهاز من الكلمة الرئيسية المخصصة مع التحقق من الكلمات الرئيسية في Azure Speech وتحويل الكلام إلى نص. هذا السيناريو هو الأكثر شيوعا. | |
| التعرف على الكلمات الرئيسية في وضع عدم الاتصال | الأنسب للمنتجات التي لا تحتوي على اتصال بالشبكة والتي ستستخدم نموذج كلمات رئيسية مخصص على الجهاز من الكلمة الرئيسية المخصصة. |