ما هو التعرف على الكلمة الأساسية؟

يكتشف التعرف على الكلمة الأساسية كلمة أو عبارة قصيرة داخل دفق الصوت. ويشار إلى هذه التقنية أيضا باسم تحديد الكلمة الأساسية.

حالة الاستخدام الأكثر شيوعًا للتعرف على الكلمات الرئيسية هي التنشيط الصوتي للمساعدين الظاهريين. على سبيل المثال، "Hey Cortana" هي كلمة أساسية لمساعد Cortana. عند التعرف على الكلمة الأساسية، يتم تنفيذ إجراء خاص بالسيناريو. يتمثل الإجراء الناتج الشائع بالنسبة لسيناريوهات المساعد الظاهري في التعرف على الصوت الذي يتبع الكلمة الأساسية.

بشكل عام، ينصت المساعدون الظاهريون دائمًا. يعمل التعرف على الكلمة الأساسية كحدود خصوصية للمستخدم. يعمل شرط الكلمة الأساسية كبوابة تمنع صوت المستخدم غير ذي الصلة من عبور الجهاز المحلي إلى السحابة.

يتم تنفيذ التعرف على الكلمة الأساسية كنظام متعدد المستويات لتحقيق التوازن بين الدقة وزمن الانتقال والتعقيد الحسابي. بالنسبة لجميع المراحل التي تتجاوز المرحلة الأولى، لا تتم معالجة الصوت إلا إذا كانت المرحلة السابقة له تتعرف على الكلمة الأساسية ذات الاهتمام.

صُمم النظام الحالي باستخدام مراحل متعددة تمتد عبر الحافة والسحابة:

Diagram that shows multiple stages of keyword recognition across the edge and cloud.

يتم قياس دقة التعرف على الكلمة الأساسية عبر المقاييس التالية:

  • معدل القبول الصحيح: يقيس قدرة النظام على التعرف على الكلمة الأساسية عندما ينطق بها المستخدم. يعرف معدل القبول الصحيح أيضا بالمعدل الإيجابي الحقيقي.
  • معدل القبول الخاطئ: يقيس قدرة النظام على تصفية الصوت الذي لا يمثل الكلمة الأساسية التي ينطق بها المستخدم. يعرف معدل القبول الخاطئ أيضا بالمعدل الإيجابي الزائف.

يتمثل الهدف في تكبير معدل القبول الصحيح مع تقليل معدل القبول الزائف. تم تصميم النظام الحالي للكشف عن كلمة أساسية أو عبارة يسبقها بقترة صمت قصير. لا يتم دعم الكشف عن كلمة أساسية في منتصف جملة أو تعبير.

كلمة أساسية مخصصة للنماذج على الجهاز

باستخدام مدخل الكلمة الأساسية المخصصة على Speech Studio، يمكنك إنشاء نماذج التعرف على الكلمات الأساسية التي يتم تنفيذها على الحافة عن طريق تحديد أي كلمة أو عبارة قصيرة. يمكنك تخصيص نموذج كلمتك الرئيسية بشكل أكبر عن طريق اختيار طرق النطق الصحيحة.

التسعير

لا توجد تكلفة لاستخدام الكلمات الرئيسية المخصصة لإنشاء النماذج، بما في ذلك النماذج الأساسية والمتقدمة. كما لا توجد تكلفة لتشغيل النماذج على الجهاز باستخدام Speech SDK عند استخدامها مع ميزات خدمة الكلام الأخرى مثل تحويل الكلام إلى نص.

أنواع النماذج

يمكنك استخدام الكلمة الأساسية المخصصة لإنشاء نوعين من النماذج على الجهاز لأي كلمة أساسية.

نوع النموذج ‏‏الوصف
أساسي الأنسب لأغراض العرض التوضيحي أو النماذج الأولية السريعة. يتم إنشاء النماذج باستخدام نموذج أساسي مشترك ويمكن أن يستغرق الأمر ما يصل إلى 15 دقيقة حتى يصبح جاهزًا. قد لا يكون للنماذج خصائص دقة مثالية.
خيارات متقدمة الأنسب لأغراض تكامل المنتج. يتم إنشاء النماذج مع تكييف نموذج أساسي مشترك باستخدام بيانات التدريب في المحاكاة لتحسين خصائص الدقة. قد يستغرق الأمر ما يصل إلى 48 ساعة حتى تكون النماذج جاهزة.

إشعار

يمكنك عرض قائمة المناطق التي تدعم نوع النموذج المتقدم في وثائق دعم منطقة التعرف على الكلمات الأساسية.

لا يتطلب أي من نوعي النموذج تحميل بيانات التدريب. تعالج الكلمة الأساسية المخصصة إنشاء البيانات وتدريب النموذج بشكل كامل.

النطق

عند إنشاء نموذج جديد، تنشئ الكلمة الأساسية المخصصة تلقائيًا طريقة نطق محتملة للكلمة الأساسية المتوفرة. يمكنك الاستماع إلى كل طريقة نطق واختيار جميع الاختلافات التي تمثل عن كثب الطريقة التي تتوقع أن ينطق بها المستخدمون الكلمة الرئيسية. يجب عدم تحديد جميع طرق النطق الأخرى.

من المهم أن تتداول بشأن النطق الذي تختاره لضمان أفضل خصائص الدقة. على سبيل المثال، إذا اخترت طرق نطق أكثر مما تحتاج إليه، فقد تزداد معدلات القبول الخاطئة. إذا اخترت عددًا قليلًا للغاية من طرق النطق، حيث لا تتم تغطية جميع الاختلافات المتوقعة، فقد تقل معدلات القبول الصحيحة.

نماذج الاختبار

بعد أن تنشئ الكلمة الأساسية المخصصة نماذج على الجهاز، يمكن اختبار النماذج مباشرة على المدخل. يمكنك استخدام المدخل للتحدث مباشرة في المستعرض الخاص بك والحصول على نتائج التعرف على الكلمة الأساسية.

التحقق من الكلمة الأساسية

التحقق من الكلمة الأساسية هو خدمة سحابية تقلل من تأثير القبول الخاطئ من النماذج على الجهاز مع نماذج قوية تعمل على Azure. الضبط أو التدريب ليس مطلوبًا حتى يعمل التحقق من الكلمات الرئيسية مع كلمتك الرئيسية. يتم نشر تحديثات النموذج التزايدية باستمرار في الخدمة لتحسين الدقة وزمن الانتقال وتكون شفافة لتطبيقات العميل.

التسعير

يتم دائما استخدام التحقق من الكلمة الأساسية مع تحويل الكلام إلى نص. لا توجد تكلفة لاستخدام التحقق من الكلمة الأساسية بخلاف تكلفة الكلام إلى النص.

التحقق من الكلمة الأساسية والكلام إلى نص

عند استخدام التحقق من الكلمة الأساسية، يكون دائما مقترنا بالكلام إلى النص. تعمل كلتا الخدمتين بالتوازي، ما يعني أنه يتم إرسال الصوت إلى كلتا الخدمتين للمعالجة المتزامنة.

Diagram that shows parallel processing of keyword verification and speech to text.

يؤدي تشغيل التحقق من الكلمة الأساسية والكلام إلى نص بالتوازي إلى الفوائد التالية:

  • لا يوجد زمن انتقال آخر في الكلام إلى نتائج النص: يعني التنفيذ المتوازي أن التحقق من الكلمة الأساسية لا يضيف زمن انتقال. يتلقى العميل الكلام إلى نتائج نصية في أسرع وقت. إذا حدد التحقق من الكلمة الأساسية عدم وجود الكلمة الأساسية في الصوت، يتم إنهاء معالجة الكلام إلى النص. يحمي هذا الإجراء من الكلام غير الضروري لمعالجة النص. تزيد معالجة نموذج الشبكة والسحابة من زمن الانتقال الذي يتصوره المستخدم لتنشيط الصوت. لمزيد من المعلومات، راجع التوصيات والإرشادات.
  • بادئة الكلمة الأساسية القسرية في الكلام إلى نتائج النص: تضمن معالجة الكلام إلى النص أن النتائج المرسلة إلى العميل مسبوقة بالكلمة الأساسية . يسمح هذا السلوك بزيادة الدقة في نتائج الكلام إلى النص للكلام الذي يتبع الكلمة الأساسية.
  • زيادة مهلة الكلام إلى النص: نظرا لوجود الكلمة الأساسية المتوقع في بداية الصوت، يسمح الكلام إلى النص بإيقاف مؤقت أطول لمدة تصل إلى خمس ثوان بعد الكلمة الأساسية قبل أن تحدد نهاية الكلام وتنهي معالجة الكلام إلى نص. يضمن هذا السلوك معالجة تجربة المستخدم بشكل صحيح للأوامر المرحلية (<keyword><pause><command>) والأوامر المتسلسلة (<keyword><command>).

استجابات التحقق من الكلمة الأساسية واعتبارات زمن الانتقال

لكل طلب للخدمة، يُرجع التحقق من الكلمات الرئيسية أحد الاستجابتين: مقبولة أو مرفوضة. يختلف زمن انتقال المعالجة بناءً على طول الكلمة الأساسية وطول مقطع الصوت المتوقع أن يحتوي على الكلمة الأساسية. لا تتضمن معالجة زمن الانتقال تكلفة الشبكة بين العميل وخدمات الكلام.

استجابة التحقق من الكلمة الأساسية ‏‏الوصف
مقبولة يشير إلى أن الخدمة تعتقد أن الكلمة الأساسية كانت موجودة في دفق الصوت المقدم كجزء من الطلب.
مرفوض يشير إلى أن الخدمة تعتقد أن الكلمة الأساسية لم تكن موجودة في دفق الصوت المقدم كجزء من الطلب.

غالبًا ما تؤدي الحالات المرفوضة إلى زيادة زمن الانتقال نظرًا لأن الخدمة تعالج الصوت أكثر مما تفعل في الحالات المقبولة. بشكل افتراضي، يعالج التحقق من الكلمة الأساسية ثانيتين كحد أقصى من الصوت للبحث عن الكلمة الأساسية. إذا لم يتم العثور على الكلمة الأساسية في ثانيتين، مهلة الخدمة وتشير إلى استجابة مرفوضة للعميل.

استخدام التحقق من الكلمة الأساسية مع النماذج على الجهاز من الكلمة الأساسية المخصصة

يتيح Speech SDK الاستخدام السلس للنماذج على الجهاز التي تم إنشاؤها باستخدام كلمة أساسية مخصصة مع التحقق من الكلمة الأساسية والكلام إلى نص. يعالج بشفافية:

  • بوابات الصوت للتحقق من الكلمات الرئيسية والتعرف على الكلام بناءً على نتيجة النموذج الموجود على الجهاز.
  • توصيل الكلمة الأساسية بالتحقق من الكلمة الأساسية.
  • توصيل أي بيانات تعريف أخرى إلى السحابة لتنسيق السيناريو الشامل.

لا تحتاج إلى تحديد أي معلمة من معلمات التكوين بشكل صريح. يتم استخراج جميع المعلومات الضرورية تلقائيًا من النموذج على الجهاز الذي تم إنشاؤه بواسطة الكلمة الأساسية المخصصة.

توضح العينة والبرامج التعليمية المرتبطة هنا كيفية استخدام Speech SDK:

تكامل Speech SDK وسيناريوهاته

يتيح Speech SDK سهولة استخدام نماذج التعرف على الكلمات الأساسية المخصصة على الجهاز التي تم إنشاؤها باستخدام الكلمة الأساسية المخصصة والتحقق من الكلمة الأساسية. لضمان تلبية احتياجات منتجك، تدعم SDK السيناريوهين التاليين:

السيناريو ‏‏الوصف العينات
التعرف على الكلمة الأساسية من طرف إلى طرف مع تحويل الكلام إلى نص الأنسب للمنتجات التي تستخدم نموذج كلمات أساسية مخصصة على الجهاز من الكلمة الأساسية المخصصة مع التحقق من الكلمة الأساسية والكلام إلى النص. هذا هو السيناريو الأكثر شيوعًا.
التعرف على الكلمات الرئيسية دون اتصال الأنسب للمنتجات التي لا تحتوي على اتصال بالشبكة التي تستخدم نموذج كلمات أساسية مخصصة على الجهاز من كلمة أساسية مخصصة.

الخطوات التالية