تقييم وتحسين دقة أدوات تخصيص الكلام

في هذه المقالة، تتعلم كيفية قياس وتحسين دقة نموذج تحويل الكلام إلى نص من Microsoft أو النماذج المخصصة الخاصة بك. مطلوب الصوت + بيانات النسخ التي تحمل علامة الإنسان لاختبار الدقة ، ويجب توفير 30 دقيقة إلى 5 ساعات من الصوت التمثيلي.

تقييم دقة الكلام المخصص

معيار الصناعة لقياس دقة النموذج هو معدل خطأ الكلمة (WER). يحسب WER عدد الكلمات غير الصحيحة التي تم تحديدها أثناء التعرف ، ويقسم المجموع على إجمالي عدد الكلمات المقدمة في النص المسمى بشريا (الموضح في الصيغة التالية ك N) ، ثم يضرب هذا الحاصل في 100 لحساب معدل الخطأ كنسبة مئوية.

Screenshot showing the WER formula.

تنقسم الكلمات التي تم تحديدها بشكل غير صحيح إلى ثلاث فئات:

  • الإدراج (I): الكلمات التي تمت إضافتها بشكل غير صحيح في نص الفرضية
  • الحذف (D): الكلمات التي لم يتم اكتشافها في نص الفرضية
  • الاستبدال (S): الكلمات التي تم استبدالها بين المرجع والفرضية

فيما يلي مثال على ذلك:

Screenshot showing an example of incorrectly identified words.

إذا كنت ترغب في تكرار قياسات WER محليا، فيمكنك استخدام أداة sclite من مجموعة أدوات تسجيل نقاط NIST (SCTK).

حل الأخطاء وتحسين WER

يمكنك استخدام حساب WER من نتائج التعرف على الجهاز لتقييم جودة النموذج الذي تستخدمه مع تطبيقك أو أداتك أو منتجك. يعتبر WER من 5-10٪ ذات نوعية جيدة وجاهز للاستخدام. معدل 20٪ مقبول ، ولكن قد ترغب في التفكير في تدريب إضافي. يشير WER بنسبة 30٪ أو أكثر إلى جودة رديئة ويتطلب التخصيص والتدريب.

كيفية توزيع الأخطاء أمر مهم. عندما تتم مواجهة العديد من أخطاء الحذف ، فعادة ما يكون ذلك بسبب ضعف قوة الإشارة الصوتية. لحل هذه المشكلة، تحتاج إلى جمع بيانات صوتية أقرب إلى المصدر. تعني أخطاء الإدراج أنه تم تسجيل الصوت في بيئة صاخبة وقد يكون الحديث المتبادل موجودا ، مما يتسبب في حدوث مشكلات في التعرف. غالبا ما تتم مواجهة أخطاء الاستبدال عندما يتم تقديم عينة غير كافية من المصطلحات الخاصة بالمجال إما كنسخ موسومة بالإنسان أو نص ذي صلة.

من خلال تحليل الملفات الفردية، يمكنك تحديد نوع الأخطاء الموجودة، والأخطاء الفريدة لملف معين. سيساعدك فهم المشكلات على مستوى الملف على استهداف التحسينات.

إنشاء اختبار

إذا كنت ترغب في اختبار جودة نموذج الأساس لتحويل الكلام إلى نص من Microsoft أو نموذج مخصص قمت بتدريبه، فيمكنك مقارنة نموذجين جنبا إلى جنب. تتضمن المقارنة نتائج WER والاعتراف. عادة ما تتم مقارنة نموذج مخصص مع نموذج Microsoft الأساسي.

لتقييم النماذج جنبا إلى جنب، قم بما يلي:

  1. سجل الدخول إلى مدخل الكلام المخصص.

  2. حدد تحويل الكلام إلى نصاسم>الكلام><المخصص ل projectTesting>>.

  3. حدد إضافة اختبار.

  4. حدد تقييم الدقة. امنح الاختبار اسما ووصفا، ثم حدد مجموعة بيانات النسخ الصوتية + التي تحمل علامة الإنسان.

  5. حدد ما يصل إلى طرازين تريد اختبارهما.

  6. حدد "Create".

بعد إنشاء الاختبار بنجاح، يمكنك مقارنة النتائج جنبا إلى جنب.

مقارنة جنبا إلى جنب

بعد اكتمال الاختبار، كما هو موضح في تغيير الحالة إلى ناجح، ستجد رقم WER لكلا الطرازين المضمنين في الاختبار. حدد اسم الاختبار لعرض صفحة تفاصيل الاختبار. تسرد هذه الصفحة جميع الألفاظ في مجموعة البيانات الخاصة بك ونتائج التعرف على النموذجين، إلى جانب النسخ من مجموعة البيانات المقدمة.

لفحص المقارنة جنبا إلى جنب، يمكنك تبديل أنواع الأخطاء المختلفة، بما في ذلك الإدراج والحذف والاستبدال. من خلال الاستماع إلى الصوت ومقارنة نتائج التعرف في كل عمود ، والتي تعرض النسخ المسمى بشريا والنتائج لنموذجين لتحويل الكلام إلى نص ، يمكنك تحديد النموذج الذي يلبي احتياجاتك وتحديد المكان الذي يتطلب تدريبا وتحسينات إضافية.

تحسين دقة الكلام المخصص

تختلف سيناريوهات التعرف على الكلام حسب جودة الصوت واللغة (المفردات وأسلوب التحدث). يتناول الجدول التالي أربعة سيناريوهات شائعة:

السيناريو جودة الصوت المفردات أسلوب التحدث
مركز الاتصال منخفض ، 8 كيلو هرتز ، يمكن أن يكون شخصين على قناة صوتية واحدة ، يمكن ضغطه ضيق وفريد من نوعه للمجال والمنتجات المحادثة ، منظمة بشكل فضفاض
مساعد صوتي، مثل Cortana، أو نافذة من خلال محرك الأقراص عالي، 16 كيلو هرتز الكيان الثقيل (عناوين الأغاني والمنتجات والمواقع) الكلمات والعبارات المنصوص عليها بوضوح
الإملاء (رسالة فورية وملاحظات وبحث) عالي، 16 كيلو هرتز متنوعه تدوين الملاحظات
عرض توضيحي مغلق للفيديو متنوعة ، بما في ذلك استخدام الميكروفون المتنوع ، وأضاف الموسيقى متنوعة ، من الاجتماعات ، والكلام المتلى ، والكلمات الموسيقية القراءة أو الإعداد أو التنظيم الفضفاض

السيناريوهات المختلفة تنتج نتائج جودة مختلفة. يدرس الجدول التالي كيفية معدلات المحتوى من هذه السيناريوهات الأربعة في WER. يوضح الجدول أنواع الأخطاء الأكثر شيوعا في كل سيناريو.

السيناريو جودة التعرف على الكلام أخطاء الإدراج أخطاء الحذف أخطاء الاستبدال
مركز الاتصال متوسط
<( 30٪ وير)
منخفض، إلا عندما يتحدث أشخاص آخرون في الخلفية يمكن أن تكون عالية. يمكن أن تكون مراكز الاتصال صاخبة ، ويمكن أن يؤدي تداخل مكبرات الصوت إلى إرباك النموذج متوسط. يمكن أن تتسبب المنتجات وأسماء الأشخاص في حدوث هذه الأخطاء
مساعد صوتي درجة عالية
(يمكن أن يكون < 10٪ WER)
منخفض منخفض متوسطة، بسبب عناوين الأغاني أو أسماء المنتجات أو المواقع
الإملاء درجة عالية
(يمكن أن يكون < 10٪ WER)
منخفض منخفض درجة عالية
عرض توضيحي مغلق للفيديو يعتمد على نوع الفيديو (يمكن أن يكون < 50٪ WER) منخفض يمكن أن تكون عالية بسبب الموسيقى والضوضاء وجودة الميكروفون المصطلحات قد تسبب هذه الأخطاء

يساعد تحديد مكونات WER (عدد أخطاء الإدراج والحذف والاستبدال) في تحديد نوع البيانات التي يجب إضافتها لتحسين النموذج. استخدم مدخل الكلام المخصص لعرض جودة نموذج أساسي. تقوم البوابة الإلكترونية بالإبلاغ عن معدلات خطأ الإدراج والاستبدال والحذف التي يتم دمجها في معدل جودة WER.

تحسين التعرف على النموذج

يمكنك تقليل أخطاء التعرف عن طريق إضافة بيانات التدريب في مدخل الكلام المخصص.

خطط للحفاظ على نموذجك المخصص عن طريق إضافة مواد المصدر بشكل دوري. يحتاج نموذجك المخصص إلى تدريب إضافي للبقاء على دراية بالتغييرات التي تطرأ على كياناتك. على سبيل المثال، قد تحتاج إلى تحديثات لأسماء المنتجات أو أسماء الأغاني أو مواقع الخدمة الجديدة.

تصف الأقسام التالية كيف يمكن لكل نوع من بيانات التدريب الإضافية تقليل الأخطاء.

إضافة بيانات نص عادي

عند تدريب نموذج مخصص جديد، ابدأ بإضافة جمل نصية عادية من النص ذي الصلة لتحسين التعرف على الكلمات والعبارات الخاصة بالمجال. يمكن أن تقلل الجمل النصية ذات الصلة في المقام الأول من أخطاء الاستبدال المتعلقة بسوء التعرف على الكلمات الشائعة والكلمات الخاصة بالمجال من خلال عرضها في السياق. يمكن أن تكون الكلمات الخاصة بالمجال كلمات غير شائعة أو مختلقة ، ولكن يجب أن يكون نطقها واضحا للتعرف عليها.

ملاحظة

تجنب الجمل النصية ذات الصلة التي تتضمن ضوضاء مثل الأحرف أو الكلمات التي لا يمكن التعرف عليها.

إضافة بيانات نص منظم

يمكنك استخدام بيانات النص المنظم بتنسيق التخفيض كما تفعل مع جمل النص العادي، ولكنك ستستخدم بيانات النص المنظم عندما تتبع بياناتك نمطا معينا في ألفاظ معينة تختلف فقط بالكلمات أو العبارات من قائمة. لمزيد من المعلومات، يرجى الاطلاع على بيانات النص المنظم للتدريب.

ملاحظة

يتم دعم التدريب باستخدام نص منظم فقط لهذه اللغات: en-US و de-DE و en-UK و en-INو fr-FR و fr-CA و es-ES و es-MX. يجب عليك استخدام أحدث نموذج أساسي لهذه اللغات. راجع دعم اللغة للحصول على قائمة بالنماذج الأساسية التي تدعم التدريب باستخدام بيانات النص المنظم.

بالنسبة إلى اللغات التي لا تدعم التدريب باستخدام نص منظم، ستأخذ الخدمة أي جمل تدريبية لا تشير إلى الفصول الدراسية كجزء من التدريب باستخدام بيانات النص العادي.

إضافة صوت باستخدام نصوص تحمل علامة الإنسان

يوفر الصوت الذي يحتوي على نصوص تحمل علامة بشرية أكبر تحسينات في الدقة إذا كان الصوت يأتي من حالة الاستخدام المستهدفة. يجب أن تغطي العينات النطاق الكامل للكلام. على سبيل المثال ، سيحصل مركز اتصال لمتجر بيع بالتجزئة على أكبر عدد من المكالمات حول ملابس السباحة والنظارات الشمسية خلال أشهر الصيف. تأكد من أن عينتك تتضمن النطاق الكامل للكلام الذي تريد اكتشافه.

ضع في اعتبارك هذه التفاصيل:

  • سيحقق التدريب باستخدام الصوت أكبر قدر من الفوائد إذا كان من الصعب أيضا فهم الصوت للبشر. في معظم الحالات ، يجب أن تبدأ التدريب باستخدام النص ذي الصلة فقط.
  • إذا كنت تستخدم واحدة من أكثر اللغات استخداما ، مثل اللغة الإنجليزية الأمريكية ، فمن غير المحتمل أن تحتاج إلى التدريب باستخدام البيانات الصوتية. بالنسبة لمثل هذه اللغات ، تقدم النماذج الأساسية بالفعل نتائج اعتراف جيدة جدا في معظم السيناريوهات ، لذلك ربما يكفي التدريب على النص ذي الصلة.
  • يمكن للكلام المخصص التقاط سياق الكلمة فقط لتقليل أخطاء الاستبدال، وليس أخطاء الإدراج أو الحذف.
  • تجنب العينات التي تتضمن أخطاء في النسخ، ولكنها تتضمن مجموعة متنوعة من جودة الصوت.
  • تجنب الجمل التي لا علاقة لها بمجال مشكلتك. الجمل غير ذات الصلة يمكن أن تضر نموذجك.
  • عندما تختلف جودة النص ، يمكنك تكرار الجمل الجيدة بشكل استثنائي (مثل النسخ الممتازة التي تتضمن عبارات رئيسية) لزيادة وزنها.
  • تستخدم خدمة "الكلام" النصوص تلقائيا لتحسين التعرف على الكلمات والعبارات الخاصة بالمجال، كما لو كانت قد أضيفت كنص ذي صلة.
  • قد يستغرق الأمر عدة أيام حتى تنتهي عملية التدريب. لتحسين سرعة التدريب، تأكد من إنشاء اشتراك خدمة Speech في منطقة بها أجهزة مخصصة للتدريب.

ملاحظة

لا تدعم جميع الطرز الأساسية التدريب بالصوت. إذا كان النموذج الأساسي لا يدعم الصوت، فستستخدم خدمة "الكلام" النص من النصوص فقط وتتجاهل الصوت. للحصول على قائمة بالنماذج الأساسية التي تدعم التدريب باستخدام البيانات الصوتية، راجع دعم اللغة. حتى إذا كان النموذج الأساسي يدعم التدريب باستخدام البيانات الصوتية، فقد تستخدم الخدمة جزءا فقط من الصوت. وسيظل يستخدم جميع النصوص.

ملاحظة

عند تغيير النموذج الأساسي المستخدم للتدريب، ولديك صوت في مجموعة بيانات التدريب، تحقق دائما لمعرفة ما إذا كان النموذج الأساسي الجديد المحدد يدعم التدريب باستخدام البيانات الصوتية. إذا كان النموذج الأساسي المستخدم سابقا لا يدعم التدريب باستخدام البيانات الصوتية، وكانت مجموعة بيانات التدريب تحتوي على صوت، فسيزداد وقت التدريب مع النموذج الأساسي الجديد بشكل كبير . قد تنتقل المدة بسهولة من عدة ساعات إلى عدة أيام أو أكثر. ينطبق هذا بشكل خاص إذا لم يكن اشتراكك في خدمة Speech في منطقة تحتوي على الأجهزة المخصصة للتدريب.

إذا واجهت هذه المشكلة ، فيمكنك تقليل وقت التدريب عن طريق تقليل كمية الصوت في مجموعة البيانات أو إزالتها تماما وترك النص فقط. نوصي بالخيار الأخير إذا لم يكن اشتراكك في خدمة Speech في منطقة بها مثل هذه الأجهزة المخصصة.

إضافة كلمات جديدة مع النطق

الكلمات التي تتكون أو عالية التخصص قد يكون لها نطق فريد. يمكن التعرف على هذه الكلمات إذا كان من الممكن تقسيمها إلى كلمات أصغر لنطقها. على سبيل المثال، للتعرف على Xbox، انطقه ك X box. لن يؤدي هذا النهج إلى زيادة الدقة الإجمالية ، ولكن يمكن أن يحسن التعرف على هذه الكلمة الرئيسية وغيرها من الكلمات الرئيسية.

ملاحظة

هذه التقنية متاحة للغات معينة فقط في الوقت الحالي. لمعرفة اللغات التي تدعم تخصيص النطق، ابحث عن "النطق" في عمود التخصيصات في جدول تحويل الكلام إلى نص.

المصادر حسب السيناريو

يوضح الجدول التالي سيناريوهات التعرف على الصوت ويسرد المواد المصدرية التي يجب مراعاتها ضمن فئات محتوى التدريب الثلاث المذكورة سابقا.

السيناريو بيانات النص العادي و
بيانات النص المنظم
الصوت + النصوص التي تحمل علامة الإنسان كلمات جديدة مع النطق
مركز الاتصال وثائق التسويق والموقع الإلكتروني ومراجعات المنتجات المتعلقة بنشاط مركز الاتصال مكالمات مركز الاتصال التي ينسخها البشر المصطلحات التي تحتوي على نطق غامض (راجع مثال Xbox في القسم السابق)
مساعد صوتي قوائم الجمل التي تستخدم مجموعات مختلفة من الأوامر والكيانات أوامر نطق الأصوات المسجلة في الجهاز، ونسخها إلى نص الأسماء (الأفلام والأغاني والمنتجات) التي لها نطق فريد
الإملاء الإدخال المكتوب، مثل الرسائل الفورية أو رسائل البريد الإلكتروني على غرار الأمثلة السابقة على غرار الأمثلة السابقة
عرض توضيحي مغلق للفيديو نصوص البرامج التلفزيونية والأفلام والمحتوى التسويقي وملخصات الفيديو النصوص الدقيقة لمقاطع الفيديو على غرار الأمثلة السابقة

الخطوات التالية

الموارد الإضافية