ما هي التدريبات والنماذج؟

النموذج هو النظام ، الذي يوفر الترجمة لزوج لغة معين. نتيجة التدريب الناجح هي نموذج. عند تدريب نموذج، يلزم وجود ثلاثة أنواع من المستندات الحصرية المتبادلة: التدريب والضبط والاختبار. يمكن أيضا توفير نوع مستند القاموس. لمزيد من المعلومات، راجعمحاذاة الجملة.

إذا تم توفير بيانات التدريب فقط عند وضع التدريب في قائمة انتظار، فسيقوم المترجم المخصص تلقائيا بتجميع بيانات الضبط والاختبار. سيستخدم مجموعة فرعية عشوائية من الجمل من مستندات التدريب الخاصة بك ، ويستبعد هذه الجمل من بيانات التدريب نفسها.

نوع مستند التدريب المترجم المخصص

يتم استخدام المستندات المضمنة في مجموعة التدريب من قبل المترجم المخصص كأساس لبناء النموذج الخاص بك. أثناء تنفيذ التدريب ، تتم محاذاة (أو إقران) الأحكام الموجودة في هذه المستندات. يمكنك أن تأخذ الحريات في تكوين مجموعة من وثائق التدريب الخاصة بك. يمكنك تضمين المستندات التي تعتقد أنها ذات أهمية عرضية في نموذج واحد. مرة أخرى استبعادهم في آخر لرؤية التأثير في درجة BLEU (تقييم ثنائي اللغة). طالما حافظت على ثبات مجموعة الضبط ومجموعة الاختبار ، فلا تتردد في تجربة تكوين مجموعة التدريب. هذا النهج هو وسيلة فعالة لتعديل جودة نظام الترجمة الخاص بك.

يمكنك تشغيل تدريبات متعددة داخل مشروع ومقارنة درجات BLEU عبر جميع عمليات التدريب. عند تشغيل تدريبات متعددة للمقارنة، تأكد من تحديد نفس بيانات الضبط/الاختبار في كل مرة. تأكد أيضا من فحص النتائج يدويا في علامة التبويب "الاختبار ".

ضبط نوع المستند ل "المترجم مخصص"

يتم استخدام المستندات المتوازية المضمنة في هذه المجموعة بواسطة المترجم المخصصة لضبط نظام الترجمة للحصول على أفضل النتائج.

يتم استخدام بيانات الضبط أثناء التدريب لضبط جميع معلمات وأوزان نظام الترجمة إلى القيم المثلى. اختر بيانات الضبط بعناية: يجب أن تكون بيانات الضبط ممثلة لمحتوى المستندات التي تنوي ترجمتها في المستقبل. تؤثر بيانات الضبط بشكل كبير على جودة الترجمات المنتجة. يمكن الضبط نظام الترجمة من توفير ترجمات أقرب إلى العينات التي تقدمها في بيانات الضبط. لا تحتاج إلى أكثر من 2500 جملة في بيانات الضبط الخاصة بك. للحصول على أفضل جودة للترجمة، يوصى بتحديد مجموعة الضبط يدويا عن طريق اختيار الاختيار الأكثر تمثيلا للجمل.

عند إنشاء مجموعة الضبط الخاصة بك، اختر الجمل التي تمثل طولا ذا مغزى وتمثيلا للجمل المستقبلية التي تتوقع ترجمتها. اختر الجمل التي تحتوي على كلمات وعبارات تنوي ترجمتها في التوزيع التقريبي الذي تتوقعه في ترجماتك المستقبلية. في الممارسة العملية ، سيؤدي طول الجملة من 7 إلى 10 كلمات إلى تحقيق أفضل النتائج ، لأن هذه الجمل تحتوي على سياق كاف لإظهار الانعطاف وتوفير طول عبارة مهم ، دون أن تكون معقدة للغاية.

الوصف الجيد لنوع الجمل التي يجب استخدامها في مجموعة الضبط هو النثر: جمل بطلاقة فعلية. لا خلايا الجدول ، وليس القصائد ، وليس قوائم الأشياء ، وليس فقط علامات الترقيم ، أو الأرقام في جملة - اللغة العادية.

إذا قمت بتحديد بيانات الضبط يدويا، فيجب ألا تحتوي على أي من الجمل نفسها مثل بيانات التدريب والاختبار. بيانات الضبط لها تأثير كبير على جودة الترجمات - اختر الجمل بعناية.

إذا لم تكن متأكدا مما تختاره لبيانات الضبط، فما عليك سوى تحديد بيانات التدريب والسماح ل "المترجم المخصص" بتحديد بيانات الضبط نيابة عنك. عندما تسمح المترجم المخصص باختيار بيانات الضبط تلقائيا، فإنه سيستخدم مجموعة فرعية عشوائية من الجمل من مستندات التدريب ثنائية اللغة ويستبعد هذه الجمل من المادة التدريبية نفسها.

اختبار مجموعة البيانات المترجم المخصصة

تستخدم المستندات المتوازية المضمنة في مجموعة الاختبار لحساب درجة BLEU (تقييم ثنائي اللغة). تشير هذه النتيجة إلى جودة نظام الترجمة الخاص بك. تخبرك هذه النتيجة في الواقع بمدى تطابق الترجمات التي يقوم بها نظام الترجمة الناتج عن هذا التدريب مع الجمل المرجعية في مجموعة بيانات الاختبار.

درجة BLEU هي قياس للدلتا بين الترجمة الآلية والترجمة المرجعية. تتراوح قيمته من 0 إلى 100. تشير درجة 0 إلى أنه لا تظهر كلمة واحدة من المرجع في الترجمة. تشير درجة 100 إلى أن الترجمة الآلية تتطابق تماما مع المرجع: نفس الكلمة في نفس الموضع بالضبط. النتيجة التي تتلقاها هي متوسط درجة BLEU لجميع جمل بيانات الاختبار.

يجب أن تتضمن بيانات الاختبار مستندات متوازية حيث تكون جمل اللغة المستهدفة هي أكثر الترجمات المرغوبة لجمل اللغة المصدر المقابلة في زوج المصدر المستهدف. قد ترغب في استخدام نفس المعايير التي استخدمتها لإنشاء بيانات الضبط. ومع ذلك، فإن بيانات الاختبار ليس لها أي تأثير على جودة نظام الترجمة. يتم استخدامه حصريا لإنشاء درجة BLEU لك.

لا تحتاج إلى أكثر من 2500 جملة كبيانات اختبار. عندما تسمح للنظام باختيار مجموعة الاختبار تلقائيا ، فإنه سيستخدم مجموعة فرعية عشوائية من الجمل من مستندات التدريب ثنائية اللغة الخاصة بك ، ويستبعد هذه الجمل من المادة التدريبية نفسها.

يمكنك عرض الترجمات المخصصة لمجموعة الاختبار، ومقارنتها بالترجمات المتوفرة في مجموعة الاختبار، من خلال الانتقال إلى علامة تبويب الاختبار داخل نموذج.