مصطلحات مفتاح المترجم المخصص

يعرض الجدول التالي قائمة بالمصطلحات الرئيسية التي قد تجدها أثناء العمل مع المترجم المخصص.

كلمة أو عبارة التعريف
لغة المصدر اللغة المصدر هي لغة البداية التي تريد تحويلها إلى لغة أخرى ("الهدف").
لغة الهدف اللغة الهدف هي اللغة التي تريد أن توفرها الترجمة الآلية بعد أن تتلقى اللغة المصدر.
ملف أحادي اللغة يحتوي الملف الأحادي اللغة على لغة واحدة غير مقترنة بملف آخر بلغة مختلفة.
ملفات متوازية الملف المتوازي هو مزيج من ملفين مع نص مطابق. يحتوي ملف واحد على اللغة المصدر. والآخر لديه اللغة الهدف.
محاذاة الجمل يجب أن تحتوي مجموعة البيانات المتوازية على جمل متوائمة مع الجمل التي تمثل نفس النص في كلتا اللغتين. على سبيل المثال، في ملف متوازي المصدر يجب تعيين الجملة الأولى نظريا إلى الجملة الأولى في الملف المتوازي الهدف.
محاذاة النص تتمثل إحدى أهم خطوات التحقق من صحة الملف في محاذاة الجمل في المستندات المتوازية. يتم التعبير عن الأشياء بشكل مختلف بلغات مختلفة. تحتوي اللغات المختلفة أيضًا على أوامر كلمات مختلفة. تؤدي هذه الخطوة مهمة محاذاة الجمل مع المحتوى نفسه بحيث يمكن استخدامها للتدريب. تشير محاذاة الجملة المنخفضة إلى أنه قد يكون هناك خطأ في أحد الملفات أو كليهما.
تجزئة الكلمات/ إلغاء التقسيم إن تجزئة الكلمات هي دالة وضع علامة على الحدود بين الكلمات. تستخدم العديد من أنظمة الكتابة مسافة للإشارة إلى الحد بين الكلمات. يشير إلغاء تجزئة الكلمة إلى إزالة أي علامة مرئية ربما تم إدراجها بين الكلمات في خطوة سابقة.
المحددات المحددات هي الطرق التي يتم بها تقسيم الجملة إلى مقاطع أو تحديد الهامش بين الجمل. على سبيل المثال، في المسافات الإنجليزية تحدد الكلمات والنقطتين وشبه النقطتين تحدد الجمل والنقاط.
ملفات التدريب يتم استخدام ملف تدريب لتعليم نظام الترجمة الآلية كيفية التعيين من لغة واحدة (المصدر) إلى لغة مستهدفة (الهدف). كلما قدمت المزيد من البيانات، كان أداء النظام أفضل.
ضبط الملفات غالبًا ما يتم اشتقاق هذه الملفات عشوائيًا من مجموعة التدريب (إذا لم تحدد مجموعة ضبط). يتم تحديد الجمل تلقائيا واستخدامها لضبط النظام والتأكد من أنه يعمل بشكل صحيح. إذا كنت ترغب في إنشاء نموذج ترجمة للأغراض العامة وإنشاء ملفات ضبط خاصة بك، فتأكد من أنها مجموعة عشوائية من الجمل عبر المجالات
اختبار الملفات غالبا ما تكون هذه الملفات ملفات مشتقة، يتم تحديدها عشوائيا من مجموعة التدريب (إذا لم تحدد أي مجموعة اختبار). الغرض من هذه الجمل هو تقييم دقة نموذج الترجمة. للتأكد من أن النظام يترجم هذه الجمل بدقة، قد ترغب في إنشاء مجموعة اختبار وتحميلها إلى المترجم. سيؤدي القيام بذلك إلى ضمان استخدام الجمل في تقييم النظام (إنشاء درجة BLEU).
ملف التحرير والسرد نوع الملف الذي يتم فيه تضمين الجمل المصدر والجمل المترجمة في نفس الملف. تنسيقات الملفات المدعومة (TMX وXLIFF وXLF وICI وXLSX).
أرشفة الملف ملف يحتوي على ملفات أخرى. تنسيقات الملفات المدعومة (zip وgz وtgz).
نقاط BLEU BLEU هو الأسلوب القياسي للصناعة لتقييم "دقة" أو دقة نموذج الترجمة. على الرغم من وجود أساليب أخرى للتقييم، يعتمد Microsoft Translator على أسلوب BLEU للإبلاغ عن الدقة لمالكي المشاريع.