إقران الجمل ومحاذاتها في مستندات متوازية
بعد تحميل المستندات، يتم إقران الجمل الموجودة في مستندات متوازية أو محاذاتها. يبلغ المترجم المخصص عن عدد الجمل التي تمكن من إقرانها كجمل محاذاة في كل مجموعة من مجموعات البيانات.
عملية الاقتران والمحاذاة
يتعلم المترجم المخصص ترجمات الجمل جملة واحدة في كل مرة. يقرأ جملة من النص المصدر ، ثم ترجمة هذه الجملة من النص المستهدف. ثم يقوم بمحاذاة الكلمات والعبارات في هاتين الجملتين مع بعضها البعض. تمكنها هذه العملية من إنشاء خريطة للكلمات والعبارات في جملة واحدة إلى الكلمات والعبارات المكافئة في ترجمة الجملة. تحاول المحاذاة التأكد من أن النظام يتدرب على الجمل التي هي ترجمات لبعضها البعض.
المستندات المحاذاة مسبقا
إذا كنت تعرف أن لديك مستندات متوازية، فيمكنك تجاوز محاذاة الجملة عن طريق توفير ملفات نصية محاذاة مسبقا. يمكنك استخراج جميع الجمل من كلا المستندين في ملف نصي ، وتنظيم جملة واحدة لكل سطر ، وتحميلها بامتداد .align . يشير الامتداد .align إلى المترجم مخصص أنه يجب تخطي محاذاة الجملة.
للحصول على أفضل النتائج، حاول التأكد من وجود جملة واحدة لكل سطر في ملفاتك. لا تحتوي على أحرف سطر جديدة داخل الجملة لأن هذا سيؤدي إلى محاذاة سيئة.
الحد الأدنى المقترح لعدد الجمل
لكي ينجح التدريب ، يوضح الجدول أدناه الحد الأدنى لعدد الجمل المطلوبة في كل نوع من أنواع المستندات. هذا القيد هو شبكة أمان لضمان احتواء الجمل المتوازية على ما يكفي من المفردات الفريدة لتدريب نموذج الترجمة بنجاح. المبدأ التوجيهي العام هو أن وجود المزيد من الجمل المتوازية في المجال لجودة الترجمة البشرية يجب أن تنتج نماذج أعلى جودة.
| نوع المستند | الحد الأدنى المقترح لعدد الجمل | الحد الأقصى لعدد العقوبة |
|---|---|---|
| التدريب | 10,000 | لا يوجد حد أعلى |
| الضبط | 500 | 2,500 |
| الاختبار | 500 | 2,500 |
| القاموس | 0 | 250,000 |
ملاحظة
- لن يبدأ التدريب وسيفشل إذا لم يتم استيفاء الحد الأدنى لعدد العقوبة البالغ 10000 للتدريب.
- الضبط والاختبار اختياريان. إذا لم تقم بتوفيرها، فسيقوم النظام بإزالة نسبة مئوية مناسبة من التدريب لاستخدامها في التحقق من الصحة والاختبار.
- يمكنك تدريب نموذج باستخدام بيانات القاموس فقط. يرجى الرجوع إلى ما هو القاموس.
- إذا كان قاموسك يحتوي على أكثر من 250,000 جملة، فإن المترجم المستندات لدينا هو الخيار الأفضل. يرجى الرجوع إلى الوثيقة المترجم.
- الحد الأقصى للتدريب على الاشتراك المجاني (F0) هو 2,000,000 حرف.
الخطوات التالية
- تعرف على كيفية استخدام قاموس في المترجم مخصص.