المترجم المخصص للمبتدئين

يمكنك المترجم المخصص من إنشاء نظام ترجمة يعكس المصطلحات والأنماط الخاصة بالأعمال والصناعة والمجال. يعد تدريب ونشر نظام مخصص أمرًا سهلًا ولا يتطلب أي مهارات برمجة. يتكامل نظام الترجمة المخصص بسلاسة في التطبيقات وسير العمل ومواقع الويب الحالية، وهو متاح على Azure من خلال نفس خدمة واجهة برمجة تطبيقات ترجمة نص Microsoft المستندة إلى السحابة التي تشغل مليارات الترجمات كل يوم.

يمكن النظام الأساسي المستخدمين من إنشاء أنظمة ترجمة مخصصة ونشرها من وإلى اللغة الإنجليزية. يدعم المترجم المخصص أكثر من 60 لغة تعين مباشرة إلى اللغات المتوفرة ل NMT. للحصول على قائمة كاملة، راجعدعم لغة المترجم.

هل نموذج الترجمة المخصص هو الخيار المناسب لي؟

يوفر نموذج الترجمة المخصصة المدرب تدريبا جيدا ترجمات أكثر دقة خاصة بالمجال لأنه يعتمد على المستندات المترجمة مسبقا في المجال لتعلم الترجمات المفضلة. يستخدم المترجم هذه المصطلحات والعبارات في السياق لإنتاج ترجمات بطلاقة في اللغة الهدف مع احترام التدقيق النحوي المعتمد على السياق.

يتطلب تدريب نموذج ترجمة مخصص كامل كمية كبيرة من البيانات. إذا لم يكن لديك ما لا يقل عن 10,000 جملة من المستندات المدربة مسبقًا، فلن تتمكن من تدريب نموذج ترجمة بلغة كاملة. ومع ذلك، يمكنك إما تدريب نموذج قاموس فقط أو استخدام الترجمات عالية الجودة الجاهزة المتوفرة مع واجهة برمجة تطبيقات ترجمة النص.

Screenshot illustrating the difference between custom and general models.

ما الذي يتضمنه تدريب نموذج الترجمة المخصصة؟

يتطلب إنشاء نموذج ترجمة مخصص ما يلي:

  • فهم حالة الاستخدام الخاصة بك.

  • الحصول على البيانات المترجمة في المجال (يفضل أن تكون ترجمة بشرية).

  • القدرة على تقييم جودة الترجمة أو ترجمات اللغة المستهدفة.

كيف أعمل تقييم حالة الاستخدام؟

إن الوضوح في حالة الاستخدام الخاصة بك وما يبدو عليه النجاح هو الخطوة الأولى نحو الحصول على بيانات التدريب النابية. فيما يلي بعض الاعتبارات:

  • ما هي النتيجة التي تريدها وكيف تقيسها؟

  • ما هو مجال عملك؟

  • هل لديك جمل داخل المجال ذات مصطلحات وأسلوب مماثلين؟

  • هل تتضمن حالة الاستخدام مجالات متعددة؟ إذا كانت الإجابة بنعم، فهل يجب عليك إنشاء نظام ترجمة واحد أو أنظمة متعددة؟

  • هل لديك متطلبات تؤثر على موقع البيانات الإقليمية الثابتة والمتنقلة؟

  • هل المستخدمون المستهدفون في منطقة واحدة أو عدة مناطق؟

كيف يجب أن أصدر بياناتي؟

غالبًا ما يكون العثور على بيانات ذات جودة داخل المجال مهمة صعبة تختلف استنادًا إلى تصنيف المستخدم. فيما يلي بعض الأسئلة التي يمكنك طرحها على نفسك أثناء تقييم البيانات التي قد تكون متاحة لك:

  • غالبًا ما يكون لدى المؤسسات ثروة من بيانات الترجمة التي تراكمت على مدى سنوات عديدة من استخدام الترجمة البشرية. هل لدى شركتك بيانات ترجمة سابقة متوفرة يمكنك استخدامها؟

  • هل لديك كمية هائلة من البيانات أحادية اللغة؟ البيانات أحادية اللغة هي بيانات بلغة واحدة فقط. إذا كان الأمر كذلك، فهل يمكنك الحصول على ترجمات لهذه البيانات؟

  • هل يمكنك تتبع ارتباطات المداخل عبر الإنترنت لجمع الجمل المصدر وتجميع الجمل المستهدفة؟

ما الذي يجب استخدامه للمواد التدريبية؟

المصدر ماذا تفعل القواعد التي يجب اتباعها
وثائق التدريب ثنائية اللغة يعلم النظام مصطلحاتك وأسلوبك. كن ليبراليا. أي ترجمة بشرية في المجال أفضل من الترجمة الآلية. إضافة المستندات وإزالتها أثناء التنقل ومحاولة تحسين درجة BLEU.
ضبط المستندات تدريب معلمات الترجمة الآلية العصبية. كن صارمًا. قم بإنشائها لتكون ممثلا على النحو الأمثل لما ستترجمه في المستقبل.
اختبار المستندات حساب درجة BLEU. كن صارمًا. قم بإنشاء مستندات اختبار لتكون ممثلا على النحو الأمثل لما تخطط لترجمته في المستقبل.
قاموس العبارة يفرض الترجمة المحددة 100% من الوقت. كن مقيدًا. يعد قاموس العبارة حساسًا لحالة الأحرف ويتم ترجمة أي كلمة أو عبارة مدرجة بالطريقة التي تحددها. في كثير من الحالات، من الأفضل عدم استخدام قاموس العبارة والسماح للنظام بالتعلم.
قاموس الجملة يفرض الترجمة المحددة 100% من الوقت. كن صارمًا. قاموس الجملة غير حساس لحالة الأحرف وجيد للجمل القصيرة الشائعة في المجال. لكي يحدث تطابق قاموس الجمل، يجب أن تتطابق الجملة المرسلة بالكامل مع إدخال القاموس المصدر. إذا تطابق جزء فقط من الجملة، فلن يتطابق الإدخال.

ما هي درجة BLEU؟

BLEU (BLEU) هي خوارزمية لتقييم دقة أو دقة النص الذي تمت ترجمته آلياً من لغة إلى أخرى. يستخدم Custom Translator مقياس BLEU كطريقة واحدة لنقل دقة الترجمة.

درجة BLEU هي رقم بين صفر و100. تشير درجة الصفر إلى ترجمة منخفضة الجودة حيث لم يتطابق أي شيء في الترجمة مع المرجع. تشير الدرجة 100 إلى ترجمة مثالية مطابقة للمرجع. ليس من الضروري تحقيق درجة 100 - تشير درجة BLEU بين 40 و60 إلى ترجمة عالية الجودة.

قراءة المزيد

ماذا يحدث إذا لم أرسل بيانات الضبط أو الاختبار؟

تعد الجمل المضبطة والاختبار تمثيلًا أمثل لما تخطط لترجمته في المستقبل. إذا لم ترسل أي بيانات ضبط أو اختبار، فسيستبعد المترجم المخصص تلقائيًا الجمل من مستندات التدريب لاستخدامها كبيانات ضبط واختبار.

منشأ بواسطة النظام التحديد اليدوي
مريحة. تمكين الضبط الدقيق لاحتياجاتك المستقبلية.
جيد، إذا كنت تعرف أن بيانات التدريب الخاصة بك تمثل ما تخطط لترجمته. يوفر المزيد من الحرية لإنشاء بيانات التدريب الخاصة بك.
من السهل إعادة عندما تنمو أو تتقلص المجال. يسمح بمزيد من البيانات وتغطية أفضل للمجال.
تغيير كل تشغيل تدريب. يبقى ثابتا على عمليات تشغيل التدريب المتكررة

كيف تتم معالجة المواد التدريبية بواسطة المترجم المخصص؟

للتحضير للتدريب، تخضع المستندات لسلسلة من خطوات المعالجة والتصفية. هذه الخطوات موضحة أدناه. قد تساعد معرفة عملية التصفية في فهم عدد الجمل المعروضة بالإضافة إلى الخطوات التي يمكنك اتخاذها لإعداد مستندات التدريب للتدريب باستخدام المترجم المخصص.

  • محاذاة الجمل

    إذا لم يكن المستند بتنسيق XLIFF أو XLSX أو TMX أو ALIGN، فإن المترجم المخصص يقوم بمحاذاة جمل المستندات المصدر والمستندات المستهدفة مع بعضها البعض، جملة تلو الأخرى. لا يقوم المترجم بإجراء محاذاة للمستند - فهو يتبع اصطلاح التسمية للمستندات للعثور على مستند مطابق باللغة الأخرى. داخل النص المصدر، يحاول المترجم المخصص العثور على الجملة المقابلة باللغة الهدف. ويستخدم علامات المستند مثل علامات HTML المضمنة للمساعدة في المحاذاة.

    إذا رأيت تباينا كبيرا بين عدد الجمل في المستندات المصدر والهدف، فقد لا يكون المستند المصدر متوازيا أو لا يمكن محاذاته. يقترن المستند بفارق كبير (>10%) من الجمل على كل جانب يتطلب نظرة ثانية للتأكد من أنها متوازية بالفعل.

  • استخراج بيانات الضبط والاختبار

    ضبط البيانات واختبارها اختياري. إذا لم تقم بتوفيره، فسيزيل النظام نسبة مئوية مناسبة من مستندات التدريب لاستخدامها في الضبط والاختبار. تتم عملية الإزالة ديناميكيًا كجزء من عملية التدريب. نظرًا لأن هذه الخطوة تحدث كجزء من التدريب، لا تتأثر المستندات التي تم تحميلها. يمكنك مشاهدة عدد الجمل المستخدمة النهائية لكل فئة من البيانات - التدريب والضبط والاختبار والقاموس - في صفحة تفاصيل النموذج بعد نجاح التدريب.

  • عامل تصفية الطول

    • إزالة الجمل بكلمة واحدة فقط على أي من الجانبين.
    • إزالة الجمل التي بها أكثر من 100 كلمة على أي من الجانبين. الصينية واليابانية والكورية معفاة.
    • إزالة الجمل التي يقل عدد أحرفها عن ثلاثة أحرف. الصينية واليابانية والكورية معفاة.
    • إزالة الجمل التي يزيد عدد أحرفها عن 2000 حرف للغة الصينية واليابانية والكورية.
    • إزالة الجمل ذات الأحرف الأبجدية الرقمية الأقل من 1%.
    • إزالة إدخالات القاموس التي تحتوي على أكثر من 50 كلمة.
  • المسافات

    • يستبدل أي تسلسل من أحرف المسافة البيضاء بما في ذلك علامات التبويب وتسلسلات CR/LF بحرف مسافة واحد.
    • إزالة المسافة البادئة أو اللاحقة في الجملة.
  • علامات ترقيم نهاية الجملة

    • استبدال أحرف ترقيم متعددة في نهاية الجملة بمثيل واحد. تسوية الأحرف اليابانية.

    • تحويل الأحرف والأرقام ذات العرض الكامل إلى أحرف ذات عرض نصفي.

  • علامات XML غير المغلفة

    تحويل العلامات غير المغلفة إلى علامات مهربة:

    علامة يصبح
    < & الملازم;
    > & جي تي;
    & & امبير;
  • الأحرف غير الصالحة

    المترجم المخصص يزيل الجمل التي تحتوي على حرف Unicode U+FFFD. يشير الحرف U+FFFD إلى فشل تحويل الترميز.

ما الخطوات التي يجب اتخاذها قبل تحميل البيانات؟

  • إزالة الجمل ذات الترميز غير الصالح.
  • إزالة أحرف التحكم في Unicode.
  • إذا كان ذلك ممكنًا، فمحاذاة الجمل (من مصدر إلى هدف).
  • إزالة الجمل المصدر والهدف التي لا تتطابق مع اللغات المصدر والهدف.
  • عندما تحتوي الجمل المصدر والهدف على لغات مختلطة، تأكد من أن الكلمات غير المترجمة مقصودة، على سبيل المثال، أسماء المؤسسات والمنتجات.
  • تصحيح الأخطاء النحوية والمطبعية لمنع تدريس هذه الأخطاء لنموذجك.
  • على الرغم من أن عملية التدريب لدينا تعالج الخطوط المصدر والهدف التي تحتوي على جمل متعددة، فمن الأفضل تعيين جملة مصدر واحدة إلى جملة هدف واحدة.

كيف أعمل تقييم النتائج؟

بعد تدريب النموذج بنجاح، يمكنك عرض درجة BLEU الخاصة بالنموذج ودرجة BLEU للنموذج الأساسي في صفحة تفاصيل النموذج. نستخدم نفس مجموعة بيانات الاختبار لإنشاء كل من درجة BLEU للنموذج ودرجة BLEU الأساسية. ستساعدك هذه البيانات على اتخاذ قرار مستنير بشأن النموذج الذي سيكون أفضل لحالة الاستخدام الخاصة بك.

الخطوات التالية