نص المعالجة المسبقة

توضح هذه المقالة مكونا في Azure التعلم الآلي مصمم.

استخدم مكون نص المعالجة المسبقة لتنظيف النص وتبسيطه. وهو يدعم عمليات معالجة النصوص الشائعة هذه:

  • إزالة كلمات الإيقاف
  • استخدام التعبيرات العادية للبحث عن سلاسل مستهدفة محددة واستبدالها
  • Lemmatization، الذي يحول كلمات متعددة ذات صلة إلى شكل قانوني واحد
  • تطبيع الحالة
  • إزالة فئات معينة من الأحرف، مثل الأرقام والأحرف الخاصة وتسلسلات الأحرف المتكررة مثل "aaaa"
  • تحديد رسائل البريد الإلكتروني وعناوين URL وإزالتها

يدعم مكون نص ما قبل المعالجة حاليا اللغة الإنجليزية فقط.

تكوين المعالجة المسبقة للنص

  1. أضف مكون نص ما قبل المعالجة إلى خط الأنابيب الخاص بك في Azure التعلم الآلي. يمكنك العثور على هذا المكون ضمن تحليلات النص.

  2. الاتصال مجموعة بيانات تحتوي على عمود واحد على الأقل يحتوي على نص.

  3. حدد اللغة من القائمة المنسدلة اللغة.

  4. عمود النص المراد تنظيفه: حدد العمود الذي تريد معالجته مسبقا.

  5. إزالة كلمات الإيقاف: حدد هذا الخيار إذا كنت تريد تطبيق قائمة كلمات توقف محددة مسبقا على عمود النص.

    تعتمد قوائم كلمات التوقف على اللغة وقابلة للتخصيص.

  6. Lemmatization: حدد هذا الخيار إذا كنت تريد تمثيل الكلمات في شكلها الأساسي. هذا الخيار مفيد لتقليل عدد مرات الحدوث الفريدة للرموز النصية المتشابهة بخلاف ذلك.

    تعتمد عملية الليماتية بشكل كبير على اللغة..

  7. اكتشاف الجمل: حدد هذا الخيار إذا كنت تريد أن يقوم المكون بإدراج علامة حدود جملة عند إجراء التحليل.

    يستخدم هذا المكون سلسلة من ثلاثة أحرف ||| أنبوب لتمثيل نهاية الجملة.

  8. نفذ عمليات البحث والاستبدال الاختيارية باستخدام التعبيرات العادية. ستتم معالجة التعبير العادي في البداية ، قبل جميع الخيارات المضمنة الأخرى.

    • تعبير عادي مخصص: حدد النص الذي تبحث عنه.
    • سلسلة استبدال مخصصة: حدد قيمة استبدال واحدة.
  9. تطبيع الأحرف الكبيرة إلى أحرف صغيرة: حدد هذا الخيار إذا كنت تريد تحويل أحرف ASCII الكبيرة إلى نماذجها الصغيرة.

    إذا لم يتم تطبيع الأحرف، فإن الكلمة نفسها بالأحرف الكبيرة والصغيرة تعتبر كلمتين مختلفتين.

  10. يمكنك أيضا إزالة الأنواع التالية من الأحرف أو تسلسلات الأحرف من نص الإخراج المعالج:

    • إزالة الأرقام: حدد هذا الخيار لإزالة جميع الأحرف الرقمية للغة المحددة. تعتمد أرقام التعريف على المجال وتعتمد على اللغة. إذا كانت الأحرف الرقمية جزءا لا يتجزأ من كلمة معروفة، فقد لا تتم إزالة الرقم. تعرف على المزيد في الملاحظات الفنية.

    • إزالة الأحرف الخاصة: استخدم هذا الخيار لإزالة أي أحرف خاصة غير أبجدية رقمية.

    • إزالة الأحرف المكررة: حدد هذا الخيار لإزالة الأحرف الإضافية في أي تسلسلات تتكرر لأكثر من مرتين. على سبيل المثال ، سيتم تقليل تسلسل مثل "aaaaa" إلى "aa".

    • إزالة عناوين البريد الإلكتروني: حدد هذا الخيار لإزالة أي تسلسل للتنسيق <string>@<string>.

    • إزالة عناوين URL: حدد هذا الخيار لإزالة أي تسلسل يتضمن بادئات عناوين URL التالية: http, , ftp, httpswww

  11. توسيع تقلصات الفعل: ينطبق هذا الخيار فقط على اللغات التي تستخدم تقلصات الفعل. حاليا ، الإنجليزية فقط.

    على سبيل المثال، من خلال تحديد هذا الخيار، يمكنك استبدال عبارة "لن تبقى هناك" بعبارة "لن تبقى هناك".

  12. تطبيع الشرطة المائلة العكسية إلى شرطة مائلة: حدد هذا الخيار لتعيين جميع مثيلات \\ إلى /.

  13. تقسيم الرموز المميزة على أحرف خاصة: حدد هذا الخيار إذا كنت تريد كسر الكلمات على أحرف مثل &، -وما إلى ذلك. يمكن لهذا الخيار أيضا تقليل الأحرف الخاصة عند تكرارها أكثر من مرتين.

    على سبيل المثال ، سيتم فصل السلسلة MS---WORD إلى ثلاثة رموز مميزة ، ، MSو -WORD.

  14. إرسال المسار.

ملاحظات فنية

يستخدم مكون النص قبل المعالجة في الاستوديو (الكلاسيكي) والمصمم نماذج لغوية مختلفة. يستخدم المصمم نموذجا مدربا متعدد المهام من CNN من spaCy. تعطي النماذج المختلفة رمزا مميزا مختلفا وعلامة جزء من الكلام ، مما يؤدي إلى نتائج مختلفة.

وفيما يلي بعض الأمثلة:

تهيئة نتيجة الإخراج
مع تحديد
جميع الخيارات التفسير:
بالنسبة لحالات مثل "3test" في "WC-3 3test 4test" ، يقوم المصمم بإزالة الكلمة بأكملها "3test" ، لأنه في هذا السياق ، يحدد علامة جزء الكلام هذا الرمز المميز "3test" كرقم ، ووفقا لجزء الكلام ، يقوم المكون بإزالته.
With all options selected
مع التفسير المحدد
فقطRemoving number:
بالنسبة لحالات مثل "3test" و "4-EC" ، فإن جرعة الرمز المميز المصمم لا تقسم هذه الحالات ، وتعاملها على أنها الرموز الكاملة. لذلك لن يزيل الأرقام في هذه الكلمات.
With only `Removing number` selected

يمكنك أيضا استخدام التعبير العادي لإخراج نتائج مخصصة:

تهيئة نتيجة الإخراج
مع تحديد
جميع الخيارات التعبير العادي المخصص: سلسلة استبدال مخصصة: (\s+)*(-|\d+)(\s+)*
\1 \2 \3
With all options selected and regular expression
مع التعبير العادي المخصص المحدد
فقطRemoving number: سلسلة استبدال مخصصة: (\s+)*(-|\d+)(\s+)*
\1 \2 \3
With removing numbers selected and regular expression

الخطوات التالية

راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.