تحويل Word إلى مكون متجه

توضح هذه المقالة كيفية استخدام مكون تحويل Word إلى متجه في Azure التعلم الآلي المصمم للقيام بهذه المهام:

  • قم بتطبيق نماذج Word2Vec المختلفة (Word2Vec و FastText ونموذج GloVe المدرب مسبقا) على مجموعة النص التي حددتها كإدخال.
  • إنشاء مفردات باستخدام تضمين الكلمات.

يستخدم هذا المكون مكتبة Gensim. لمزيد من المعلومات حول Gensim ، راجع موقعها الرسمي على الويب ، والذي يتضمن دروسا تعليمية وشرحا للخوارزميات.

المزيد حول تحويل الكلمات إلى متجهات

تحويل الكلمات إلى متجهات، أو متجه الكلمات، هو عملية معالجة اللغة الطبيعية (NLP). تستخدم العملية نماذج اللغة لتعيين الكلمات في الفضاء المتجه. يمثل الفضاء المتجه كل كلمة بواسطة متجه من الأعداد الحقيقية. كما يسمح للكلمات ذات المعاني المتشابهة بأن يكون لها تمثيلات مماثلة.

استخدم تضمين الكلمات كإدخال أولي لمهام البرمجة اللغوية العصبية النهائية مثل تصنيف النص وتحليل المشاعر.

من بين تقنيات تضمين الكلمات المختلفة ، في هذا المكون ، قمنا بتنفيذ ثلاث طرق مستخدمة على نطاق واسع. اثنان ، Word2Vec و FastText ، هما نموذجان للتدريب عبر الإنترنت. والآخر هو نموذج مدرب مسبقا ، قفازات-ويكي-جيجاورد-100.

يتم تدريب نماذج التدريب عبر الإنترنت على بيانات الإدخال الخاصة بك. يتم تدريب النماذج المدربة مسبقا في وضع عدم الاتصال على مجموعة نصية أكبر (على سبيل المثال ، ويكيبيديا ، أخبار Google) التي تحتوي عادة على حوالي 100 مليار كلمة. ثم يظل تضمين الكلمات ثابتا أثناء توجيه الكلمات. توفر نماذج الكلمات المدربة مسبقا فوائد مثل تقليل وقت التدريب ، وتحسين ترميز متجهات الكلمات ، وتحسين الأداء العام.

فيما يلي بعض المعلومات حول الأساليب:

كيفية تكوين تحويل Word إلى متجه

يتطلب هذا المكون مجموعة بيانات تحتوي على عمود نصي. النص المعالج مسبقا أفضل.

  1. أضف مكون تحويل Word إلى متجه إلى خط الأنابيب الخاص بك.

  2. كإدخال للمكون، قم بتوفير مجموعة بيانات تحتوي على عمود نص واحد أو أكثر.

  3. بالنسبة إلى العمود الهدف، اختر عمودا واحدا فقط يحتوي على نص لمعالجته.

    نظرا لأن هذا المكون ينشئ مفردات من النص ، يختلف محتوى الأعمدة ، مما يؤدي إلى محتويات مفردات مختلفة. لهذا السبب يقبل المكون عمودا مستهدفا واحدا فقط.

  4. بالنسبة لاستراتيجية Word2Vec ، اختر من بين نموذج اللغة الإنجليزية المدرب مسبقا من GloVe و Gensim Word2Vec و GensimFastText.

  5. إذا كانت استراتيجية Word2Vec هي Gensim Word2Vec أو Gensim FastText:

    • بالنسبة لخوارزمية تدريب Word2Vec ، اختر من بين Skip_gram و CBOW. يتم تقديم الفرق في الورقة الأصلية (PDF).

      الطريقة الافتراضية هي Skip_gram.

    • بالنسبة لطول تضمين الكلمة، حدد أبعاد متجهات الكلمات. يتوافق هذا الإعداد مع المعلمة size في Gensim.

      حجم التضمين الافتراضي هو 100.

    • بالنسبة لحجم نافذة السياق، حدد المسافة القصوى بين الكلمة التي يتم التنبؤ بها والكلمة الحالية. يتوافق هذا الإعداد مع المعلمة window في Gensim.

      حجم النافذة الافتراضي هو 5.

    • بالنسبة لعدد العصور، حدد عدد الحقب (التكرارات) فوق المجموع. يتوافق مع المعلمة iter في Gensim.

      رقم الحقبة الافتراضي هو 5.

  6. بالنسبة إلى الحد الأقصى لحجم المفردات، حدد الحد الأقصى لعدد الكلمات في المفردات التي تم إنشاؤها.

    إذا كانت هناك كلمات فريدة من نوعها أكثر من الحد الأقصى للحجم ، فقم بتقليم الكلمات النادرة.

    حجم المفردات الافتراضي هو 10000.

  7. بالنسبة إلى الحد الأدنى لعدد الكلمات، قم بتوفير الحد الأدنى لعدد الكلمات. سيتجاهل المكون كافة الكلمات التي لها تردد أقل من هذه القيمة.

    القيمة الافتراضية هي 5.

  8. إرسال المسار.

أمثلة

يحتوي المكون على ناتج واحد:

  • المفردات ذات التضمينات: تحتوي على المفردات التي تم إنشاؤها، بالإضافة إلى تضمين كل كلمة. بعد واحد يشغل عمود واحد.

يوضح المثال التالي كيفية عمل مكون تحويل Word إلى متجه. يستخدم تحويل Word إلى متجه مع الإعدادات الافتراضية إلى مجموعة بيانات Wikipedia SP 500 المعالجة مسبقا.

مجموعة بيانات المصدر

تحتوي مجموعة البيانات على عمود فئة، إلى جانب النص الكامل الذي تم جلبه من ويكيبيديا. يوضح الجدول التالي بعض الأمثلة التمثيلية.

النص
ناسداك 100 مكون ق ص 500 مكون مؤسسة مؤسس موقع مدينة التفاح الحرم الجامعي 1 حلقة لا نهائية الشارع حلقة لا نهائية كوبرتينو كاليفورنيا كوبرتينو كاليفورنيا موقع البلد الولايات المتحدة ...
br nasdaq 100 nasdaq 100 component br s p 500 s p 500 component industry computer software foundation br founder charles geschke br john warnock location adobe systems...
s p 500 s p 500 مكون صناعة السيارات صناعة السيارات السابقة شركة جنرال موتورز 1908 2009 خلف...
s p 500 s p 500 مكون صناعة تكتل شركة تكتل مؤسسة مؤسس موقع مدينة فيرفيلد كونيتيكت فيرفيلد كونيتيكت موقع البلد منطقة الولايات المتحدة الأمريكية ...
br s p 500 s p 500 component foundation 1903 مؤسس ويليام S هارلي br آرثر ديفيدسون هارلي ديفيدسون مؤسس آرثر ديفيدسون br والتر ديفيدسون br ويليام موقع ديفيدسون ...

مفردات الإخراج مع التضمينات

يحتوي الجدول التالي على مخرجات هذا المكون، مع أخذ مجموعة بيانات Wikipedia SP 500 كمدخلات. يشير العمود الموجود في أقصى اليسار إلى المفردات. يتم تمثيل متجه التضمين الخاص به بقيم الأعمدة المتبقية في نفس الصف.

المفردات تضمين خافت 0 تضمين خافت 1 تضمين خافت 2 تضمين خافت 3 تضمين خافت 4 تضمين خافت 5 ... تضمين خافت 99
ناسداك -0.375865 0.609234 0.812797 -0.002236 0.319071 -0.591986 ... 0.364276
مكون 0.081302 0.40001 0.121803 0.108181 0.043651 -0.091452 ... 0.636587
مؤقتًا -0.34355 -0.037092 -0.012167 0.151542 0.601019 0.084501 ... 0.149419
p -0.133407 0.073244 0.170396 0.326706 0.213463 -0.700355 ... 0.530901
أساس -0.166819 0.10883 -0.07933 -0.073753 0.262137 0.045725 ... 0.27487
المؤسس -0.297408 0.493067 0.316709 -0.031651 0.455416 -0.284208 ... 0.22798
الموقع -0.375213 0.461229 0.310698 0.213465 0.200092 0.314288 ... 0.14228
المدينة -0.460828 0.505516 -0.074294 -0.00639 0.116545 0.494368 ... -0.2403
تفاح 0.05779 0.672657 0.597267 -0.898889 0.099901 0.11833 ... 0.4636
الحرم الجامعي -0.281835 0.29312 0.106966 -0.031385 0.100777 -0.061452 ... 0.05978
انهائي -0.263074 0.245753 0.07058 -0.164666 0.162857 -0.027345 ... -0.0525
حلقه -0.391421 0.52366 0.141503 -0.105423 0.084503 -0.018424 ... -0.0521

في هذا المثال، استخدمنا استراتيجية Gensim Word2Vec الافتراضية ل Word2Vec، وخوارزمية التدريب هي تخطي الغرام. طول تضمين الكلمة هو 100 ، لذلك لدينا 100 عمود تضمين.

ملاحظات فنية

يحتوي هذا القسم على نصائح وإجابات على الأسئلة المتداولة.

  • الفرق بين التدريب عبر الإنترنت والنموذج المدرب مسبقا:

    في مكون تحويل Word إلى Vector هذا ، قدمنا ثلاث استراتيجيات مختلفة: نموذجان للتدريب عبر الإنترنت ونموذج واحد مدرب مسبقا. تستخدم نماذج التدريب عبر الإنترنت مجموعة بيانات الإدخال الخاصة بك كبيانات تدريب ، وتولد مفردات ومتجهات كلمات أثناء التدريب. تم تدريب النموذج المدرب مسبقا بالفعل بواسطة مجموعة نصية أكبر بكثير ، مثل نص ويكيبيديا أو تويتر. النموذج المدرب مسبقا هو في الواقع مجموعة من أزواج الكلمات / التضمين.

    يلخص نموذج GloVe المدرب مسبقا مفردات من مجموعة بيانات الإدخال ويولد متجه تضمين لكل كلمة من النموذج المدرب مسبقا. بدون تدريب عبر الإنترنت ، يمكن أن يوفر استخدام نموذج مدرب مسبقا وقت التدريب. لديها أداء أفضل ، خاصة عندما يكون حجم مجموعة بيانات الإدخال صغيرا نسبيا.

  • حجم التضمين:

    بشكل عام ، يتم تعيين طول تضمين الكلمة إلى بضع مئات. على سبيل المثال ، 100 ، 200 ، 300. حجم التضمين الصغير يعني مساحة متجهة صغيرة ، مما قد يتسبب في تصادمات تضمين الكلمات.

    يتم إصلاح طول تضمين الكلمات للنماذج المدربة مسبقا. في هذا المثال، حجم تضمين القفازات-ويكي-جيجاورد-100 هو 100.

الخطوات التالية

راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.

للحصول على قائمة بالأخطاء الخاصة بمكونات المصمم، راجع التعلم الآلي رموز الخطأ.