تحويل Word إلى مكون متجه

توضح هذه المقالة كيفية استخدام مكون تحويل Word إلى متجه في مصمم التعلم الآلي من Azure للقيام بهذه المهام:

  • تطبيق نماذج Word2Vec المختلفة (Word2Vec، FastText، نموذج GloVe مدرب مسبقًا) على مجموعة النص التي حددتها كمدخل.
  • إنشاء مفردات مع تضمينات الكلمات.

يستخدم هذا المكون مكتبة Gensim. لمزيد من المعلومات حول Gensim، راجع موقعها الرسمي على الويب، والذي يتضمن برامج تعليمية وشرحًا للخوارزميات.

المزيد حول تحويل الكلمات إلى متجهات

تحويل الكلمات إلى متجهات، أو متجهات الكلمات، هو عملية معالجة اللغة الطبيعية (NLP). تستخدم العملية نماذج اللغة لتعيين الكلمات إلى مساحة متجهة. تمثل مساحة المتجه كل كلمة بواسطة متجه من الأرقام الحقيقية. كما أنه يسمح للكلمات ذات المعاني المماثلة بتمثيلات مماثلة.

استخدم تضمينات الكلمات كإدخال أولي لمهام انتقال NLP من الخادم مثل تصنيف النص وتحليل التوجه.

من بين العديد من تقنيات تضمين الكلمات، في هذا المكون، قمنا بتنفيذ ثلاث طرق مستخدمة على نطاق واسع. Two وWord2Vec وFastText، هي نماذج تدريب عبر الإنترنت. والآخر هو نموذج مدرب مسبقًا، glove-wiki-gigaword-100.

يتم تدريب نماذج التدريب عبر الإنترنت على بيانات الإدخال الخاصة بك. يتم تدريب النماذج المدربة مسبقًا دون اتصال على مجموعة نص أكبر (على سبيل المثال، Wikipedia، وGoogle News) التي تحتوي عادة على حوالي 100 مليار كلمة. ثم يظل تضمين الكلمات ثابتًا أثناء تحويل الكلمات. توفر نماذج الكلمات المدربة مسبقًا فوائد مثل تقليل وقت التدريب، ومتجهات كلمات مشفرة أفضل، وتحسين الأداء العام.

فيما يلي بعض المعلومات حول الأساليب:

كيفية تكوين تحويل Word إلى متجه

يتطلب هذا المكون مجموعة بيانات تحتوي على عمود نص. النص المعالج مسبقًا أفضل.

  1. أضف مكون Convert Word to Vector إلى البنية الأساسية لبرنامج ربط العمليات التجارية.

  2. كإدخال للمكون، قم بتوفير مجموعة بيانات تحتوي على عمود نصي واحد أو أكثر.

  3. بالنسبة للعمود الهدف، اختر عمودًا واحدًا فقط يحتوي على نص لمعالجته.

    نظرًا لأن هذا المكون ينشئ مفردات من النص، يختلف محتوى الأعمدة، ما يؤدي إلى محتويات مفردات مختلفة. لهذا السبب يقبل المكون عمود هدف واحد فقط.

  4. في Word2Vec strategy، اختر من GloVe Pretrained English Model وGensim Word2Vec وGensim FastText.

  5. إذا كانت استراتيجية Word2Vec هي Gensim Word2Vec أو Gensim FastText:

    • في Word2Vec Training Algorithm، اختر من Skip_gram وCBOW. يتم تقديم الفرق في الورقة الأصلية (PDF).

      الأسلوب الافتراضي هو Skip_gram.

    • في Length of word embedding، حدد أبعاد متجهات الكلمة. يتوافق هذا الإعداد مع المعلمة size في Gensim.

      حجم التضمين الافتراضي هو 100.

    • بالنسبة لحجم نافذة السياق، حدد الحد الأقصى للمسافة بين الكلمة التي يتم التنبؤ بها والكلمة الحالية. يتوافق هذا الإعداد مع المعلمة window في Gensim.

      الحجم الخاص بالنافذة الافتراضي هو 5.

    • في Number of epochs، حدد عدد الفترات (التكرارات) عبر المجموعة. يتوافق مع المعلمة iter في Gensim.

      رقم الفترة الافتراضي هو 5.

  6. في Maximum vocabulary size، حدد الحد الأقصى لعدد الكلمات في المفردات التي تم إنشاؤها.

    إذا كانت هناك كلمات فريدة أكثر من الحد الأقصى للحجم، قم بتنقيح الكلمات غير المتكررة.

    حجم المفردات الافتراضي هو 10,000.

  7. في Minimum word count، قم بتوفير الحد الأدنى لعدد الكلمات. سيتجاهل المكون كافة الكلمات التي لها تردد أقل من هذه القيمة.

    القيمة الافتراضية هي 5.

  8. إرسال المسار.

أمثلة

يحتوي المكون على إخراج واحد:

  • المفردات مع التضمينات: يحتوي على المفردات التي تم إنشاؤها، مع تضمين كل كلمة. يشغل بُعد واحد عمودًا واحدًا.

يوضح المثال التالي كيفية عمل مكون تحويل Word إلى متجه. يستخدم تحويل Word إلى متجه مع الإعدادات الافتراضية إلى مجموعة بيانات Wikipedia SP 500 المعالجة مسبقًا.

مجموعة بيانات المصدر

تحتوي مجموعة البيانات على عمود فئة، إلى جانب النص الكامل الذي تم جلبه من Wikipedia. يعرض الجدول التالي بعض الأمثلة التمثيلية.

النص
nasdaq 100 component s p 500 component foundation founder location city apple campus 1 infinite loop street infinite loop cupertino california cupertino california location country united states...
br nasdaq 100 nasdaq 100 component br s p 500 s p 500 component industry computer software foundation br founder charles geschke br john warnock location adobe systems...
s p 500 s p 500 component industry automotive industry automotive predecessor general motors corporation 1908 2009 successor...
s p 500 s p 500 component industry conglomerate company conglomerate foundation founder location city fairfield connecticut fairfield connecticut location country usa area...
br s p 500 s p 500 component foundation 1903 founder william s harley br arthur davidson harley davidson founder arthur davidson br walter davidson br william a davidson location...

إخراج المفردات مع التضمينات

يحتوي الجدول التالي على إخراج هذا المكون، مع أخذ مجموعة بيانات Wikipedia SP 500 كمدخل. يشير العمود الموجود في أقصى اليسار إلى المفردات. يتم تمثيل متجه التضمين الخاص به بقيم الأعمدة المتبقية في الصف نفسه.

المفردات Embedding dim 0 Embedding dim 1 Embedding dim 2 Embedding dim 3 Embedding dim 4 Embedding dim 5 ... Embedding dim 99
nasdaq -0.375865 0.609234 0.812797 -0.002236 0.319071 -0.591986 ... 0.364276
component 0.081302 0.40001 0.121803 0.108181 0.043651 -0.091452 ... 0.636587
مؤقتًا -0.34355 -0.037092 -0.012167 0.151542 0.601019 0.084501 ... 0.149419
p -0.133407 0.073244 0.170396 0.326706 0.213463 -0.700355 ... 0.530901
foundation -0.166819 0.10883 -0.07933 -0.073753 0.262137 0.045725 ... 0.27487
founder -0.297408 0.493067 0.316709 -0.031651 0.455416 -0.284208 ... 0.22798
الموقع -0.375213 0.461229 0.310698 0.213465 0.200092 0.314288 ... 0.14228
المدينة -0.460828 0.505516 -0.074294 -0.00639 0.116545 0.494368 ... -0.2403
apple 0.05779 0.672657 0.597267 -0.898889 0.099901 0.11833 ... 0.4636
campus -0.281835 0.29312 0.106966 -0.031385 0.100777 -0.061452 ... 0.05978
infinite -0.263074 0.245753 0.07058 -0.164666 0.162857 -0.027345 ... -0.0525
loop -0.391421 0.52366 0.141503 -0.105423 0.084503 0.018424 ... -0.0521

في هذا المثال، استخدمنا استراتيجية Gensim Word2Vec الافتراضية لـ Word2Vec، وخوارزمية التدريب هي Skip-gram. طول تضمين الكلمة هو 100، لذلك لدينا 100 عمود تضمين.

ملاحظات فنية

يحتوي هذا القسم على نصائح وإجابات على الأسئلة المتداولة.

  • الفرق بين التدريب عبر الإنترنت والنموذج المدرب مسبقًا:

    في مكون تحويل Word إلى متجه، قدمنا ثلاث استراتيجيات مختلفة: نموذجان للتدريب عبر الإنترنت ونموذج واحد مدرب مسبقًا. تستخدم نماذج التدريب عبر الإنترنت مجموعة بيانات الإدخال الخاصة بك كبيانات تدريب، وتنشئ المفردات ومتجهات الكلمات أثناء التدريب. النموذج المدرب مسبقًا مدرب بالفعل بواسطة مجموعة نص أكبر بكثير، مثل Wikipedia أو نص Twitter. النموذج المدرب مسبقًا هو في الواقع مجموعة من أزواج الكلمات/التضمين.

    يلخص نموذج GloVe المدرب مسبقًا مفردات من مجموعة بيانات الإدخال وينشئ متجه تضمين لكل كلمة من النموذج المدرب مسبقًا. دون التدريب عبر الإنترنت، يمكن أن يوفر استخدام نموذج مدرب مسبقًا وقت التدريب. لديه أداء أفضل، خاصة عندما يكون حجم مجموعة بيانات الإدخال صغيرًا نسبيًا.

  • حجم التضمين:

    بشكل عام، يتم تعيين طول تضمين الكلمة إلى بضع مئات. على سبيل المثال 100، 200، 300. يعني حجم التضمين الصغير مساحة متجهة صغيرة، ما قد يتسبب في تضارب تضمين الكلمات.

    يتم إصلاح طول تضمينات الكلمة للنماذج المدربة مسبقًا. في هذا المثال، حجم تضمين glove-wiki-gigaword-100 هو 100.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.

للحصول على قائمة بالأخطاء الخاصة بمكونات المصمم، راجع رموز خطأ التعلم الآلي.