مرجع مكون تجزئة الميزات
توضح هذه المقالة مكونا مضمنا في Azure التعلم الآلي مصمم.
استخدم مكون تجزئة المعالم لتحويل دفق من النص الإنجليزي إلى مجموعة من الميزات الصحيحة. يمكنك بعد ذلك تمرير مجموعة الميزات المجزأة هذه إلى خوارزمية تعلم الآلة لتدريب نموذج تحليلات النص.
تستند وظيفة تجزئة الميزات المتوفرة في هذا المكون إلى إطار عمل nimbusml. لمزيد من المعلومات، راجع فئة NgramHash.
ما هو تجزئة الميزات؟
يعمل تجزئة الميزات عن طريق تحويل الرموز المميزة الفريدة إلى أعداد صحيحة. وهو يعمل على السلاسل الدقيقة التي تقدمها كمدخلات ولا يقوم بإجراء أي تحليل لغوي أو معالجة مسبقة.
على سبيل المثال ، خذ مجموعة من الجمل البسيطة مثل هذه ، متبوعة بدرجة مشاعر. افترض أنك تريد استخدام هذا النص لإنشاء نموذج.
| نص المستخدم | التوجه |
|---|---|
| أحببت هذا الكتاب | 3 |
| كرهت هذا الكتاب | 1 |
| هذا الكتاب كان رائعا | 3 |
| أحب الكتب | 2 |
داخليا، يقوم مكون تجزئة الميزات بإنشاء قاموس n-grams. على سبيل المثال ، ستكون قائمة البيغرام لمجموعة البيانات هذه شيئا من هذا القبيل:
| المصطلح (بيغرام) | التكرار |
|---|---|
| هذا الكتاب | 3 |
| أحببت | 1 |
| كرهت | 1 |
| أنا أحب | 1 |
يمكنك التحكم في حجم n-grams باستخدام الخاصية N-grams . إذا اخترت bigrams ، أيضا حساب unigrams. سيتضمن القاموس أيضا مصطلحات مفردة مثل هذه:
| المصطلح (unigrams) | التكرار |
|---|---|
| كتاب | 3 |
| I | 3 |
| الكتب | 1 |
| كان | 1 |
بعد إنشاء القاموس، يقوم مكون تجزئة الميزات بتحويل مصطلحات القاموس إلى قيم تجزئة. ثم يحسب ما إذا كان قد تم استخدام ميزة في كل حالة. لكل صف من صفوف البيانات النصية، يخرج المكون مجموعة من الأعمدة، عمود واحد لكل ميزة مجزأة.
على سبيل المثال، بعد التجزئة، قد تبدو أعمدة المعالم كالتالي:
| التصنيف | ميزة التجزئة 1 | ميزة التجزئة 2 | ميزة التجزئة 3 |
|---|---|---|---|
| 4 | 1 | 1 | 0 |
| 5 | 0 | 0 | 0 |
- إذا كانت القيمة في العمود هي 0، فهذا يعني أن الصف لا يحتوي على الميزة المجزأة.
- إذا كانت القيمة 1، فهذا يعني أن الصف يحتوي على الميزة.
يتيح لك تجزئة المعالم تمثيل المستندات النصية ذات الطول المتغير كمتجهات معالم رقمية متساوية الطول لتقليل الأبعاد. إذا حاولت استخدام عمود النص للتدريب كما هو، التعامل معه كعمود ميزة فئوية مع العديد من القيم المتميزة.
كما تتيح المخرجات الرقمية استخدام طرق التعلم الآلي الشائعة، بما في ذلك التصنيف والتجميع واسترجاع المعلومات. نظرا لأن عمليات البحث يمكن أن تستخدم تجزئات صحيحة بدلا من مقارنات السلسلة، فإن الحصول على أوزان الميزات أسرع بكثير.
تكوين مكون تجزئة الميزات
أضف مكون تجزئة الميزات إلى خط الأنابيب الخاص بك في المصمم.
الاتصال مجموعة البيانات التي تحتوي على النص الذي تريد تحليله.
تلميح
نظرا لأن تجزئة المعالم لا تؤدي عمليات معجمية مثل الوقف أو الاقتطاع، يمكنك في بعض الأحيان الحصول على نتائج أفضل عن طريق المعالجة المسبقة للنص قبل تطبيق تجزئة الميزات.
قم بتعيين أعمدة الهدف إلى أعمدة النص التي تريد تحويلها إلى ميزات مجزأة. ضع في اعتبارك ما يلي:
يجب أن تكون الأعمدة نوع بيانات السلسلة.
يمكن أن يكون لاختيار أعمدة نصية متعددة تأثير كبير على أبعاد الميزة. على سبيل المثال، ينتقل عدد أعمدة تجزئة 10 بت من 1024 لعمود واحد إلى 2048 لعمودين.
استخدم حجم بت التجزئة لتحديد عدد البتات التي تريد استخدامها عند إنشاء جدول التجزئة.
حجم البت الافتراضي هو 10. بالنسبة للعديد من المشاكل ، هذه القيمة كافية. قد تحتاج إلى مساحة أكبر لتجنب الاصطدامات، اعتمادا على حجم مفردات n-gram في نص التدريب.
بالنسبة إلى N-grams، أدخل رقما يحدد الحد الأقصى لطول n-gram لإضافته إلى قاموس التدريب. n-gram هو سلسلة من الكلمات n ، تعامل كوحدة فريدة من نوعها.
على سبيل المثال، إذا قمت بإدخال 3، إنشاء unigrams و bigrams و trigrams.
إرسال المسار.
النتائج
بعد اكتمال المعالجة، يقوم المكون بإخراج مجموعة بيانات محولة تم فيها تحويل عمود النص الأصلي إلى أعمدة متعددة. يمثل كل عمود معلما في النص. اعتمادا على مدى أهمية القاموس ، يمكن أن تكون مجموعة البيانات الناتجة كبيرة:
| اسم العمود 1 | نوع العمود 2 |
|---|---|
| نص المستخدم | عمود البيانات الأصلي |
| المشاعر | عمود البيانات الأصلي |
| USERTEXT - ميزة التجزئة 1 | عمود ميزة مجزأة |
| USERTEXT - ميزة التجزئة 2 | عمود ميزة مجزأة |
| USERTEXT - ميزة التجزئة n | عمود ميزة مجزأة |
| USERTEXT - ميزة التجزئة 1024 | عمود ميزة مجزأة |
بعد إنشاء مجموعة البيانات المحولة، يمكنك استخدامها كمدخل إلى مكون نموذج القطار.
أفضل الممارسات
يمكن أن تساعدك أفضل الممارسات التالية في تحقيق أقصى استفادة من مكون تجزئة الميزات:
أضف مكون نص ما قبل المعالجة قبل استخدام تجزئة الميزات لمعالجة نص الإدخال مسبقا.
أضف مكون تحديد أعمدة بعد مكون تجزئة المعالم لإزالة أعمدة النص من مجموعة بيانات الإخراج. لا تحتاج إلى أعمدة النص بعد إنشاء ميزات التجزئة.
فكر في استخدام خيارات المعالجة المسبقة للنص هذه، لتبسيط النتائج وتحسين الدقة:
- كسر الكلمات
- إيقاف إزالة الكلمات
- تطبيع الحالة
- إزالة علامات الترقيم والأحرف الخاصة
- النابعه
تعتمد المجموعة المثلى من طرق المعالجة المسبقة للتطبيق في أي حل على المجال والمفردات واحتياجات العمل. خط أنابيب مع البيانات الخاصة بك لمعرفة أي طرق معالجة النص هي الأكثر فعالية.
الخطوات التالية
راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي