استخراج ميزات N-Gram من مرجع مكون النص
توضح هذه المقالة مكونا في Azure التعلم الآلي مصمم. استخدم ميزات استخراج N-Gram من مكون النص لإضفاء الطابع العملي على بيانات النص غير المنظمة.
تكوين ميزات استخراج N-Gram من مكون النص
يدعم المكون السيناريوهات التالية لاستخدام قاموس n-gram:
إنشاء قاموس n-gram جديد من عمود من النص الحر.
استخدم مجموعة موجودة من ميزات النص لتفعيل عمود نص حر.
تسجيل أو نشر نموذج يستخدم n-grams.
إنشاء قاموس n-gram جديد
أضف مكون استخراج N-Gram من النص إلى خط الأنابيب الخاص بك، وقم بتوصيل مجموعة البيانات التي تحتوي على النص الذي تريد معالجته.
استخدم عمود النص لاختيار عمود من نوع السلسلة يحتوي على النص الذي تريد استخراجه. نظرا لأن النتائج مطولة، يمكنك معالجة عمود واحد فقط في كل مرة.
اضبط وضع المفردات على إنشاء للإشارة إلى أنك تقوم بإنشاء قائمة جديدة بميزات n-gram.
اضبط حجم N-Grams للإشارة إلى الحد الأقصى لحجم n-gram المراد استخراجه وتخزينه.
على سبيل المثال، إذا قمت بإدخال 3، إنشاء unigrams و bigrams و trigrams.
تحدد وظيفة الترجيح كيفية إنشاء متجه معلم المستند وكيفية استخراج المفردات من المستندات.
الوزن الثنائي: يعين قيمة وجود ثنائي للجرامات n المستخرجة. قيمة كل n-gram هي 1 عند وجودها في المستند ، و 0 خلاف ذلك.
وزن TF: يعين درجة تردد المصطلح (TF) إلى n-grams المستخرجة. قيمة كل n-gram هي تكرار حدوثه في المستند.
وزن جيش الدفاع الإسرائيلي: يعين درجة تردد مستند عكسي (IDF) إلى n-grams المستخرجة. قيمة كل n-gram هي سجل حجم الجسم مقسوما على تردد حدوثه في الجسم بأكمله.
IDF = log of corpus_size / document_frequencyوزن TF-IDF: يعين درجة تردد المصطلح / تردد الوثيقة العكسية (TF / IDF) إلى n-grams المستخرجة. قيمة كل n-gram هي درجة TF الخاصة به مضروبة في درجة جيش الدفاع الإسرائيلي.
قم بتعيين الحد الأدنى لطول الكلمة إلى الحد الأدنى لعدد الأحرف التي يمكن استخدامها في أي كلمة واحدة في n-gram.
استخدم الحد الأقصى لطول الكلمة لتعيين الحد الأقصى لعدد الأحرف التي يمكن استخدامها في أي كلمة واحدة في n-gram.
بشكل افتراضي ، يسمح بما يصل إلى 25 حرفا لكل كلمة أو رمز مميز.
استخدم الحد الأدنى للتردد المطلق لمستند n-gram لتعيين الحد الأدنى من التكرارات المطلوبة لتضمين أي n-gram في قاموس n-gram.
على سبيل المثال، إذا كنت تستخدم القيمة الافتراضية 5، فيجب أن يظهر أي n-gram خمس مرات على الأقل في المتن ليتم تضمينه في قاموس n-gram.
اضبط الحد الأقصى لنسبة مستند n-gram إلى النسبة القصوى لعدد الصفوف التي تحتوي على n-gram معين، على عدد الصفوف في المجموعة الإجمالية.
على سبيل المثال ، تشير نسبة 1 إلى أنه حتى في حالة وجود n-gram معين في كل صف ، يمكن إضافة n-gram إلى قاموس n-gram. بشكل أكثر شيوعا ، تعتبر الكلمة التي تحدث في كل صف كلمة ضوضاء وسيتم إزالتها. لتصفية كلمات الضوضاء المعتمدة على المجال، حاول تقليل هذه النسبة.
هام
معدل حدوث كلمات معينة ليس موحدا. وهو يختلف من وثيقة إلى أخرى. على سبيل المثال، إذا كنت تقوم بتحليل تعليقات العملاء حول منتج معين، فقد يكون اسم المنتج عالي التردد وقريبا من كلمة ضوضاء، ولكنه قد يكون مصطلحا مهما في سياقات أخرى.
حدد الخيار تطبيع متجهات المعالم n-gram لتطبيع متجهات المعالم. إذا تم تمكين هذا الخيار، تقسيم كل متجه معلم n-gram على معيار L2 الخاص به.
إرسال المسار.
استخدام قاموس n-gram موجود
أضف مكون استخراج N-Gram من Text إلى خط الأنابيب، وقم بتوصيل مجموعة البيانات التي تحتوي على النص الذي تريد معالجته بمنفذ مجموعة البيانات .
استخدم عمود النص لتحديد عمود النص الذي يحتوي على النص الذي تريد إعماله. بشكل افتراضي، يحدد المكون كافة أعمدة سلسلة النوع. للحصول على أفضل النتائج، قم بمعالجة عمود واحد في كل مرة.
أضف مجموعة البيانات المحفوظة التي تحتوي على قاموس n-gram تم إنشاؤه مسبقا، وقم بتوصيله بمنفذ مفردات الإدخال . يمكنك أيضا توصيل إخراج مفردات النتيجة لمثيل المنبع لميزات استخراج N-Gram من مكون النص.
بالنسبة لوضع المفردات، حدد خيار تحديث للقراءة فقط من القائمة المنسدلة.
يمثل خيار القراءة فقط مجموعة الإدخال لمفردات الإدخال. بدلا من حساب ترددات المصطلح من مجموعة بيانات النص الجديدة (على الإدخال الأيسر) ، يتم تطبيق أوزان n-gram من مفردات الإدخال كما هي.
تلميح
استخدم هذا الخيار عند تسجيل مصنف نصي.
للاطلاع على جميع الخيارات الأخرى، راجع أوصاف الخصائص في القسم السابق.
إرسال المسار.
إنشاء خط أنابيب الاستدلال الذي يستخدم n-grams لنشر نقطة نهاية في الوقت الفعلي
خط أنابيب التدريب الذي يحتوي على ميزة استخراج N-Grams من نموذج النصوالنتيجة لإجراء التنبؤ على مجموعة بيانات الاختبار ، مدمج في البنية التالية:
وضع المفرداتلميزة استخراج N-Grams الدائرية من مكون النص هو إنشاء ، ووضع المفردات للمكون الذي يتصل بمكون نموذج النتيجة هو للقراءة فقط.
بعد إرسال خط أنابيب التدريب أعلاه بنجاح ، يمكنك تسجيل إخراج المكون المحاط بدائرة كمجموعة بيانات.
ثم يمكنك إنشاء خط أنابيب الاستدلال في الوقت الحقيقي. بعد إنشاء خط أنابيب الاستدلال، تحتاج إلى ضبط خط أنابيب الاستدلال يدويا مثل ما يلي:
ثم أرسل خط أنابيب الاستدلال، وانشر نقطة نهاية في الوقت الفعلي.
النتائج
يقوم استخراج ميزات N-Gram من مكون النص بإنشاء نوعين من المخرجات:
مجموعة بيانات النتيجة: هذا الإخراج هو ملخص للنص الذي تم تحليله جنبا إلى جنب مع n-gram التي تم استخراجها. يتم تمرير الأعمدة التي لم تحددها في خيار عمود النص إلى الإخراج. لكل عمود من أعمدة النص الذي تقوم بتحليله، يقوم المكون بإنشاء هذه الأعمدة:
- مصفوفة تكرارات n-gram: يقوم المكون بإنشاء عمود لكل n-gram موجود في المتن الكلي ويضيف درجة في كل عمود للإشارة إلى وزن n-gram لهذا الصف.
مفردات النتائج: تحتوي المفردات على قاموس n-gram الفعلي ، إلى جانب درجات تردد المصطلح التي يتم إنشاؤها كجزء من التحليل. يمكنك حفظ مجموعة البيانات لإعادة استخدامها مع مجموعة مختلفة من المدخلات، أو لتحديث لاحق. يمكنك أيضا إعادة استخدام المفردات للنمذجة والتسجيل.
مفردات النتائج
تحتوي المفردات على قاموس n-gram مع مصطلح درجات التردد التي يتم إنشاؤها كجزء من التحليل. يتم إنشاء نتائج DF و IDF بغض النظر عن الخيارات الأخرى.
- ID: معرف يتم إنشاؤه لكل n-gram فريد.
- NGram: إن غرام. يتم استبدال المسافات أو فواصل الكلمات الأخرى بحرف تسطير سفلي.
- DF: مصطلح درجة التردد ل n-gram في الجسم الأصلي.
- IDF: درجة تردد الوثيقة العكسية ل n-gram في المتن الأصلي.
يمكنك تحديث مجموعة البيانات هذه يدويا، ولكن قد تعرض أخطاء. على سبيل المثال:
- يتم رفع خطأ إذا عثر المكون على صفوف مكررة بنفس المفتاح في مفردات الإدخال. تأكد من عدم وجود صفين في المفردات لهما نفس الكلمة.
- يجب أن يتطابق مخطط الإدخال الخاص بمجموعات بيانات المفردات تماما، بما في ذلك أسماء الأعمدة وأنواع الأعمدة.
- يجب أن يكون عمود المعرف وعمود DF من النوع الصحيح.
- يجب أن يكون عمود جيش الدفاع الإسرائيلي من النوع العائم.
ملاحظة
لا تقم بتوصيل إخراج البيانات بمكون نموذج القطار مباشرة. يجب إزالة أعمدة النص الحر قبل إدخالها في نموذج القطار. خلاف ذلك ، سيتم التعامل مع أعمدة النص الحر كميزات فئوية.
الخطوات التالية
راجع مجموعة المكونات المتوفرة ل Azure التعلم الآلي.