فهم تحليلات النص

5 دقائق

قبل استكشاف قدرات تحليلات النص لخدمة Azure الذكاء الاصطناعي Language، دعنا نفحص بعض المبادئ العامة والتقنيات الشائعة المستخدمة لإجراء تحليل النص ومهام معالجة اللغة الطبيعية الأخرى (NLP).

تتضمن بعض التقنيات الأقدم المستخدمة لتحليل النص باستخدام أجهزة الكمبيوتر تحليلا إحصائيا لنص (مجموعة) للاستدلال على نوع من المعنى الدلالي. ببساطة، إذا كان بإمكانك تحديد الكلمات الأكثر استخداما في مستند معين، يمكنك غالبا الحصول على فكرة جيدة عن موضوع المستند.

الترميز المميز

الخطوة الأولى في تحليل مجموعة هي تقسيمها إلى رموز مميزة. من أجل البساطة، يمكنك التفكير في كل كلمة مميزة في نص التدريب كرمز مميز، على الرغم من أنه في الواقع، يمكن إنشاء الرموز المميزة للكلمات الجزئية، أو مجموعات من الكلمات وعلامات الترقيم.

على سبيل المثال، ضع في اعتبارك هذه العبارة من خطاب رئاسي أمريكي شهير: "نختار الذهاب إلى القمر". يمكن تقسيم العبارة إلى الرموز المميزة التالية، مع معرفات رقمية:

نحن
اختر
to
go
الـ
القمر

لاحظ أنه يتم استخدام "to" (الرمز المميز رقم 3) مرتين في المجموعة. يمكن تمثيل العبارة "نختار الذهاب إلى القمر" بالرموز المميزة [1,2,3,4,3,5,6].

إشعار

لقد استخدمنا مثالا بسيطا يتم فيه تحديد الرموز المميزة لكل كلمة مميزة في النص. ومع ذلك، ضع في اعتبارك المفاهيم التالية التي قد تنطبق على الرمز المميز اعتمادا على النوع المحدد من مشكلة NLP التي تحاول حلها:

تسوية النص: قبل إنشاء الرموز المميزة، يمكنك اختيار تطبيع النص عن طريق إزالة علامات الترقيم وتغيير كل الكلمات إلى أحرف صغيرة. للتحليل الذي يعتمد فقط على تكرار الكلمات، يعمل هذا النهج على تحسين الأداء العام. ومع ذلك، قد تفقد بعض المعنى الدلالي - على سبيل المثال، ضع في اعتبارك الجملة "السيد البنوك قد عمل في العديد من البنوك". قد ترغب في تحليلك للتمييز بين الشخص السيد البنوك والبنوك التي عمل فيها. قد ترغب أيضا في اعتبار "البنوك". كرمز مميز منفصل ل "البنوك" لأن إدراج فترة يوفر المعلومات التي تأتي الكلمة في نهاية الجملة
إيقاف إزالة الكلمات. كلمات الإيقاف عبارة عن كلمات يجب استبعادها من التحليل. على سبيل المثال، تسهل "ال" أو "a" أو "it" النص على الأشخاص للقراءة ولكن مع إضافة القليل من المعنى الدلالي. من خلال استبعاد هذه الكلمات، قد يكون حل تحليل النص أكثر قدرة على تحديد الكلمات المهمة.
n-غرام عبارة متعددة المصطلحات مثل "لدي" أو "مشى". عبارة كلمة واحدة هي unigram، والعبارة المكونة من كلمتين هي bi-gram، والعبارة المكونة من ثلاث كلمات هي ثلاثية الجرام، وهكذا. من خلال النظر في الكلمات كمجموعات، يمكن أن يكون نموذج التعلم الآلي منطقيا بشكل أفضل للنص.
التفرع هو تقنية يتم فيها تطبيق الخوارزميات لدمج الكلمات قبل عدها، بحيث يتم تفسير الكلمات ذات الجذر نفسه، مثل "القوة" و"المشغلة" و"القوية" على أنها نفس الرمز المميز.

تحليل التردد

بعد رمز الكلمات، يمكنك إجراء بعض التحليل لحساب عدد مرات حدوث كل رمز مميز. غالبا ما توفر الكلمات الأكثر استخداما (بخلاف كلمات التوقف مثل "a" و"the" وما إلى ذلك) دليلا على الموضوع الرئيسي لشركة نصية. على سبيل المثال، تتضمن الكلمات الأكثر شيوعا في النص الكامل للخطاب "الانتقال إلى القمر" الذي اعتبرناه سابقا "جديد" و"انتقال" و"مسافة" و"قمر". إذا أردنا رمز النص كثنائي غرام (أزواج الكلمات)، فإن أكثر أحرف الجرام ثنائية الأحرف شيوعا في الكلام هي "القمر". من هذه المعلومات، يمكننا بسهولة أن نتأكد من أن النص يهتم في المقام الأول بالسفر إلى الفضاء والذهاب إلى القمر.

تلميح

يمكن أن يكون تحليل التردد البسيط الذي تحسب فيه ببساطة عدد مرات حدوث كل رمز مميز طريقة فعالة لتحليل مستند واحد، ولكن عندما تحتاج إلى التمييز عبر مستندات متعددة داخل نفس المجموعة، فأنت بحاجة إلى طريقة لتحديد الرموز المميزة الأكثر صلة في كل مستند. تكرار المصطلح - تكرار المستند العكسي (TF-IDF) هو أسلوب شائع يتم فيه حساب النتيجة استنادا إلى عدد المرات التي تظهر فيها كلمة أو مصطلح في مستند واحد مقارنة بتردده الأكثر عمومية عبر مجموعة المستندات بأكملها. باستخدام هذه التقنية، يفترض وجود درجة عالية من الصلة للكلمات التي تظهر بشكل متكرر في مستند معين، ولكن بشكل غير متكرر نسبيا عبر مجموعة واسعة من المستندات الأخرى.

التعلم الآلي لتصنيف النص

هناك تقنية أخرى مفيدة لتحليل النص وهي استخدام خوارزمية تصنيف، مثل الانحدار اللوجستي، لتدريب نموذج التعلم الآلي الذي يصنف النص استنادا إلى مجموعة معروفة من التصنيفات. أحد التطبيقات الشائعة لهذه التقنية هو تدريب نموذج يصنف النص على أنه إيجابي أو سلبي من أجل إجراء تحليل المشاعر أو استخراج الآراء.

على سبيل المثال، ضع في اعتبارك مراجعات المطعم التالية، والتي تم وصفها بالفعل على أنها 0 (سالبة) أو 1 (إيجابية):

الطعام والخدمة كانا رائعين: 1
تجربة فظيعة حقا: 0
مام! الطعام اللذيذ وحيوية ممتعة1:
بطء الخدمة والطعام دون المستوى: 0

مع ما يكفي من المراجعات المسماة، يمكنك تدريب نموذج تصنيف باستخدام النص المميز كميزات والمشاعر (0 أو 1) تسمية. سيقوم النموذج بتغليف علاقة بين الرموز المميزة والمشاعر - على سبيل المثال، من المرجح أن ترجع المراجعات مع الرموز المميزة لكلمات مثل "رائع" أو "لذيذ" أو "مرح" توجها من 1 (إيجابي)، بينما من المرجح أن ترجع المراجعات التي تتضمن كلمات مثل "رهيب" و"بطيئ" و"دون المستوى" 0 (سلبي).

نماذج اللغة الدلالية

مع تقدم حالة فن البرمجة اللغوية العصبية، أدت القدرة على تدريب النماذج التي تغلف العلاقة الدلالية بين الرموز المميزة إلى ظهور نماذج لغة قوية. في صميم هذه النماذج، يوجد ترميز الرموز المميزة للغة كخطوط متجهة (صفائف متعددة القيم من الأرقام) تعرف باسم التضمينات.

قد يكون من المفيد التفكير في العناصر الموجودة في متجه تضمين الرمز المميز كإحداثيات في مساحة متعددة الأبعاد، بحيث يحتل كل رمز مميز "موقعا" محددا. الرموز المميزة الأقرب هي لبعضها البعض على طول بعد معين، كلما كانت مرتبطة دلاليا. بمعنى آخر، يتم تجميع الكلمات ذات الصلة بشكل أقرب معًا. كمثال بسيط، افترض أن التضمينات الخاصة بالرموز المميزة الخاصة بنا تتكون من متجهات بثلاثة عناصر، على سبيل المثال:

4 ("كلب"): [10.3.2]
5 ("لحاء"): [10,2,2]
8 ("cat"): [10,3,1]
9 ("meow"): [10,2,1]
10 ("لوح التزلج"): [3,3,1]

يمكننا رسم موقع الرموز المميزة استنادا إلى هذه الخطوط المتجهة في مساحة ثلاثية الأبعاد، مثل هذا:

A diagram of tokens plotted on a three-dimensional space.

تتضمن مواقع الرموز المميّزة في مساحة التضمين بعض المعلومات حول مدى ارتباط الرموز المميّزة ببعضها البعض. على سبيل المثال، الرمز المميز ل "dog" قريب من "cat" وأيضا إلى "لحاء". الرموز المميزة ل "cat" و"لحاء" قريبة من "meow". الرمز المميز ل "لوح التزلج" أبعد من الرموز المميزة الأخرى.

تستند نماذج اللغة التي نستخدمها في الصناعة إلى هذه المبادئ ولكن لها تعقيد أكبر. على سبيل المثال، الخطوط المتجهة المستخدمة بشكل عام لها العديد من الأبعاد. هناك أيضا طرق متعددة يمكنك من خلالها حساب التضمينات المناسبة لمجموعة معينة من الرموز المميزة. تؤدي الأساليب المختلفة إلى تنبؤات مختلفة من نماذج معالجة اللغة الطبيعية.

يتم عرض طريقة عرض معممة لمعظم حلول معالجة اللغة الطبيعية الحديثة في الرسم التخطيطي التالي. يتم رمز مجموعة كبيرة من النص الخام واستخدامها لتدريب نماذج اللغة، والتي يمكن أن تدعم العديد من أنواع مختلفة من مهمة معالجة اللغة الطبيعية.

A diagram of the process to tokenize text and train a language model that supports natural language processing tasks.

تتضمن مهام NLP الشائعة التي تدعمها نماذج اللغة ما يلي:

تحليل النص، مثل استخراج المصطلحات الرئيسية أو تحديد الكيانات المسماة في النص.
تحليل المشاعر والتنقيب عن الآراء لتصنيف النص على أنه إيجابي أو سلبي.
الترجمة الآلية، حيث تتم ترجمة النص تلقائيا من لغة إلى أخرى.
التلخيص، حيث يتم تلخيص النقاط الرئيسية لنص كبير.
حلول الذكاء الاصطناعي المحادثة مثل الروبوتات أو المساعدين الرقميين حيث يمكن لنموذج اللغة تفسير إدخال اللغة الطبيعية وإرجاع استجابة مناسبة.

يتم دعم هذه الإمكانات والمزيد من قبل النماذج في خدمة Azure الذكاء الاصطناعي Language، والتي سنستكشفها بعد ذلك.

متابعة

الترميز المميز

تحليل التردد

التعلم الآلي لتصنيف النص

نماذج اللغة الدلالية

الملاحظات