وضع علامة على بياناتك للتعرف على الكيانات المسماة المخصصة (NER) في استوديو اللغة

قبل إنشاء نماذج استخراج الكيان المخصص، يجب أن يكون لديك بيانات موسومة. إذا لم يتم وضع علامة على بياناتك بالفعل، فيمكنك وضع علامة عليها في استوديو اللغة. لوضع علامة على بياناتك، يجب أن تكون قد أنشأت مشروعا.

المتطلبات الأساسية

قبل أن تتمكن من وضع علامة على البيانات، تحتاج إلى:

راجع دورة حياة تطوير التطبيقات لمزيد من المعلومات.

وضع علامة على بياناتك

بعد تحميل بيانات التدريب إلى حساب تخزين Azure الخاص بك، ستحتاج إلى وضع علامة عليها، حتى يعرف نموذجك الكلمات التي سيتم ربطها بالفصول الدراسية التي تحتاجها. عند وضع علامة على البيانات في Language Studio (أو وضع علامة على بياناتك يدويا)، سيتم تخزين هذه العلامات بتنسيق JSON الذي سيستخدمه نموذجك أثناء التدريب.

أثناء وضع علامة على بياناتك، تذكر ما يلي:

  • علامة على وجه التحديد: ضع علامة على كل كيان لتحديد نوعه الصحيح دائماً. قم بتضمين ما تريد استخراجه فقط، وتجنب البيانات غير الضرورية في العلامة الخاصة بك.
  • العلامة باستمرار: يجب أن يكون للكيان نفسه نفس العلامة عبر جميع الملفات.
  • العلامة تماما: ضع علامة على جميع مثيلات الكيان في جميع ملفاتك.

تعد دقة بياناتك الموسومة واتساقها واكتمالها عوامل رئيسية لتحديد أداء النموذج. لوضع علامة على بياناتك:

  1. انتقل إلى صفحة المشاريع في Language Studio وحدد مشروعك.

  2. من القائمة على الجانب الأيمن، اختر وضع علامة على البيانات

  3. يمكنك العثور على قائمة بجميع .txt الملفات المتوفرة في مشاريعك على اليسار. يمكنك تحديد الملف الذي تريد بدء وضع علامة عليه أو يمكنك استخدام الزر " رجوع " و "التالي " من أسفل الصفحة للتنقل.

  4. لبدء وضع العلامات، انقر على إضافة كيانات في الزاوية العلوية اليسرى. يمكنك إما عرض كافة الملفات أو الملفات ذات العلامات فقط عن طريق تغيير طريقة العرض من عامل التصفية المنسدل عرض .

    A screenshot showing the Language Studio screen for tagging data.

    في الصورة أعلاه:

    • القسم 1: هو المكان الذي يتم فيه عرض محتوى الملف النصي ووضع العلامات. لديك خياران لوضع علامات على ملفاتك.

    • القسم 2: يتضمن كيانات مشروعك وتوزيعه عبر ملفاتك وعلاماتك. إذا نقرت فوق توزيع، يمكنك عرض توزيع العلامات عبر:

      • الملفات: عرض توزيع الملفات عبر كيان واحد.
      • العلامات: عرض توزيع العلامات عبر جميع الملفات.

      A screenshot showing the distribution section.

    • القسم 3: هذا هو تبديل بيانات المشروع المقسمة. يمكنك اختيار إضافة ملف نصي محدد إلى مجموعة التدريب أو مجموعة الاختبار. بشكل افتراضي، يتم إيقاف تشغيل مفتاح التبديل، وتتم إضافة جميع الملفات النصية إلى مجموعة التدريب الخاصة بك.

لإضافة ملف نصي إلى مجموعة تدريب أو اختبار، ما عليك سوى الاختيار من بين أزرار الاختيار التي ينتمي إليها.

تلميح

يوصى بتحديد مجموعة الاختبار الخاصة بك.

إذا قمت بتمكين لغات متعددة لمشروعك، فستجد قائمة منسدلة لغة، والتي تتيح لك تحديد لغة كل مستند.

أثناء وضع العلامات ، ستتم مزامنة تغييراتك بشكل دوري ، إذا لم يتم حفظها بعد ، فستجد تحذيرا في أعلى صفحتك. إذا كنت ترغب في الحفظ يدويا ، فانقر فوق الزر "حفظ العلامات" في أعلى الصفحة.

خيارات وضع العلامات

لديك خياران لوضع علامة على المستند:

الخيار الوصف
وضع علامة باستخدام فرشاة حدد أيقونة الفرشاة بجوار كيان في الزاوية العلوية اليسرى من الشاشة، ثم قم بتمييز الكلمات في المستند الذي تريد إقرانه بالكيان
وضع علامة باستخدام قائمة قم بتمييز الكلمة التي تريد وضع علامة عليها ككيان، وستظهر قائمة. حدد العلامة التي تريد تعيينها لهذا الكيان.

تعرض لقطة الشاشة أدناه وضع العلامات باستخدام فرشاة.

A screenshot showing the tagging options offered in Custom NER.

إزالة العلامات

لإزالة علامة

  1. حدد الكيان الذي تريد إزالة علامة منه.
  2. مرر عبر القائمة التي تظهر، وحدد إزالة العلامة.

حذف الكيانات أو إعادة تسميتها

لحذف كيان أو إعادة تسميته:

  1. حدد الكيان الذي تريد تعديله في الزاوية العلوية اليسرى من القائمة.
  2. انقر على النقاط الثلاث بجوار الكيان ، وحدد الخيار الذي تريده من القائمة المنسدلة.

الخطوات التالية

بعد وضع علامة على بياناتك، يمكنك البدء في تدريب نموذج سيتعلم استنادا إلى بياناتك.