تسمية بياناتك باستخدام Language Studio

تعد تسمية البيانات خطوة حاسمة في دورة حياة التطوير. في هذه الخطوة، يمكنك تسمية مستنداتك بالكيانات الجديدة التي قمت بتعريفها في مخططك لملء المكونات التي تم تعلمها. سيتم استخدام هذه البيانات في الخطوة التالية عند تدريب النموذج الخاص بك بحيث يمكن لنموذجك التعلم من البيانات المسماة لمعرفة الكيانات التي يجب استخراجها. إذا كنت قد قمت بالفعل بتسمية البيانات، يمكنك استيرادها مباشرة إلى مشروعك، ولكنك تحتاج إلى التأكد من أن بياناتك تتبع تنسيق البيانات المقبول. راجع إنشاء مشروع لمعرفة المزيد حول استيراد البيانات المسماة إلى مشروعك. إذا لم تتم تسمية بياناتك بالفعل، يمكنك تسميتها في Language Studio.

المتطلبات الأساسية

قبل أن تتمكن من تسمية بياناتك، تحتاج إلى:

راجع دورة حياة تطوير المشروع لمزيد من المعلومات.

إرشادات تسمية البيانات

بعد إعداد بياناتك وتصميم المخططوإنشاء مشروعك، ستحتاج إلى تسمية بياناتك. تعد تسمية بياناتك أمراً مهماً حتى يعرف نموذجك الكلمات التي سيتم ربطها لأنواع الكيانات التي تحتاج إلى استخراجها. عند تسمية بياناتك في Language Studio (أو استيراد بيانات مسماة)، يتم تخزين هذه التسميات في مستند JSON في حاوية التخزين التي قمت بتوصيلها بهذا المشروع.

أثناء تسمية بياناتك، ضع في اعتبارك ما يلي:

  • لا يمكنك إضافة تسميات لتحليلات النص للكيانات الصحية لأنها كيانات تم إنشاؤها مسبقا. يمكنك فقط إضافة تسميات إلى فئات الكيانات الجديدة التي قمت بتعريفها أثناء تعريف المخطط.

إذا كنت ترغب في تحسين الاستدعاء لكيان تم إنشاؤه مسبقا، يمكنك توسيعه عن طريق إضافة مكون قائمة أثناء تعريف المخطط الخاص بك.

  • بشكلٍ عام، تؤدي المزيد من البيانات المصنفة إلى نتائج أفضل، بشرط أن تتم تسمية البيانات بدقة.

  • تعد دقة البيانات المسماة واتساقها واكتمالها عوامل رئيسية لتحديد أداء النموذج.

    • التسمية بدقة: تسمية كل كيان لتحديد نوعه الصحيح دائماً. قم بتضمين ما تريد استخراجه فقط، وتجنب البيانات غير الضرورية في المسميات الخاصة بك.
    • تسمية متسقة: يلزم أن يكون لنفس الكيان نفس المسمى عبر جميع الملفات.
    • تسمية كاملة: قم بتسمية جميع مثيلات الكيان في جميع مستنداتك.

    ملاحظة

    لا يوجد عدد ثابت من التسميات التي يمكن أن تضمن أداء النموذج الخاص بك على أفضل نحو. يعتمد أداء النموذج على الغموض المحتمل في المخطط الخاص بك، وجودة البيانات المسماة. ومع ذلك، نوصي بوجود حوالي 50 مثيلاً مسمى لكل نوع كيان.

تسمية البيانات

استخدم الخطوات التالية لتسمية البيانات:

  1. انتقل إلى صفحة مشروعك في Language Studio.

  2. من القائمة اليسرى، حدد Data labeling. يمكنك العثور على قائمة بجميع المستندات في حاوية التخزين الخاصة بك.

    تلميح

    يمكنك القيام باستخدام عوامل التصفية في القائمة العلوية لعرض المستندات غير المسماة بحيث يمكنك البدء في تصنيفها. يمكنك أيضاً استخدام عوامل التصفية لعرض المستندات المسماة بنوع كيان معين.

  3. قم بالتغيير إلى عرض مستند واحد من الجانب الأيسر في القائمة العلوية أو حدد مستندًا معينًا لبدء وضع العلامات. يمكنك العثور على قائمة بجميع .txt المستندات المتوفرة في مشروعك إلى اليسار. يمكنك استخدام الزر Back وNext من أسفل الصفحة للتنقل عبر مستنداتك.

    ملاحظة

    إذا قمت بتمكين لغات متعددة لمشروعك، فستجد القائمة المنسدلة اللغة في القائمة العلوية، والتي تتيح لك تحديد لغة كل مستند. العبرية غير مدعومة بمشاريع متعددة اللغات.

  4. في الجزء الأيسر، يمكنك استخدام الزر Add entity type لإضافة كيانات إضافية إلى مشروعك التي فاتك أثناء تعريف المخطط.

  5. لديك خياران لتسمية المستند الخاص بك:

    خيار الوصف
    التسمية باستخدام فرشاة حدد أيقونة الفرشاة بجوار نوع كيان في الجزء الأيمن، ثم قم بتمييز النص في المستند الذي تريد إضافة تعليق توضيحي له باستخدام نوع الكيان هذا.
    التسمية باستخدام قائمة قم بتمييز الكلمة التي تريد تسميتها ككيان، وستظهر قائمة. حدد نوع الكيان الذي تريد تعيينه لهذا الكيان.

    تظهر لقطة الشاشة أدناه التسمية باستخدام فرشاة.

    لقطة شاشة تعرض خيارات وضع العلامات المتوفرة في Custom NER.

  6. في الجزء الأيسر ضمن محور التسميات، يمكنك العثور على جميع أنواع الكيانات في مشروعك وعدد المثيلات المسماة لكل منها. سيتم عرض الكيانات التي تم إنشاؤها مسبقا للرجوع إليها ولكن لن تتمكن من تسمية هذه الكيانات التي تم إنشاؤها مسبقا لأنها مدربة مسبقا.

  7. في القسم السفلي من الجزء الأيمن، يمكنك إضافة المستند الحالي الذي تشاهده إلى مجموعة التدريب أو مجموعة الاختبار. بشكلٍ افتراضي، تتم إضافة جميع المستندات إلى مجموعة التدريب الخاصة بك. راجع مجموعات التدريب والاختبار للحصول على معلومات حول كيفية استخدامها لتدريب النموذج وتقييمه.

    تلميح

    إذا كنت تخطط لاستخدام تقسيم البيانات التلقائي، فاستخدم الخيار الافتراضي لتعيين جميع المستندات في مجموعة التدريب الخاصة بك.

  8. ضمن محور التوزيع، يمكنك عرض التوزيع عبر مجموعات التدريب والاختبار. لديك خياران للعرض:

    • إجمالي المثيلات حيث يمكنك عرض عدد جميع المثيلات المسماة لنوع كيان معين.
    • المستندات ذات التسمية الواحدة على الأقل حيث يتم حساب كل مستند إذا كان يحتوي على مثيل واحد على الأقل مسمى لهذا الكيان.
  9. عند وضع العلامات، تتم مزامنة التغييرات بشكل دوري، وإذا لم يتم حفظها بعد، فستجد تحذيرا في أعلى الصفحة. إذا كنت تريد الحفظ يدويا، فحدد الزر حفظ التسميات في أسفل الصفحة.

إزالة التسميات

لإزالة تسمية

  1. حدد الكيان الذي تريد إزالة تسمية منه.
  2. قم بالتمرير عبر القائمة التي تظهر، وحدد إزالة التسمية.

حذف الكيانات

لا يمكنك حذف أي من Text Analytics للكيانات المدربة مسبقا على الصحة لأن لديها مكونا تم إنشاؤه مسبقا. يسمح لك فقط بحذف فئات الكيانات المحددة حديثا. لحذف كيان، حدد أيقونة الحذف بجوار الكيان الذي تريد إزالته. يؤدي حذف كيان إلى إزالة جميع مثيلاته المسماة من مجموعة البيانات الخاصة بك.

الخطوات التالية

بعد تسمية بياناتك، يمكنك البدء في تدريب نموذج سيتعلم استناداً إلى بياناتك.