المهارة المعرفية للتعرف على الكيانات (V3)

تستخرج مهارة التعرف على الكيانات كيانات من أنواع مختلفة من النص. تندرج هذه الكيانات تحت 14 فئة متميزة، تتراوح من الأشخاص والمؤسسات إلى عناوين URL وأرقام الهواتف. تستخدم هذه المهارة نماذج التعلم الآلي للتعرف على الكيانات المسماة التي توفرها Azure Cognitive Services for Language.

ملاحظة

ترتبط هذه المهارة بالخدمات المعرفية وتتطلب موردا قابلا للفوترة للمعاملات التي تتجاوز 20 مستندا لكل مفهرس يوميا. يتم فرض رسوم على تنفيذ المهارات المضمنة بسعر الخدمات المعرفية الحالي للدفع أولا بأول.

@odata.type

Microsoft.Skills.Text.V3.EntityRecognitionSkill

حدود البيانات

يجب أن يكون الحد الأقصى لحجم السجل 50000 حرف كما تم قياسه بواسطة String.Length. إذا كنت بحاجة إلى تقسيم بياناتك قبل إرسالها إلى مهارة التعرف على الكيان، ففكر في استخدام مهارة تقسيم النص.

معلمات المهارة

المعلمات حساسة لحالة الأحرف وكلها اختيارية.

اسم المعلمة الوصف
categories مجموعة من الفئات التي يجب استخراجها. أنواع الفئات الممكنة: "Person", , , , , , , , , "Skill""Address""Location""Product""ipAddress""phoneNumber""Organization""Quantity""DateTime""URL""Email""personType""Event" إذا لم يتم توفير أي فئة، يتم إرجاع جميع الأنواع.
defaultLanguageCode رمز اللغة لنص الإدخال. إذا لم يتم تحديد رمز اللغة الافتراضي، استخدام اللغة الإنجليزية (en) كرمز اللغة الافتراضي.
راجع القائمة الكاملة للغات المدعومة. ليست كل فئات الكيانات مدعومة لجميع اللغات؛ انظر الملاحظة أدناه.
minimumPrecision قيمة بين 0 و 1. إذا كانت درجة الثقة (في الناتج) أقل من هذه القيمة، فلن يتم إرجاع الكيان namedEntities . الافتراضي هو 0.
modelVersion (اختياري) يحدد إصدار النموذج المطلوب استخدامه عند استدعاء واجهة برمجة تطبيقات التعرف على الكيان. سيتم تعيينه افتراضيا إلى أحدث ما هو متاح عند عدم تحديده. نوصيك بعدم تحديد هذه القيمة إلا إذا كان ذلك ضروريا.

مدخلات المهارات

اسم الإدخال الوصف
languageCode سلسلة تشير إلى لغة السجلات. إذا لم يتم تحديد هذه المعلمة، استخدام رمز اللغة الافتراضي لتحليل السجلات.
راجع القائمة الكاملة للغات المدعومة.
text النص المراد تحليله.

مخرجات المهارات

ملاحظة

لا يتم دعم جميع فئات الكيانات لجميع اللغات. راجع فئات الكيانات المسماة المدعومة (NER) لمعرفة فئات الكيانات المدعومة للغة التي ستستخدمها.

اسم الإخراج الوصف
persons مجموعة من السلاسل حيث تمثل كل سلسلة اسم شخص.
locations صفيف من السلاسل حيث تمثل كل سلسلة موقعا.
organizations صفيف من السلاسل حيث تمثل كل سلسلة مؤسسة.
quantities صفيف من السلاسل حيث تمثل كل سلسلة كمية.
dateTimes صفيف من السلاسل حيث تمثل كل سلسلة قيمة DateTime (كما تظهر في النص).
urls صفيف من السلاسل حيث تمثل كل سلسلة عنوان URL
emails مجموعة من السلاسل حيث تمثل كل سلسلة بريدا إلكترونيا
personTypes صفيف من السلاسل حيث تمثل كل سلسلة PersonType
events صفيف من السلاسل حيث تمثل كل سلسلة حدثا
products صفيف من السلاسل حيث تمثل كل سلسلة منتجا
skills مجموعة من السلاسل حيث تمثل كل سلسلة مهارة
addresses صفيف من السلاسل حيث تمثل كل سلسلة عنوانا
phoneNumbers مجموعة من السلاسل حيث تمثل كل سلسلة رقم هاتف
ipAddresses صفيف من السلاسل حيث تمثل كل سلسلة عنوان IP
namedEntities صفيف من الأنواع المعقدة التي تحتوي على الحقول التالية:
  • الفئة
  • subcategory
  • نقاط الثقة (القيمة الأعلى تعني أنه من الأفضل أن تكون كيانا حقيقيا)
  • الطول (الطول (عدد الأحرف) لهذا الكيان)
  • الإزاحة (الموقع الذي تم العثور عليه فيه في النص)
  • النص (اسم الكيان الفعلي كما يظهر في النص)

نموذج تعريف

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
    "context": "/document",
    "categories": [ "Person", "Email"],
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "persons", 
            "targetName": "people"
        },
        {
            "name": "emails", 
            "targetName": "emails"
        },
        {
            "name": "namedEntities", 
            "targetName": "namedEntities"
        }
    ]
  }

عينة الإدخال

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
             "languageCode": "en"
           }
      }
    ]
}

عينة الإخراج

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "people": [ "Jean Martin"],
        "emails":["contact@contoso.com"],
        "namedEntities": 
        [
          {
            "category": "Person",
            "subcategory": null,
            "length": 11,
            "offset": 35,
            "confidenceScore": 0.98,
            "text": "Jean Martin"
          },
          {
            "category": "Email",
            "subcategory": null,
            "length": 19,
            "offset": 71,
            "confidenceScore": 0.8,
            "text": "contact@contoso.com"
          }
        ],
      }
    }
  ]
}

يتم إرجاع الإزاحات التي يتم إرجاعها للكيانات في إخراج هذه المهارة مباشرة من واجهات برمجة تطبيقات خدمة اللغة، مما يعني أنه إذا كنت تستخدمها للفهرسة في السلسلة الأصلية، فيجب عليك استخدام فئة StringInfo في .NET لاستخراج المحتوى الصحيح. لمزيد من المعلومات، راجع دعم متعدد اللغات والرموز التعبيرية في ميزات خدمة اللغة.

حالات التحذير

إذا كان رمز اللغة الخاص بالمستند غير معتمد، إرجاع تحذير ولا يتم استخراج أي كيانات.

راجع أيضًا