المهارة المعرفية للتعرف على الكيانات (V3)
تستخرج مهارة التعرف على الكيانات كيانات من أنواع مختلفة من النص. تندرج هذه الكيانات تحت 14 فئة متميزة، تتراوح من الأشخاص والمؤسسات إلى عناوين URL وأرقام الهواتف. تستخدم هذه المهارة نماذج التعلم الآلي للتعرف على الكيانات المسماة التي توفرها Azure Cognitive Services for Language.
ملاحظة
ترتبط هذه المهارة بالخدمات المعرفية وتتطلب موردا قابلا للفوترة للمعاملات التي تتجاوز 20 مستندا لكل مفهرس يوميا. يتم فرض رسوم على تنفيذ المهارات المضمنة بسعر الخدمات المعرفية الحالي للدفع أولا بأول.
@odata.type
Microsoft.Skills.Text.V3.EntityRecognitionSkill
حدود البيانات
يجب أن يكون الحد الأقصى لحجم السجل 50000 حرف كما تم قياسه بواسطة String.Length. إذا كنت بحاجة إلى تقسيم بياناتك قبل إرسالها إلى مهارة التعرف على الكيان، ففكر في استخدام مهارة تقسيم النص.
معلمات المهارة
المعلمات حساسة لحالة الأحرف وكلها اختيارية.
| اسم المعلمة | الوصف |
|---|---|
categories |
مجموعة من الفئات التي يجب استخراجها. أنواع الفئات الممكنة: "Person", , , , , , , , , "Skill""Address""Location""Product""ipAddress""phoneNumber""Organization""Quantity""DateTime""URL""Email""personType""Event" إذا لم يتم توفير أي فئة، يتم إرجاع جميع الأنواع. |
defaultLanguageCode |
رمز اللغة لنص الإدخال. إذا لم يتم تحديد رمز اللغة الافتراضي، استخدام اللغة الإنجليزية (en) كرمز اللغة الافتراضي. راجع القائمة الكاملة للغات المدعومة. ليست كل فئات الكيانات مدعومة لجميع اللغات؛ انظر الملاحظة أدناه. |
minimumPrecision |
قيمة بين 0 و 1. إذا كانت درجة الثقة (في الناتج) أقل من هذه القيمة، فلن يتم إرجاع الكيان namedEntities . الافتراضي هو 0. |
modelVersion |
(اختياري) يحدد إصدار النموذج المطلوب استخدامه عند استدعاء واجهة برمجة تطبيقات التعرف على الكيان. سيتم تعيينه افتراضيا إلى أحدث ما هو متاح عند عدم تحديده. نوصيك بعدم تحديد هذه القيمة إلا إذا كان ذلك ضروريا. |
مدخلات المهارات
| اسم الإدخال | الوصف |
|---|---|
languageCode |
سلسلة تشير إلى لغة السجلات. إذا لم يتم تحديد هذه المعلمة، استخدام رمز اللغة الافتراضي لتحليل السجلات. راجع القائمة الكاملة للغات المدعومة. |
text |
النص المراد تحليله. |
مخرجات المهارات
ملاحظة
لا يتم دعم جميع فئات الكيانات لجميع اللغات. راجع فئات الكيانات المسماة المدعومة (NER) لمعرفة فئات الكيانات المدعومة للغة التي ستستخدمها.
| اسم الإخراج | الوصف |
|---|---|
persons |
مجموعة من السلاسل حيث تمثل كل سلسلة اسم شخص. |
locations |
صفيف من السلاسل حيث تمثل كل سلسلة موقعا. |
organizations |
صفيف من السلاسل حيث تمثل كل سلسلة مؤسسة. |
quantities |
صفيف من السلاسل حيث تمثل كل سلسلة كمية. |
dateTimes |
صفيف من السلاسل حيث تمثل كل سلسلة قيمة DateTime (كما تظهر في النص). |
urls |
صفيف من السلاسل حيث تمثل كل سلسلة عنوان URL |
emails |
مجموعة من السلاسل حيث تمثل كل سلسلة بريدا إلكترونيا |
personTypes |
صفيف من السلاسل حيث تمثل كل سلسلة PersonType |
events |
صفيف من السلاسل حيث تمثل كل سلسلة حدثا |
products |
صفيف من السلاسل حيث تمثل كل سلسلة منتجا |
skills |
مجموعة من السلاسل حيث تمثل كل سلسلة مهارة |
addresses |
صفيف من السلاسل حيث تمثل كل سلسلة عنوانا |
phoneNumbers |
مجموعة من السلاسل حيث تمثل كل سلسلة رقم هاتف |
ipAddresses |
صفيف من السلاسل حيث تمثل كل سلسلة عنوان IP |
namedEntities |
صفيف من الأنواع المعقدة التي تحتوي على الحقول التالية:
|
نموذج تعريف
{
"@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
"context": "/document",
"categories": [ "Person", "Email"],
"defaultLanguageCode": "en",
"minimumPrecision": 0.5,
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "persons",
"targetName": "people"
},
{
"name": "emails",
"targetName": "emails"
},
{
"name": "namedEntities",
"targetName": "namedEntities"
}
]
}
عينة الإدخال
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
"languageCode": "en"
}
}
]
}
عينة الإخراج
{
"values": [
{
"recordId": "1",
"data" :
{
"people": [ "Jean Martin"],
"emails":["contact@contoso.com"],
"namedEntities":
[
{
"category": "Person",
"subcategory": null,
"length": 11,
"offset": 35,
"confidenceScore": 0.98,
"text": "Jean Martin"
},
{
"category": "Email",
"subcategory": null,
"length": 19,
"offset": 71,
"confidenceScore": 0.8,
"text": "contact@contoso.com"
}
],
}
}
]
}
يتم إرجاع الإزاحات التي يتم إرجاعها للكيانات في إخراج هذه المهارة مباشرة من واجهات برمجة تطبيقات خدمة اللغة، مما يعني أنه إذا كنت تستخدمها للفهرسة في السلسلة الأصلية، فيجب عليك استخدام فئة StringInfo في .NET لاستخراج المحتوى الصحيح. لمزيد من المعلومات، راجع دعم متعدد اللغات والرموز التعبيرية في ميزات خدمة اللغة.
حالات التحذير
إذا كان رمز اللغة الخاص بالمستند غير معتمد، إرجاع تحذير ولا يتم استخراج أي كيانات.