المهارة المعرفية للبحث عن كيان مخصص
تبحث مهارة البحث عن كيان مخصص عن نص من قائمة مخصصة ومعرفة من قبل المستخدم من الكلمات والعبارات. استخدام هذه القائمة، يؤدي إلى تسمية جميع المستندات مع أي كيانات مطابقة. كما تدعم المهارة تدعم درجة من خيارات المطابقة الغامضة التي يمكن تطبيقها للعثور على المطابقات التي تكون متماثلة بشكل غير كامل.
ملاحظة
هذه المهارة غير مرتبطة بواجهة برمجة تطبيقات الخدمات المعرفية ولكنها تتطلب مفتاح الخدمات المعرفية للسماح بأكثر من 20 معاملة. يتم قياس هذه المهارة بواسطة البحث المعرفي.
@odata.type
Microsoft.Skills.Text.CustomEntityLookupSkill
حدود البيانات
- الحد الأقصى لحجم سجل الإدخال المدعوم هو 256 ميغابايت. إذا كنت بحاجة إلى تقسيم بياناتك قبل إرسالها إلى مهارة البحث عن كيان مخصص، ففكر في استخدام مهارة تقسيم النص.
- الحد الأقصى لجدول تعريف الكيانات المدعوم هو 10 ميغابايت إذا تم توفيره باستخدام المعلمة entitiesDefinitionUri .
- إذا تم تعريف الكيانات مضمنة، باستخدام المعلمة inlineEntitiesDefinition ، فإن الحد الأقصى للحجم المدعوم هو 10 كيلوبايت.
معلمات المهارة
المعلمات حساسة لحالة الأحرف.
| اسم المعلمة | الوصف |
|---|---|
entitiesDefinitionUri |
المسار إلى ملف JSON أو CSV يحتوي على كل النص المستهدف لمطابقته. تتم قراءة تعريف الكيان هذا في بداية تشغيل مفهرس ؛ لن تتحقق أي تحديثات لهذا الملف في منتصف التشغيل حتى عمليات التشغيل اللاحقة. يجب أن يكون هذا التكوين قابلا للوصول عبر HTTPS. راجع تنسيق تعريف الكيان المخصص " أدناه للاطلاع على مخطط CSV أو JSON المتوقع. |
inlineEntitiesDefinition |
تعريفات كيان JSON المضمنة. تحل هذه المعلمة محل المعلمة entityDefinitionUri إذا كانت موجودة. لا يجوز توفير أكثر من 10 كيلوبايت من التكوين المضمن. راجع تعريف الكيان المخصص أدناه للاطلاع على مخطط JSON المتوقع. |
defaultLanguageCode |
(اختياري) رمز اللغة لنص الإدخال المستخدم لترميز نص الإدخال وتحديده. اللغات التالية مدعومة: da, de, en, es, fi, fr, it, ko, pt. الافتراضي هو الإنجليزية (en). إذا قمت بتمرير تنسيق رمز اللغة-رمز البلد، استخدام جزء رمز اللغة فقط من التنسيق. |
globalDefaultCaseSensitive |
(اختياري) القيمة الافتراضية الحساسة لحالة الأحرف للمهارة. إذا defaultCaseSensitive لم يتم تحديد قيمة كيان، فستصبح هذه القيمة قيمة هذا الكيان defaultCaseSensitive . |
globalDefaultAccentSensitive |
(اختياري) القيمة الافتراضية الحساسة للتمييز للمهارة. إذا defaultAccentSensitive لم يتم تحديد قيمة كيان، فستصبح هذه القيمة قيمة هذا الكيان defaultAccentSensitive . |
globalDefaultFuzzyEditDistance |
(اختياري) قيمة مسافة التحرير الضبابية الافتراضية للمهارة. إذا defaultFuzzyEditDistance لم يتم تحديد قيمة كيان، فستصبح هذه القيمة قيمة هذا الكيان defaultFuzzyEditDistance . |
مدخلات المهارات
| اسم الإدخال | الوصف |
|---|---|
text |
النص المراد تحليله. |
languageCode |
اختياري. الافتراضي هو "en". |
مخرجات المهارات
| اسم الإخراج | الوصف |
|---|---|
entities |
صفيف من الكائنات التي تحتوي على معلومات حول التطابقات التي تم العثور عليها، وبيانات التعريف ذات الصلة. قد يحتوي كل كيان من الكيانات المحددة على الحقول التالية:
|
تنسيق تعريف الكيان المخصص
هناك 3 طرق مختلفة لتوفير قائمة الكيانات المخصصة لمهارة البحث عن كيان مخصص. يمكنك توفير القائمة في ملف .CSV، وهو ملف . ملف JSON أو كتعريف مضمن كجزء من تعريف المهارة.
إذا كان ملف التعريف عبارة عن .CSV أو . ملف JSON ، يجب توفير مسار الملف كجزء من المعلمة EntitiesDefinitionUri . في هذه الحالة، يتم تنزيل الملف مرة واحدة في بداية كل تشغيل مفهرس. يجب أن يكون الملف قابلا للوصول طالما أن المفهرس مخصص للتشغيل. أيضا، يجب ترميز الملف UTF-8.
إذا تم توفير التعريف في السطر، فيجب توفيره مضمنا مثل محتوى معلمة مهارة inlineEntitiesDefinition .
تنسيق CSV
يمكنك توفير تعريف الكيانات المخصصة للبحث عنها في ملف قيمة Comma-Separated (CSV) عن طريق توفير المسار إلى الملف وتعيينه في معلمة مهارة EntitiesDefinitionUri . يجب أن يكون المسار في موقع https. يمكن أن يصل حجم ملف التعريف إلى 10 ميغابايت.
تنسيق CSV بسيط. يمثل كل سطر كيانا فريدا ، كما هو موضح أدناه:
Bill Gates, BillG, William H. Gates
Microsoft, MSFT
Satya Nadella
في هذه الحالة ، هناك ثلاثة كيانات يمكن إرجاعها ككيانات تم العثور عليها (Bill Gates و Satya Nadella و Microsoft) ، ولكن سيتم تحديدها إذا تمت مطابقة أي من المصطلحات الموجودة على السطر (الأسماء المستعارة) على النص. على سبيل المثال ، إذا تم العثور على السلسلة William H. Gates في مستند ، إرجاع مطابقة لكيان Bill Gates.
تنسيق JSON
يمكنك تقديم تعريف الكيانات المخصصة للبحث عنها في ملف JSON أيضا. يمنحك تنسيق JSON مرونة أكبر قليلا لأنه يسمح لك بتحديد قواعد المطابقة لكل مصطلح. على سبيل المثال ، يمكنك تحديد مسافة المطابقة الغامضة (مسافة Damerau-Levenshtein) لكل مصطلح أو ما إذا كانت المطابقة يجب أن تكون حساسة لحالة الأحرف أم لا.
تماما كما هو الحال مع ملفات CSV ، تحتاج إلى توفير المسار إلى ملف JSON وتعيينه في معلمة مهارة DefinitionUri الكيانات . يجب أن يكون المسار في موقع https. يمكن أن يصل حجم ملف التعريف إلى 10 ميغابايت.
يمكن أن يكون تعريف قائمة الكيانات المخصصة JSON الأساسي قائمة بالكيانات المراد مطابقتها:
[
{
"name" : "Bill Gates"
},
{
"name" : "Microsoft"
},
{
"name" : "Satya Nadella"
}
]
يمكن أن يوفر مثال أكثر تعقيدا لتعريف JSON اختياريا المعرف والوصف والنوع والنوع الفرعي لكل كيان - بالإضافة إلى الأسماء المستعارة الأخرى. إذا تمت مطابقة مصطلح اسم مستعار، إرجاع الكيان أيضا:
[
{
"name" : "Bill Gates",
"description" : "Microsoft founder." ,
"aliases" : [
{ "text" : "William H. Gates", "caseSensitive" : false },
{ "text" : "BillG", "caseSensitive" : true }
]
},
{
"name" : "Xbox One",
"type": "Harware",
"subtype" : "Gaming Device",
"id" : "4e36bf9d-5550-4396-8647-8e43d7564a76",
"description" : "The Xbox One product"
},
{
"name" : "LinkedIn" ,
"description" : "The LinkedIn company",
"id" : "differentIdentifyingScheme123",
"fuzzyEditDistance" : 0
},
{
"name" : "Microsoft" ,
"description" : "Microsoft Corporation",
"id" : "differentIdentifyingScheme987",
"defaultCaseSensitive" : false,
"defaultFuzzyEditDistance" : 1,
"aliases" : [
{ "text" : "MSFT", "caseSensitive" : true }
]
}
]
تصف الجداول أدناه بمزيد من التفصيل معلمات التكوين المختلفة التي يمكنك تعيينها عند تعريف الكيانات المراد مطابقتها:
| اسم الحقل | الوصف |
|---|---|
name |
واصف كيان المستوى الأعلى. سيتم تجميع التطابقات في مخرجات المهارات حسب هذا الاسم ، ويجب أن تمثل النموذج "العادي" للنص الذي يتم العثور عليه. |
description |
(اختياري) يمكن استخدام هذا الحقل كممر للبيانات الوصفية المخصصة حول النص (النصوص) المطابقة. ستظهر قيمة هذا الحقل مع كل تطابق لكيانه في ناتج المهارة. |
type |
(اختياري) يمكن استخدام هذا الحقل كممر للبيانات الوصفية المخصصة حول النص (النصوص) المطابقة. ستظهر قيمة هذا الحقل مع كل تطابق لكيانه في ناتج المهارة. |
subtype |
(اختياري) يمكن استخدام هذا الحقل كممر للبيانات الوصفية المخصصة حول النص (النصوص) المطابقة. ستظهر قيمة هذا الحقل مع كل تطابق لكيانه في ناتج المهارة. |
id |
(اختياري) يمكن استخدام هذا الحقل كممر للبيانات الوصفية المخصصة حول النص (النصوص) المطابقة. ستظهر قيمة هذا الحقل مع كل تطابق لكيانه في ناتج المهارة. |
caseSensitive |
(اختياري) الإعدادات الافتراضية إلى false. تشير القيمة المنطقية إلى ما إذا كانت المقارنات مع اسم الكيان يجب أن تكون حساسة لغلاف الحرف. يمكن أن يكون نموذج التطابقات غير الحساسة لحالة الأحرف من "Microsoft": Microsoft و Microsoft و Microsoft و MICROSOFT |
accentSensitive |
(اختياري) الإعدادات الافتراضية إلى false. تشير القيمة المنطقية إلى ما إذا كانت الحروف المعلمة وغير المعلمة مثل "é" و "e" يجب أن تكون متطابقة. |
fuzzyEditDistance |
(اختياري) الإعدادات الافتراضية إلى 0. الحد الأقصى للقيمة 5. يشير إلى العدد المقبول للأحرف المتباينة التي لا تزال تشكل تطابقا مع اسم الكيان. يتم إرجاع أصغر ضبابية ممكنة لأي مباراة معينة. على سبيل المثال ، إذا تم تعيين مسافة التحرير إلى 3 ، فستظل "Windows 10" تتطابق مع "Windows" و "Windows10" و "windows 7". عندما يتم تعيين حساسية حالة الأحرف إلى false، لا يتم احتساب اختلافات الحالة ضمن تحمل الضبابية، ولكنها تفعل خلاف ذلك. |
defaultCaseSensitive |
(اختياري) تغيير قيمة حساسية حالة الأحرف الافتراضية لهذا الكيان. يمكن استخدامه لتغيير القيمة الافتراضية لجميع الأسماء المستعارة قيم caseSensitive . |
defaultAccentSensitive |
(اختياري) تغيير قيمة حساسية التمييز الافتراضية لهذا الكيان. يمكن استخدامه لتغيير القيمة الافتراضية لجميع الأسماء المستعارة accentSensitive Values. |
defaultFuzzyEditDistance |
(اختياري) يغير قيمة مسافة التحرير الضبابية الافتراضية لهذا الكيان. يمكن استخدامه لتغيير القيمة الافتراضية لجميع الأسماء المستعارة fuzzyEditDistance القيم. |
aliases |
(اختياري) صفيف من الكائنات المعقدة التي يمكن استخدامها لتحديد تهجئة أو مرادفات بديلة لاسم الكيان الجذر. |
| عقارات مستعارة | الوصف |
|---|---|
text |
التهجئة البديلة أو تمثيل بعض أسماء الكيانات المستهدفة. |
caseSensitive |
(اختياري) يعمل بنفس طريقة عمل المعلمة "caseSensitive" للكيان الجذري أعلاه، ولكنه ينطبق على هذا الاسم المستعار فقط. |
accentSensitive |
(اختياري) يعمل بنفس المعلمة "accentSensitive" للكيان الجذر أعلاه ، ولكنه ينطبق على هذا الاسم المستعار فقط. |
fuzzyEditDistance |
(اختياري) يعمل بنفس طريقة عمل المعلمة "fuzzyEditDistance" للكيان الجذري أعلاه ، ولكنه ينطبق على هذا الاسم المستعار فقط. |
تنسيق مضمن
في بعض الحالات، قد يكون من الأنسب توفير قائمة الكيانات المخصصة لمطابقتها مباشرة مع تعريف المهارة. في هذه الحالة ، يمكنك استخدام تنسيق JSON مماثل للتنسيق الموضح أعلاه ، ولكنه مضمن في تعريف المهارة. يمكن تعريف التكوينات التي يقل حجمها عن 10 كيلوبايت فقط (الحجم المتسلسل) مضمنة.
نموذج تعريف
يتم عرض نموذج تعريف للمهارة باستخدام تنسيق مضمن أدناه:
{
"@odata.type": "#Microsoft.Skills.Text.CustomEntityLookupSkill",
"context": "/document",
"inlineEntitiesDefinition":
[
{
"name" : "Bill Gates",
"description" : "Microsoft founder." ,
"aliases" : [
{ "text" : "William H. Gates", "caseSensitive" : false },
{ "text" : "BillG", "caseSensitive" : true }
]
},
{
"name" : "Xbox One",
"type": "Hardware",
"subtype" : "Gaming Device",
"id" : "4e36bf9d-5550-4396-8647-8e43d7564a76",
"description" : "The Xbox One product"
}
],
"inputs": [
{
"name": "text",
"source": "/document/content"
}
],
"outputs": [
{
"name": "entities",
"targetName": "matchedEntities"
}
]
}
بدلا من ذلك، إذا قررت توفير مؤشر إلى ملف تعريف الكيانات، عرض نموذج تعريف مهارة entitiesDefinitionUri باستخدام التنسيق أدناه:
{
"@odata.type": "#Microsoft.Skills.Text.CustomEntityLookupSkill",
"context": "/document",
"entitiesDefinitionUri": "https://myblobhost.net/keyWordsConfig.csv",
"inputs": [
{
"name": "text",
"source": "/document/content"
}
],
"outputs": [
{
"name": "entities",
"targetName": "matchedEntities"
}
]
}
عينة الإدخال
{
"values": [
{
"recordId": "1",
"data":
{
"text": "The company, Microsoft, was founded by Bill Gates. Microsoft's gaming console is called Xbox",
"languageCode": "en"
}
}
]
}
عينة الإخراج
{
"values" :
[
{
"recordId": "1",
"data" : {
"entities": [
{
"name" : "Microsoft",
"description" : "This document refers to Microsoft the company",
"id" : "differentIdentifyingScheme987",
"matches" : [
{
"text" : "microsoft",
"offset" : 13,
"length" : 9,
"matchDistance" : 0
},
{
"text" : "Microsoft",
"offset" : 49,
"length" : 9,
"matchDistance" : 0
}
]
},
{
"name" : "Bill Gates",
"description" : "William Henry Gates III, founder of Microsoft.",
"matches" : [
{
"text" : "Bill Gates",
"offset" : 37,
"length" : 10,
"matchDistance" : 0
}
]
}
]
}
}
]
}
الأخطاء والتحذيرات
تحذير: الوصول إلى السعة القصوى للمباريات، وتخطي جميع المباريات المكررة الأخرى.
سيتم إصدار هذا التحذير إذا كان عدد التطابقات المكتشفة أكبر من الحد الأقصى المسموح به. في هذه الحالة ، سنتوقف عن تضمين التطابقات المكررة. إذا كان هذا غير مقبول بالنسبة لك ، فيرجى تقديم تذكرة دعم حتى نتمكن من مساعدتك في حالة الاستخدام الفردية الخاصة بك.