تقسيم النص المهارة المعرفية
تقوم مهارة تقسيم النص بتقسيم النص إلى أجزاء من النص . يمكنك تحديد ما إذا كنت تريد تقسيم النص إلى جمل أو إلى صفحات ذات طول معين. هذه المهارة مفيدة بشكل خاص إذا كان هناك الحد الأقصى لمتطلبات طول النص في المهارات الأخرى في اتجاه المصب.
ملاحظة
هذه المهارة ليست مرتبطة بالخدمات المعرفية. إنه غير قابل للفوترة وليس له متطلبات رئيسية للخدمات المعرفية.
@odata.type
Microsoft.Skills.Text.SplitSkill
معلمات المهارة
المعلمات حساسة لحالة الأحرف.
| اسم المعلمة | الوصف |
|---|---|
textSplitMode |
إما pages أو sentences |
maximumPageLength |
ينطبق فقط إذا textSplitMode تم تعيينه على pages. يشير هذا إلى الحد الأقصى لطول الصفحة بالأحرف كما تم قياسه بواسطة String.Length. الحد الأدنى للقيمة هو 300 ، والحد الأقصى هو 100000 ، والقيمة الافتراضية هي 10000. ستبذل الخوارزمية قصارى جهدها لكسر النص على حدود الجملة ، لذلك قد يكون حجم كل قطعة أقل قليلا من maximumPageLength. |
defaultLanguageCode |
(اختياري) أحد رموز اللغة التالية: am, bs, cs, da, de, en, es, et, fr, he, hi, hr, hu, fi, id, is, it, ja, ko, lv, no, nl, pl, pt-PT, pt-BR, ru, sk, sl, sr, sv, tr, ur, zh-Hans. الافتراضي هو الإنجليزية (en). بعض الأشياء التي يجب مراعاتها:
|
مدخلات المهارات
| اسم المعلمة | الوصف |
|---|---|
text |
النص المراد تقسيمه إلى سلسلة فرعية. |
languageCode |
(اختياري) رمز اللغة للمستند. إذا كنت لا تعرف اللغة (أي تحتاج إلى تقسيم النص لإدخاله في LanguageDetectionSkill) ، فمن الآمن إزالة هذا الإدخال. إذا لم تكن اللغة موجودة في القائمة المدعومة للمعلمة defaultLanguageCode أعلاه ، إصدار تحذير ولن يتم تقسيم النص. |
مخرجات المهارات
| اسم المعلمة | الوصف |
|---|---|
textItems |
مجموعة من السلاسل الفرعية التي تم استخراجها. |
نموذج تعريف
{
"@odata.type": "#Microsoft.Skills.Text.SplitSkill",
"textSplitMode" : "pages",
"maximumPageLength": 1000,
"defaultLanguageCode": "en",
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "textItems",
"targetName": "mypages"
}
]
}
عينة من الإدخال
{
"values": [
{
"recordId": "1",
"data": {
"text": "This is the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia...",
"languageCode": "en"
}
},
{
"recordId": "2",
"data": {
"text": "This is the second document, which will be broken into several pages...",
"languageCode": "en"
}
}
]
}
إخراج العينة
{
"values": [
{
"recordId": "1",
"data": {
"textItems": [
"This is the loan…",
"On the second page we…"
]
}
},
{
"recordId": "2",
"data": {
"textItems": [
"This is the second document...",
"On the second page of the second doc…"
]
}
}
]
}
حالات الخطأ
إذا لم تكن اللغة مدعومة، إنشاء تحذير.