تقسيم النص المهارة المعرفية

تقوم مهارة تقسيم النص بتقسيم النص إلى أجزاء من النص . يمكنك تحديد ما إذا كنت تريد تقسيم النص إلى جمل أو إلى صفحات ذات طول معين. هذه المهارة مفيدة بشكل خاص إذا كان هناك الحد الأقصى لمتطلبات طول النص في المهارات الأخرى في اتجاه المصب.

ملاحظة

هذه المهارة ليست مرتبطة بالخدمات المعرفية. إنه غير قابل للفوترة وليس له متطلبات رئيسية للخدمات المعرفية.

@odata.type

Microsoft.Skills.Text.SplitSkill

معلمات المهارة

المعلمات حساسة لحالة الأحرف.

اسم المعلمة الوصف
textSplitMode إما ⁧pages⁩ أو ⁧sentences
maximumPageLength ينطبق فقط إذا textSplitMode تم تعيينه على pages. يشير هذا إلى الحد الأقصى لطول الصفحة بالأحرف كما تم قياسه بواسطة String.Length. الحد الأدنى للقيمة هو 300 ، والحد الأقصى هو 100000 ، والقيمة الافتراضية هي 10000. ستبذل الخوارزمية قصارى جهدها لكسر النص على حدود الجملة ، لذلك قد يكون حجم كل قطعة أقل قليلا من maximumPageLength.
defaultLanguageCode (اختياري) أحد رموز اللغة التالية: am, bs, cs, da, de, en, es, et, fr, he, hi, hr, hu, fi, id, is, it, ja, ko, lv, no, nl, pl, pt-PT, pt-BR, ru, sk, sl, sr, sv, tr, ur, zh-Hans. الافتراضي هو الإنجليزية (en). بعض الأشياء التي يجب مراعاتها:
  • يعد توفير رمز لغة مفيدا لتجنب قطع كلمة إلى النصف للغات غير البيضاء مثل الصينية واليابانية والكورية.
  • إذا كنت لا تعرف اللغة (أي تحتاج إلى تقسيم النص لإدخاله في LanguageDetectionSkill) ، فيجب أن يكون الإعداد الافتراضي للغة الإنجليزية (en) كافيا.

مدخلات المهارات

اسم المعلمة الوصف
text النص المراد تقسيمه إلى سلسلة فرعية.
languageCode (اختياري) رمز اللغة للمستند. إذا كنت لا تعرف اللغة (أي تحتاج إلى تقسيم النص لإدخاله في LanguageDetectionSkill) ، فمن الآمن إزالة هذا الإدخال. إذا لم تكن اللغة موجودة في القائمة المدعومة للمعلمة defaultLanguageCode أعلاه ، إصدار تحذير ولن يتم تقسيم النص.

مخرجات المهارات

اسم المعلمة الوصف
textItems مجموعة من السلاسل الفرعية التي تم استخراجها.

نموذج تعريف

{
    "@odata.type": "#Microsoft.Skills.Text.SplitSkill",
    "textSplitMode" : "pages", 
    "maximumPageLength": 1000,
    "defaultLanguageCode": "en",
    "inputs": [
        {
            "name": "text",
            "source": "/document/content"
        },
        {
            "name": "languageCode",
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "textItems",
            "targetName": "mypages"
        }
    ]
}

عينة من الإدخال

{
    "values": [
        {
            "recordId": "1",
            "data": {
                "text": "This is the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia...",
                "languageCode": "en"
            }
        },
        {
            "recordId": "2",
            "data": {
                "text": "This is the second document, which will be broken into several pages...",
                "languageCode": "en"
            }
        }
    ]
}

إخراج العينة

{
    "values": [
        {
            "recordId": "1",
            "data": {
                "textItems": [
                    "This is the loan…",
                    "On the second page we…"
                ]
            }
        },
        {
            "recordId": "2",
            "data": {
                "textItems": [
                    "This is the second document...",
                    "On the second page of the second doc…"
                ]
            }
        }
    ]
}

حالات الخطأ

إذا لم تكن اللغة مدعومة، إنشاء تحذير.

راجع أيضًا