دمج النص المهارة المعرفية

تقوم مهارة دمج النص بدمج النص من مجموعة من الحقول في حقل واحد.

ملاحظة

هذه المهارة ليست مرتبطة بالخدمات المعرفية. إنه غير قابل للفوترة وليس له متطلبات رئيسية للخدمات المعرفية.

@odata.type

Microsoft.Skills.Text.MergeSkill

معلمات المهارة

المعلمات حساسة لحالة الأحرف.

اسم المعلمة الوصف
insertPreTag سلسلة ليتم تضمينها قبل كل إدراج. القيمة الافتراضية هي " ". لحذف المسافة، قم بتعيين القيمة إلى "".
insertPostTag سلسلة ليتم تضمينها بعد كل إدراج. القيمة الافتراضية هي " ". لحذف المسافة، قم بتعيين القيمة إلى "".

مدخلات المهارات

اسم الإدخال الوصف
itemsToInsert صفيف من السلاسل المراد دمجها.
text (اختياري) النص الرئيسي المراد إدراجه فيه. إذا text لم يتم توفيره ، تسلسل عناصر itemsToInsert من العناصر.
offsets (اختياري) مجموعة من المواقف داخل text المكان itemsToInsert الذي يجب إدراجه. إذا تم توفيره ، فإن عدد text عناصر يجب أن يساوي عدد عناصر textToInsert. وإلا سيتم إلحاق جميع العناصر في نهاية text.

مخرجات المهارات

اسم الإخراج الوصف
mergedText النص المدمج الناتج.
mergedOffsets مجموعة من المواقف داخل mergedText المكان الذي تم فيه إدراج عناصر itemsToInsert من.

عينة الإدخال

يمكن أن تكون وثيقة JSON التي توفر مدخلات قابلة للاستخدام لهذه المهارة كما يلي:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

عينة الإخراج

يوضح هذا المثال مخرجات الإدخال السابق، بافتراض تعيين insertPreTag إلى ، ويتم تعيين insertPostTag إلى """ ".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

تعريف مجموعة مهارات العينة الموسعة

السيناريو الشائع لاستخدام دمج النص هو دمج التمثيل النصي للصور (نص من مهارة التعرف الضوئي على الحروف أو التسمية التوضيحية للصورة) في حقل محتوى المستند.

يستخدم المثال التالي مجموعة المهارات مهارة التعرف الضوئي على الحروف لاستخراج النص من الصور المضمنة في المستند. بعد ذلك ، يقوم بإنشاء حقل merged_text لاحتواء كل من النص الأصلي و OCRed من كل صورة. يمكنك معرفة المزيد عن مهارة التعرف الضوئي على الحروف هنا.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

يفترض المثال أعلاه وجود حقل صور عادية. للحصول على حقل الصور العادية، قم بتعيين تكوين imageAction في تعريف المفهرس الخاص بك لإنشاء NormalizedImages كما هو موضح أدناه:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

راجع أيضًا