文字合併認知技能

發行項
11/15/2023

文字合併技能會將字串數位中的文字合併成單一欄位。

注意

此技能未系結至 Azure AI 服務。這是不可計費的，而且沒有 Azure AI 服務的主要需求。

@odata.type

Microsoft.Skills.Text.MergeSkill

技能參數

參數會區分大小寫。

參數名稱	描述
`insertPreTag`	在每次插入之前要包含的字串。預設值是 `" "`。若要省略空格，請將值設定為 `""`。
`insertPostTag`	要包含在每次插入之後的字串。預設值是 `" "`。若要省略空格，請將值設定為 `""`。

技能輸入

輸入名稱	描述
`itemsToInsert`	要合併的字串陣列。
`text`	（選擇性）要插入的主文字本文。如果未 `text` 提供，則會串連的 `itemsToInsert` 元素。
`offsets`	（選擇性）應插入位置`itemsToInsert`內`text`的位置陣列。如果提供，的項目 `text` 數目必須等於的項目 `textToInsert`數目。否則，所有項目都會附加在的 `text`結尾。

技能輸出

輸出名稱	描述
`mergedText`	產生的合併文字。
`mergedOffsets`	插入專案的位置`mergedTextitemsToInsert`陣列。

範例輸入

提供此技能可用輸入的 JSON 檔案可能是：

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

範例輸出

這個範例顯示上一個輸入的輸出，假設 insertPreTag 設定為 " "，且 insertPostTag 設定為 ""。

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

擴充範例技能集定義

使用文字合併的常見案例是將影像的文字表示法（OCR 技能中的文字或影像的標題）合併到檔的內容欄位中。

下列範例技能集會使用 OCR 技能，從內嵌在檔中的影像擷取文字。接下來，它會建立merged_text欄位，以包含每個影像的原始和 OCRed 文字。您可以在這裡深入瞭解 OCR 技能。

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

上述範例假設有標準化影像欄位。若要取得 normalized-images 字段，請在索引器定義中設定 imageAction 組態以 產生NormalizedImages ，如下所示：

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}