Metin Birleştirme bilişsel becerisi

Metin Birleştirme becerisi, bir dize dizisinden gelen metni tek bir alanda birleştirir.

Dekont

Bu beceri Azure yapay zeka hizmetlerine bağlı değildir. Faturalandırılamaz ve Azure AI hizmetleri temel gereksinimi yoktur.

@odata.type

Microsoft.Skills.Text.MergeSkill

Beceri parametreleri

Parametreler büyük/küçük harfe duyarlıdır.

Parametre adı Tanım
insertPreTag Her eklemeden önce eklenecek dize. " " varsayılan değerdir. Alanı atlamak için değerini olarak ""ayarlayın.
insertPostTag Her eklemeden sonra eklenecek dize. " " varsayılan değerdir. Alanı atlamak için değerini olarak ""ayarlayın.

Beceri girişleri

Giriş adı Tanım
itemsToInsert Birleştirilecek dize dizisi.
text (isteğe bağlı) Eklenecek ana metin gövdesi. Sağlanmazsa text öğeleri itemsToInsert birleştirir.
offsets (isteğe bağlı) Eklenmesi gereken konum itemsToInsert dizisitext. Sağlanırsa, öğelerinin text sayısı öğesinin öğe textToInsertsayısına eşit olmalıdır. Aksi takdirde tüm öğeler sonuna texteklenir.

Beceri çıkışları

Çıkış adı Tanım
mergedText Sonuçta elde edilen birleştirilmiş metin.
mergedOffsets öğelerinin itemsToInsert eklendiği konum dizisimergedText.

Örnek girdi

Bu beceri için kullanılabilir giriş sağlayan bir JSON belgesi şu olabilir:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Örnek çıktı

Bu örnekte, insertPreTag öğesinin olarak, insertPostTag öğesinin ise olarak ayarlandığı " """varsayılarak önceki girişin çıkışı gösterilir.

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Genişletilmiş örnek beceri kümesi tanımı

Metin Birleştirme'yi kullanmaya yönelik yaygın bir senaryo, resimlerin metinsel gösterimini (OCR becerisinden gelen metin veya görüntünün başlık) belgenin içerik alanıyla birleştirmektir.

Aşağıdaki örnek beceri kümesi, belgeye eklenmiş görüntülerden metin ayıklamak için OCR becerisini kullanır. Ardından, her görüntüden hem özgün hem de OCRed metinleri içeren bir merged_text alanı oluşturur. Burada OCR becerisi hakkında daha fazla bilgi edinebilirsiniz.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

Yukarıdaki örnekte normalleştirilmiş görüntüler alanının mevcut olduğu varsayılır. Normalleştirilmiş görüntüler alanını almak için dizin oluşturucu tanımınızdaki imageAction yapılandırmasını aşağıda gösterildiği gibiNormalizedImages oluşturacak şekilde ayarlayın:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Ayrıca bkz.