Competenza cognitiva di unione testi

Articolo
10/26/2023

La competenza Unione testo consolida il testo da una matrice di stringhe in un singolo campo.

Nota

Questa competenza non è associata ai servizi di intelligenza artificiale di Azure. Non è fatturabile e non ha requisiti chiave per i servizi di intelligenza artificiale di Azure.

@odata.type

Microsoft.Skills.Text.MergeSkill

Parametri della competenza

I parametri fanno distinzione tra maiuscole e minuscole.

Nome parametro	Descrizione
`insertPreTag`	Stringa da includere prima di ogni inserimento. Il valore predefinito è `" "`. Per omettere lo spazio, impostare il valore su `""`.
`insertPostTag`	Stringa da includere prima di ogni inserimento. Il valore predefinito è `" "`. Per omettere lo spazio, impostare il valore su `""`.

Input competenze

Nome input	Descrizione
`itemsToInsert`	Matrice di stringhe da unire.
`text`	(facoltativo) Corpo del testo principale in cui inserire. Se `text` non viene specificato, gli elementi di `itemsToInsert` verranno concatecati.
`offsets`	(facoltativo) Matrice di posizioni all'interno della posizione in `text` cui `itemsToInsert` deve essere inserito. Se specificato, il numero di elementi di `text` deve essere uguale al numero di elementi di `textToInsert`. In caso contrario, tutti gli elementi verranno accodati alla fine di `text`.

Output competenze

Nome output	Descrizione
`mergedText`	Testo unito risultante.
`mergedOffsets`	Matrice di posizioni all'interno della posizione in `mergedText` cui sono stati inseriti gli elementi di `itemsToInsert` .

Input di esempio

Un documento JSON che fornisce input utilizzabile per questa competenza può essere:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Output di esempio

Questo esempio mostra l'output dell'input precedente assumendo che insertPreTag sia impostato su " " e che insertPostTag sia impostato su "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Definizione del set di competenze di esempio estesa

Uno scenario comune per l'uso di unione testi è quello di unire la rappresentazione testuale di immagini (testo di una competenza OCR o la didascalia di un'immagine) nel campo del contenuto di un documento.

Il set di competenze di esempio seguente usa la competenza OCR per estrarre il testo da immagini incorporate nel documento. Successivamente crea un campo merged_text per contenere sia il testo originale sia il testo OCR da ogni immagine. Altre informazioni sulla competenza OCR sono disponibili qui.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

Nell'esempio precedente si suppone l'esistenza di un campo di immagini normalizzate. Per ottenere un campo di immagini normalizzate impostare la configurazione imageAction nella definizione di indicizzatore su generateNormalizedImages come illustrato di seguito:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Vedi anche

Competenze predefinite
Come definire un set di competenze
Create indexer (REST) (Creare un indicizzatore - REST)