Competenza cognitiva Estrazione documenti

La competenza Estrazione documenti estrae il contenuto da un file all'interno della pipeline di arricchimento. Ciò consente di sfruttare il passaggio di estrazione dei documenti che normalmente si verifica prima dell'esecuzione del set di competenze con file che possono essere generati da altre competenze.

Nota

Questa competenza non è associata ai servizi di intelligenza artificiale di Azure e non ha requisiti chiave per i servizi di intelligenza artificiale di Azure. Questa competenza estrae testo e immagini. L'estrazione del testo è libera. L'estrazione di immagini viene rilevata da Ricerca di intelligenza artificiale di Azure. In un servizio di ricerca gratuito, il costo di 20 transazioni per indicizzatore al giorno viene assorbito in modo da poter completare guide introduttive, esercitazioni e piccoli progetti senza costi aggiuntivi. Per Basic, Standard e versioni successive, l'estrazione delle immagini è fatturabile.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Formati di documento supportati

DocumentExtractionSkill può estrarre testo dai formati di documento seguenti:

  • CSV (vedere Indicizzazione di BLOB CSV)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (vedere Indicizzazione di BLOB JSON)
  • KML (XML per le rappresentazioni geografiche)
  • Formati di Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPTM, MSG (messaggi di posta elettronica di Outlook), XML (xml sia 2003 che 2006 WORD XML)
  • Formati di documento aperti: ODT, ODS, ODP
  • PDF
  • File di testo normale (vedere anche Indicizzazione di testo normale)
  • RTF
  • XML
  • ZIP

Parametri della competenza

I parametri fanno distinzione tra maiuscole e minuscole.

Input Valori consentiti Descrizione
parsingMode default
text
json
Impostare su default per l'estrazione di documenti da file che non sono testo o json puro. Per i file di origine che contengono contrassegna (ad esempio file PDF, HTML, RTF e Microsoft Office), usare il valore predefinito per estrarre solo il testo, meno qualsiasi linguaggio di markup o tag. Se parsingMode non è definito in modo esplicito, verrà impostato su default.

Impostare su text se i file di origine sono TXT. Questa modalità di analisi migliora le prestazioni nei file di testo normale. Se i file includono markup, questa modalità manterrà i tag nell'output finale.

Impostare su per json estrarre contenuto strutturato da file JSON.
dataToExtract contentAndMetadata
allMetadata
Impostare su per contentAndMetadata estrarre tutti i metadati e il contenuto testuale da ogni file. Se dataToExtract non è definito in modo esplicito, verrà impostato su contentAndMetadata.

Impostare su allMetadata per estrarre solo le proprietà dei metadati per il tipo di contenuto , ad esempio metadati univoci solo per i file png.
configuration Vedere di seguito. Dizionario di parametri facoltativi che regolano la modalità di esecuzione dell'estrazione dei documenti. Vedere la tabella seguente per le descrizioni delle proprietà di configurazione supportate.
Parametro di configurazione Valori consentiti Descrizione
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
Impostare su none per ignorare le immagini incorporate o i file di immagine nel set di dati o se i dati di origine non includono file di immagine. Si tratta dell'impostazione predefinita.

Per l'analisi OCR e delle immagini, impostare su generateNormalizedImages per fare in modo che la competenza crei una matrice di immagini normalizzate come parte del cracking dei documenti. Questa azione richiede che parsingMode sia impostata su default e dataToExtract sia impostata su contentAndMetadata. Un'immagine normalizzata si riferisce a un'elaborazione aggiuntiva che comporta un output uniforme dell'immagine, ridimensionato e ruotato per promuovere il rendering coerente quando si includono immagini nei risultati della ricerca visiva (ad esempio, fotografie delle stesse dimensioni in un controllo grafico, come illustrato nella demo di JFK). Queste informazioni vengono generate per ogni immagine quando si usa questa opzione.

Se si imposta su generateNormalizedImagePerPage, i file PDF vengono trattati in modo diverso in quanto invece di estrarre immagini incorporate, il rendering di ogni pagina viene eseguito come immagine e normalizzato di conseguenza. I tipi di file non PDF vengono considerati uguali a se generateNormalizedImages impostati.
normalizedImageMaxWidth Qualsiasi numero intero compreso tra 50 e 10000 La larghezza massima (in pixel) per le immagini normalizzate generate. Il valore predefinito è 2000.
normalizedImageMaxHeight Qualsiasi numero intero compreso tra 50 e 10000 L'altezza massima (in pixel) per le immagini normalizzate generate. Il valore predefinito è 2000.

Nota

Il valore predefinito di 2000 pixel per i valori massimi di altezza e larghezza delle immagini normalizzate è basato sulle dimensioni massime supportate dalla competenza OCR e dalla competenza di analisi delle immagini. La competenza OCR supporta una larghezza e un'altezza massima di 4200 per le lingue non inglesi e 10000 per l'inglese. Se si aumentano i limiti massimi, l'elaborazione potrebbe non riuscire nelle immagini più grandi a seconda della definizione del set di competenze e della lingua dei documenti.

Input competenze

Nome input Descrizione
file_data File da cui estrarre il contenuto.

L'input "file_data" deve essere un oggetto definito come:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

In alternativa, può essere definita come:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

L'oggetto riferimento file può essere generato uno dei tre modi seguenti:

  • Impostazione del parametro nella definizione dell'indicizzatore allowSkillsetToReadFileData su "true". Verrà creato un percorso /document/file_data che rappresenta i dati del file originale scaricati dall'origine dati BLOB. Questo parametro si applica solo ai file nell'archivio BLOB.

  • Impostazione del parametro nella definizione dell'indicizzatore imageAction su un valore diverso da none. In questo modo viene creata una matrice di immagini che segue la convenzione necessaria per l'input per questa competenza, se passata singolarmente , /document/normalized_images/*ovvero .

  • La presenza di una competenza personalizzata restituisce un oggetto JSON definito ESATTAMENTE come sopra. Il $type parametro deve essere impostato esattamente file su e il data parametro deve essere costituito dai dati della matrice di byte con codifica base 64 del contenuto del file oppure il url parametro deve essere un URL formattato correttamente con l'accesso per scaricare il file in tale percorso.

Output competenze

Nome output Descrizione
content Contenuto testuale del documento.
normalized_images Quando l'oggetto imageAction è impostato su un valore diverso da none, il nuovo campo normalized_images contiene una matrice di immagini. Per altri dettagli sul formato di output, vedere Estrarre testo e informazioni dalle immagini .

Definizione di esempio

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Input di esempio

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Output di esempio

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

Vedi anche