Dokumentumkinyerési kognitív képesség

Cikk
11/15/2023

A Dokumentumkinyerési képesség kinyeri a tartalmat egy fájlból a bővítési folyamaton belül. Ez lehetővé teszi, hogy kihasználja a dokumentum kinyerési lépését, amely általában a készségkészlet végrehajtása előtt történik olyan fájlokkal, amelyeket más készségek hozhatnak létre.

Megjegyzés:

Ez a képesség nem kötődik az Azure AI-szolgáltatásokhoz, és nincs Azure AI-szolgáltatások kulcskövetelménye. Ez a képesség kinyeri a szöveget és a képeket. A szöveg kinyerése ingyenes. A rendszerkép-kinyerés mérése az Azure AI Search szolgáltatással történik. Egy ingyenes keresési szolgáltatásban az indexelőnkénti napi 20 tranzakció költsége elnyelődik, így ingyenesen végezhet gyorsútmutatókat, oktatóanyagokat és kisebb projekteket. Alapszintű, Standard és újabb verziók esetén a rendszerképek kinyerése számlázható.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Támogatott dokumentumformátumok

A DocumentExtractionSkill a következő dokumentumformátumokból tud szöveget kinyerni:

CSV (lásd : CSV-blobok indexelése)
EML
EPUB
GZ
HTML
JSON (lásd : JSON-blobok indexelése)
KML (XML földrajzi ábrázolásokhoz)
Microsoft Office-formátumok: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-e-mailek), XML (2003 és 2006 WORD XML)
Dokumentumformátumok megnyitása: ODT, ODS, ODP
PDF
Egyszerű szöveges fájlok (lásd még : Egyszerű szöveg indexelése)
RTF
XML
ZIP

Képességparaméterek

A paraméterek megkülönböztetik a kis- és nagybetűket.

Inputs Megengedett értékek Leírás

Inputs	Megengedett értékek	Leírás
`parsingMode`	`default` `text` `json`	`default` A nem tiszta szövegből vagy jsonból származó dokumentumok kinyerésére van beállítva. A korrektúrafájlokat tartalmazó forrásfájlok (például PDF-, HTML-, RTF- és Microsoft Office-fájlok) esetében az alapértelmezett beállításokkal csak a szöveget bonthatja ki, a korrektúra nyelvével vagy címkéivel. Ha `parsingMode` nincs explicit módon definiálva, akkor a beállítás értéke `default`. Állítsa be, hogy a `text` forrásfájlok TXT formátumúak-e. Ez az elemzési mód javítja az egyszerű szöveges fájlok teljesítményét. Ha a fájlok korrektúrát tartalmaznak, ez a mód megőrzi a címkéket a végső kimenetben. Úgy van beállítva, hogy `json` strukturált tartalmat nyerjen ki json-fájlokból.
`dataToExtract`	`contentAndMetadata` `allMetadata`	Úgy van beállítva, hogy `contentAndMetadata` az összes metaadatot és szöveges tartalmat kinyerje az egyes fájlokból. Ha `dataToExtract` nincs explicit módon definiálva, akkor a beállítás értéke `contentAndMetadata`. Úgy van beállítva, hogy `allMetadata` csak a tartalomtípus metaadat-tulajdonságait (például a csak .png fájlokra jellemző metaadatokat) nyerje ki.
`configuration`	Lásd alább.	A dokumentum kinyerésének menetét módosító választható paraméterek szótára. A támogatott konfigurációs tulajdonságok leírását az alábbi táblázatban találja.

parsingMode

default
text
json

default A nem tiszta szövegből vagy jsonból származó dokumentumok kinyerésére van beállítva. A korrektúrafájlokat tartalmazó forrásfájlok (például PDF-, HTML-, RTF- és Microsoft Office-fájlok) esetében az alapértelmezett beállításokkal csak a szöveget bonthatja ki, a korrektúra nyelvével vagy címkéivel. Ha parsingMode nincs explicit módon definiálva, akkor a beállítás értéke default.

Állítsa be, hogy a text forrásfájlok TXT formátumúak-e. Ez az elemzési mód javítja az egyszerű szöveges fájlok teljesítményét. Ha a fájlok korrektúrát tartalmaznak, ez a mód megőrzi a címkéket a végső kimenetben.

Úgy van beállítva, hogy json strukturált tartalmat nyerjen ki json-fájlokból.

dataToExtract

contentAndMetadata
allMetadata

Úgy van beállítva, hogy contentAndMetadata az összes metaadatot és szöveges tartalmat kinyerje az egyes fájlokból. Ha dataToExtract nincs explicit módon definiálva, akkor a beállítás értéke contentAndMetadata.

Úgy van beállítva, hogy allMetadata csak a tartalomtípus metaadat-tulajdonságait (például a csak .png fájlokra jellemző metaadatokat) nyerje ki.

configuration Lásd alább. A dokumentum kinyerésének menetét módosító választható paraméterek szótára. A támogatott konfigurációs tulajdonságok leírását az alábbi táblázatban találja.

Konfigurációs paraméter Megengedett értékek Leírás

Konfigurációs paraméter	Megengedett értékek	Leírás
`imageAction`	`none` `generateNormalizedImages` `generateNormalizedImagePerPage`	Állítsa úgy, hogy `none` figyelmen kívül hagyja a beágyazott képeket vagy képfájlokat az adathalmazban, vagy ha a forrásadatok nem tartalmaznak képfájlokat. Ez az alapértelmezett beállítás. Az OCR-hez és a képelemzéshez állítsa be, hogy `generateNormalizedImages` a képesség normalizált képeket hozzon létre a dokumentumtörés részeként. Ehhez a művelethez `parsingMode` be kell állítani `defaultdataToExtract` és be kell állítani.`contentAndMetadata` A normalizált kép olyan extra feldolgozást jelent, amely egységes képkimenetet eredményez, méretezve és elforgatva, hogy elősegítse a következetes renderelést, amikor képeket ad hozzá a vizuális keresési eredményekhez (például azonos méretű fényképeket egy gráfvezérlőben, ahogy a JFK-bemutatóban látható). Ez az információ minden képhez létrejön, amikor ezt a beállítást használja. Ha be van állítva, a `generateNormalizedImagePerPage`PDF-fájlokat másképp kezeli a rendszer, mivel beágyazott képek kinyerése helyett minden oldal képként jelenik meg, és ennek megfelelően normalizálódik. A nem PDF-fájltípusok ugyanúgy lesznek kezelve, mint a `generateNormalizedImages` beállítottak.
`normalizedImageMaxWidth`	50–10000 közötti egész szám	A létrehozott normalizált képek maximális szélessége (képpontban kifejezve). Az alapértelmezett érték 2000.
`normalizedImageMaxHeight`	50–10000 közötti egész szám	A létrehozott normalizált képek maximális magassága (képpontban). Az alapértelmezett érték 2000.

imageAction

none
generateNormalizedImages
generateNormalizedImagePerPage

Állítsa úgy, hogy none figyelmen kívül hagyja a beágyazott képeket vagy képfájlokat az adathalmazban, vagy ha a forrásadatok nem tartalmaznak képfájlokat. Ez az alapértelmezett beállítás.

Az OCR-hez és a képelemzéshez állítsa be, hogy generateNormalizedImages a képesség normalizált képeket hozzon létre a dokumentumtörés részeként. Ehhez a művelethez parsingMode be kell állítani defaultdataToExtract és be kell állítani.contentAndMetadata A normalizált kép olyan extra feldolgozást jelent, amely egységes képkimenetet eredményez, méretezve és elforgatva, hogy elősegítse a következetes renderelést, amikor képeket ad hozzá a vizuális keresési eredményekhez (például azonos méretű fényképeket egy gráfvezérlőben, ahogy a JFK-bemutatóban látható). Ez az információ minden képhez létrejön, amikor ezt a beállítást használja.

Ha be van állítva, a generateNormalizedImagePerPagePDF-fájlokat másképp kezeli a rendszer, mivel beágyazott képek kinyerése helyett minden oldal képként jelenik meg, és ennek megfelelően normalizálódik. A nem PDF-fájltípusok ugyanúgy lesznek kezelve, mint a generateNormalizedImages beállítottak.

normalizedImageMaxWidth 50–10000 közötti egész szám A létrehozott normalizált képek maximális szélessége (képpontban kifejezve). Az alapértelmezett érték 2000.

normalizedImageMaxHeight 50–10000 közötti egész szám A létrehozott normalizált képek maximális magassága (képpontban). Az alapértelmezett érték 2000.

Megjegyzés:

A normalizált képek maximális szélessége és magassága alapértelmezés szerint 2000 képpont, amely az OCR-képesség és a képelemzési képesség által támogatott maximális méreteken alapul. Az OCR-képesség legfeljebb 4200 szélességet és magasságot támogat a nem angol nyelvű nyelvek esetében, angolul pedig 10000-et. Ha növeli a maximális korlátokat, a feldolgozás a készségek definíciójától és a dokumentumok nyelvétől függően nagyobb képeken is meghiúsulhat.

Készségbemenetek

Bemeneti név	Leírás
`file_data`	Az a fájl, amelyből a tartalmat ki kell nyerni.

A "file_data" bemenetnek a következő módon definiált objektumnak kell lennie:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Másik lehetőségként a következőként definiálható:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

A fájlhivatkozási objektum háromféleképpen hozható létre:

A paraméter beállítása az allowSkillsetToReadFileData indexelő definícióján "true" (igaz) értékre. Ez létrehoz egy elérési utat /document/file_data , amely egy objektum, amely a blob adatforrásából letöltött eredeti fájladatokat jelöli. Ez a paraméter csak a Blob Storage-ban lévő fájlokra vonatkozik.
imageAction Az indexelő definíciójának paraméterének beállítása nem nonea következő értékre: . Ez egy képtömböt hoz létre, amely követi a képességhez való bemenethez szükséges konvenciót, ha egyénileg adja át (azaz /document/normalized_images/*).
Az egyéni képesség visszaad egy pontosan a fenti módon definiált JSON-objektumot. A $type paramétert pontosan file be kell állítani, és a data paraméternek a fájltartalom alap 64 bájtos tömbadatainak kell lennie, vagy a url paraméternek megfelelően formázott URL-címnek kell lennie, amely hozzáférést biztosít a fájl ezen a helyen való letöltéséhez.

Képességkimenetek

Kimeneti név	Leírás
`content`	A dokumentum szöveges tartalma.
`normalized_images`	Ha az `imageAction` érték nem `none`értékre van beállítva, az új normalized_images mező képtömböt tartalmaz. A kimeneti formátumról további információt a képek szövegének és információinak kinyerése című témakörben talál.

Mintadefiníció

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Példabemenet

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Példakimenet

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}