Dokumentumkinyerési kognitív képesség

A Dokumentumkinyerési képesség kinyeri a tartalmat egy fájlból a bővítési folyamaton belül. Ez lehetővé teszi, hogy kihasználja a dokumentum kinyerési lépését, amely általában a készségkészlet végrehajtása előtt történik olyan fájlokkal, amelyeket más készségek hozhatnak létre.

Megjegyzés:

Ez a képesség nem kötődik az Azure AI-szolgáltatásokhoz, és nincs Azure AI-szolgáltatások kulcskövetelménye. Ez a képesség kinyeri a szöveget és a képeket. A szöveg kinyerése ingyenes. A rendszerkép-kinyerés mérése az Azure AI Search szolgáltatással történik. Egy ingyenes keresési szolgáltatásban az indexelőnkénti napi 20 tranzakció költsége elnyelődik, így ingyenesen végezhet gyorsútmutatókat, oktatóanyagokat és kisebb projekteket. Alapszintű, Standard és újabb verziók esetén a rendszerképek kinyerése számlázható.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Támogatott dokumentumformátumok

A DocumentExtractionSkill a következő dokumentumformátumokból tud szöveget kinyerni:

  • CSV (lásd : CSV-blobok indexelése)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (lásd : JSON-blobok indexelése)
  • KML (XML földrajzi ábrázolásokhoz)
  • Microsoft Office-formátumok: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-e-mailek), XML (2003 és 2006 WORD XML)
  • Dokumentumformátumok megnyitása: ODT, ODS, ODP
  • PDF
  • Egyszerű szöveges fájlok (lásd még : Egyszerű szöveg indexelése)
  • RTF
  • XML
  • ZIP

Képességparaméterek

A paraméterek megkülönböztetik a kis- és nagybetűket.

Inputs Megengedett értékek Leírás
parsingMode default
text
json
default A nem tiszta szövegből vagy jsonból származó dokumentumok kinyerésére van beállítva. A korrektúrafájlokat tartalmazó forrásfájlok (például PDF-, HTML-, RTF- és Microsoft Office-fájlok) esetében az alapértelmezett beállításokkal csak a szöveget bonthatja ki, a korrektúra nyelvével vagy címkéivel. Ha parsingMode nincs explicit módon definiálva, akkor a beállítás értéke default.

Állítsa be, hogy a text forrásfájlok TXT formátumúak-e. Ez az elemzési mód javítja az egyszerű szöveges fájlok teljesítményét. Ha a fájlok korrektúrát tartalmaznak, ez a mód megőrzi a címkéket a végső kimenetben.

Úgy van beállítva, hogy json strukturált tartalmat nyerjen ki json-fájlokból.
dataToExtract contentAndMetadata
allMetadata
Úgy van beállítva, hogy contentAndMetadata az összes metaadatot és szöveges tartalmat kinyerje az egyes fájlokból. Ha dataToExtract nincs explicit módon definiálva, akkor a beállítás értéke contentAndMetadata.

Úgy van beállítva, hogy allMetadata csak a tartalomtípus metaadat-tulajdonságait (például a csak .png fájlokra jellemző metaadatokat) nyerje ki.
configuration Lásd alább. A dokumentum kinyerésének menetét módosító választható paraméterek szótára. A támogatott konfigurációs tulajdonságok leírását az alábbi táblázatban találja.
Konfigurációs paraméter Megengedett értékek Leírás
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
Állítsa úgy, hogy none figyelmen kívül hagyja a beágyazott képeket vagy képfájlokat az adathalmazban, vagy ha a forrásadatok nem tartalmaznak képfájlokat. Ez az alapértelmezett beállítás.

Az OCR-hez és a képelemzéshez állítsa be, hogy generateNormalizedImages a képesség normalizált képeket hozzon létre a dokumentumtörés részeként. Ehhez a művelethez parsingMode be kell állítani defaultdataToExtract és be kell állítani.contentAndMetadata A normalizált kép olyan extra feldolgozást jelent, amely egységes képkimenetet eredményez, méretezve és elforgatva, hogy elősegítse a következetes renderelést, amikor képeket ad hozzá a vizuális keresési eredményekhez (például azonos méretű fényképeket egy gráfvezérlőben, ahogy a JFK-bemutatóban látható). Ez az információ minden képhez létrejön, amikor ezt a beállítást használja.

Ha be van állítva, a generateNormalizedImagePerPagePDF-fájlokat másképp kezeli a rendszer, mivel beágyazott képek kinyerése helyett minden oldal képként jelenik meg, és ennek megfelelően normalizálódik. A nem PDF-fájltípusok ugyanúgy lesznek kezelve, mint a generateNormalizedImages beállítottak.
normalizedImageMaxWidth 50–10000 közötti egész szám A létrehozott normalizált képek maximális szélessége (képpontban kifejezve). Az alapértelmezett érték 2000.
normalizedImageMaxHeight 50–10000 közötti egész szám A létrehozott normalizált képek maximális magassága (képpontban). Az alapértelmezett érték 2000.

Megjegyzés:

A normalizált képek maximális szélessége és magassága alapértelmezés szerint 2000 képpont, amely az OCR-képesség és a képelemzési képesség által támogatott maximális méreteken alapul. Az OCR-képesség legfeljebb 4200 szélességet és magasságot támogat a nem angol nyelvű nyelvek esetében, angolul pedig 10000-et. Ha növeli a maximális korlátokat, a feldolgozás a készségek definíciójától és a dokumentumok nyelvétől függően nagyobb képeken is meghiúsulhat.

Készségbemenetek

Bemeneti név Leírás
file_data Az a fájl, amelyből a tartalmat ki kell nyerni.

A "file_data" bemenetnek a következő módon definiált objektumnak kell lennie:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Másik lehetőségként a következőként definiálható:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

A fájlhivatkozási objektum háromféleképpen hozható létre:

  • A paraméter beállítása az allowSkillsetToReadFileData indexelő definícióján "true" (igaz) értékre. Ez létrehoz egy elérési utat /document/file_data , amely egy objektum, amely a blob adatforrásából letöltött eredeti fájladatokat jelöli. Ez a paraméter csak a Blob Storage-ban lévő fájlokra vonatkozik.

  • imageAction Az indexelő definíciójának paraméterének beállítása nem nonea következő értékre: . Ez egy képtömböt hoz létre, amely követi a képességhez való bemenethez szükséges konvenciót, ha egyénileg adja át (azaz /document/normalized_images/*).

  • Az egyéni képesség visszaad egy pontosan a fenti módon definiált JSON-objektumot. A $type paramétert pontosan file be kell állítani, és a data paraméternek a fájltartalom alap 64 bájtos tömbadatainak kell lennie, vagy a url paraméternek megfelelően formázott URL-címnek kell lennie, amely hozzáférést biztosít a fájl ezen a helyen való letöltéséhez.

Képességkimenetek

Kimeneti név Leírás
content A dokumentum szöveges tartalma.
normalized_images Ha az imageAction érték nem noneértékre van beállítva, az új normalized_images mező képtömböt tartalmaz. A kimeneti formátumról további információt a képek szövegének és információinak kinyerése című témakörben talál.

Mintadefiníció

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Példabemenet

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Példakimenet

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

Kapcsolódó információk