Form Recognizer Layout service

Az Azure Form Recognizer Layout API kinyeri a dokumentumokból (PDF, TIFF) és képekből (JPG, PNG, BMP) származó szöveget, táblázatokat, kijelölési jeleket és struktúrát. Lehetővé teszi az ügyfelek számára, hogy különböző formátumokban dokumentumokat vegyenek fel, és a dokumentumok strukturált adatrekrezentációit adja vissza. A hatékony optikai karakterfelismerési (OCR) képességek bővített verzióját ötvözi mélytanulásos modellekkel, így szöveget, táblázatokat, kijelölési jeleket és dokumentumstruktúrát lehet kinyerni.

Mire való a Layout szolgáltatás?

A Layout API kinyeri a kivételes pontosságú dokumentumok szövegét, táblázatait és táblázatait táblázatfejlécekkel, kijelölési jelekkel és struktúrával kapcsolatos információkat, és rendezett, strukturált, JSON-választ ad vissza. A dokumentumok számos formátumban és minőségben lehetnek, beleértve a telefonról rögzített képeket, a beolvasott dokumentumokat és a digitális PDF-eket. A Layout API pontosan kinyeri a strukturált kimenetet az összes dokumentumból.

Példa elrendezésre

Próbálja ki

A layout Form Recognizer az online felhasználói felületi eszközben próbálhat ki:

Szüksége lesz egy Azure-előfizetésre (hozzon létre egyet ingyenesen) és egy Form Recognizer-erőforrásvégpontra és -kulcsra a Layout API Form Recognizer kipróbálása érdekében.

Minta felhasználói felület képernyőképe; egy dokumentum szövegének, tábláinak és kijelölési jeleinek elemzése

Bemeneti követelmények

  • Támogatott fájlformátumok: JPEG, PNG, PDF és TIFF
  • PDF és TIFF esetén legfeljebb 2000 oldal lesz feldolgozva. Az ingyenes szintű előfizetők számára csak az első két oldal lesz feldolgozva.
  • A fájlméretnek 50 MB-nál kisebbnek kell lennie, és legalább 50 x 50 képpont méretűnek kell lennie, és legalább 10000 x 10000 képpont méretűnek kell lennie.

Elrendezés elemzése

Először hívja meg az Elrendezés elemzése műveletet. Az Elrendezés elemzése egy dokumentumot (kép, TIFF vagy PDF-fájl) vesz bemenetként, és kinyeri a dokumentum szövegét, táblázatait, kijelölési jeleit és szerkezetét. A hívás egy nevű válaszfejléc-mezőt ad Operation-Location vissza. Az érték egy URL-cím, amely a következő lépésben használni kívánt Operation-Location eredményazonosítót tartalmazza.

Válaszfejléc Eredmény URL-címe
Operation-Location `https://cognitiveservice/formrecognizer/v2.1/layout/analyzeResults/{resultId}'

Az elemzés elrendezési eredményének lekért eredménye

A második lépés az Elemzés elrendezési eredményének lehívása művelet. Ez a művelet bemenete az Elrendezés elemzése művelet által létrehozott eredményazonosító. Egy JSON-választ ad vissza, amely egy állapotmezőt tartalmaz az alábbi lehetséges értékekkel.

Mező Típus Lehetséges értékek
status sztring notStarted: Az elemzési művelet még nem indult el.

running: Az elemzési művelet folyamatban van.

failed: Az elemzési művelet sikertelen volt.

succeeded: Az elemzési művelet sikeres volt.

Hívja meg ezt a műveletet iteratívan, amíg vissza nem adja az succeeded értéket. Használjon 3–5 másodperces időközt, hogy elkerülje a kérelmek másodpercenkénti (RPS) sebességének túllépését.

Ha az állapot mező értéke van, a JSON-válasz tartalmazza a kinyert elrendezést, szöveget, táblákat succeeded és kijelölési jeleket. A kinyert adatok közé tartoznak a kinyert szövegsorok és szavak, a határolókeretek, a kézzel írt jelzéssel jelölt szöveg megjelenés, a táblák és a kijelölési jelek, a kijelölt/ki nem jelölt jelölések.

JSON-kimenetminta

Az Elemzés elrendezési eredményének lekért műveletére adott válasz a dokumentum strukturált reprezentációja, amely tartalmazza az összes kinyert információt. Itt láthat egy mintadokumentumfájlt és annak strukturált kimeneti mintaelrendezésének kimenetét.

A JSON-kimenet két részből áll:

  • readResults A csomópont tartalmazza az összes felismert szöveget és kijelölési jelölést. A szöveg lap, sor, majd egyéni szavak szerint van rendezve.
  • pageResults A csomópont tartalmazza a határolókeretekkel, megbízhatósággal kinyert táblákat és cellákat, valamint a "readResults" sorait és szavait.

Funkciók

Táblák és táblafejlécek

A Layout API kinyeri a pageResults JSON-kimenet szakaszának tábláit. A dokumentumok beolvashatóak, fotózhatóak vagy digitalizálhatóak. A táblázatok összetettek, egyesített cellákkal vagy oszlopokkal, szegélyekkel vagy anélkül, valamint páratlan szögekkel. A kinyert táblainformációk közé tartozik az oszlopok és sorok száma, a sortartomány és az oszloptartomány. A rendszer minden olyan cellát kimenetként ad vissza, amely tartalmazza a határolókeretet, valamint azt, hogy a rendszer felismeri-e egy fejléc részeként vagy sem. A modell előrejelált fejléccellái több sorra is átívelnek, és nem feltétlenül egy tábla első sorai. Elforgatott táblákkal is működnek. Minden táblázatcella tartalmazza a teljes szöveget is, amely a szakasz egyes szavaira readResults hivatkozik.

Elrendezési táblázat fejlécének kimenete

Kijelölési jelek

A Layout API a kijelölési jeleket is kinyeri a dokumentumokból. A kinyert kijelölési jelek közé tartozik a határolókeret, a megbízhatóság és az állapot (kijelölve/nincs kiválasztva). A kijelölési megjelölés adatai a readResults JSON-kimenet szakaszában nyernek ki.

Elrendezésválasztó jelek kimenete

Szövegsorok és szavak

A Layout API szöveget von ki dokumentumokból és képekből több szöveg szögben és színnel. Elfogadja a dokumentumok, faxok, nyomtatott és/vagy kézzel írt (csak angol) szövegek és vegyes módok fényképeit. A szöveg sorokra, szavakra, határolókeretre, megbízhatósági pontszámra és stílusra (kézzel írt vagy egyéb) vonatkozó információkkal van kinyerve. A JSON-kimenet szakasza minden readResults szöveges információt tartalmaz.

Elrendezési szöveg kinyerési kimenete

Természetes olvasási sorrend szövegsorok esetén (csak latin betűs)

A lekérdezési paraméterrel megadhatja a szöveges sorok kimenetének readingOrder sorrendjét. A használatával az alábbi példában látható módon felhasználóbarátabb olvasási natural sorrendet lehet kihozni. Ez a funkció csak latin nyelvű nyelveken támogatott.

Példa elrendezés olvasási sorrendre

Kézzel írt besorolás szövegsorok esetén (csak latin betűs)

A válasz magában foglalja annak besorolását, hogy minden szövegsor kézírás-stílusú-e vagy sem, valamint egy megbízhatósági pontszám. Ez a funkció csak latin nyelvű nyelveken támogatott. Az alábbi példa a képen látható szöveg kézzel írt besorolását mutatja be.

kézírás-besorolási példa

Oldalszámok vagy -tartományok kiválasztása szövegkinyeréshez

Nagyméretű többoldalas dokumentumok esetén a lekérdezési paraméterrel jelezze a szövegkinyeréshez megadott oldalszámokat vagy pages oldaltartományokat. Az alábbi példa egy 10 oldalas dokumentumot mutat be, amely mindkét esetben kicsomagolt szöveget tartalmaz – minden oldal (1–10) és a kijelölt oldalak (3–6) esetén.

A kijelölt oldalak kimenetének elrendezése

Következő lépések

Lásd még