Dokumentumfeldolgozási modellek

Fontos

  • A Document Intelligence nyilvános előzetes verziójú kiadásai korai hozzáférést biztosítanak az aktív fejlesztés alatt lévő funkciókhoz.
  • A funkciók, a megközelítések és a folyamatok az általános rendelkezésre állás (GA) előtt változhatnak a felhasználói visszajelzések alapján.
  • A Document Intelligence ügyfélkódtárak nyilvános előzetes verziója alapértelmezés szerint a REST API 2024-02-29-preview verziója.
  • A nyilvános előzetes verzió 2024-02-29 előzetes verziója jelenleg csak a következő Azure-régiókban érhető el:
  • USA keleti régiója
  • USA2 nyugati régiója
  • Nyugat-Európa

Ez a tartalom a következőre vonatkozik::Sakkv4.0 (előzetes verzió) | Korábbi verziók:kék pipav3.1 (GA)kék pipav3.0 (GA)kék pipav2.1 (GA)

Ez a tartalom a következőre vonatkozik::Sakkv3.1 (GA) | Legújabb verzió:lila pipav4.0 (előzetes verzió) | Korábbi verziók:kék pipav3.0kék pipav2.1

Ez a tartalom a következőre vonatkozik::Sakkv3.0 (GA) | Legújabb verziók:lila pipav4.0 (előzetes verzió)lila pipav3.1 | Korábbi verzió:kék pipav2.1

Ez a tartalom a következőre vonatkozik::Sakkv2.1 | Legújabb verzió:kék pipav4.0 (előzetes verzió)

Az Azure AI Document Intelligence számos olyan modellt támogat, amelyek lehetővé teszik intelligens dokumentumfeldolgozás hozzáadását az alkalmazásokhoz és folyamatokhoz. Használhat előre összeállított tartományspecifikus modellt, vagy betaníthat egy egyéni modellt, amely az adott üzleti igényeknek és használati eseteknek megfelelően van kialakítva. A dokumentumintelligencia a REST API- vagy Python-, C#-, Java- és JavaScript-ügyfélkódtárakkal használható.

Modell áttekintése

Az alábbi táblázat az egyes jelenlegi és stabil API-khoz elérhető modelleket mutatja be:

Modell típusa Modell 2024-02-29-preview
&listajel 2023-10-31-preview
2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Dokumentumelemzési modellek Olvasás ✔️ ✔️ ✔️ n.a.
Dokumentumelemzési modellek Elrendezés ✔️ ✔️ ✔️ ✔️
Dokumentumelemzési modellek Általános dokumentum áthelyezve az elrendezésbe** ✔️ ✔️ n.a.
Előre összeállított modellek Szerződés ✔️ ✔️ n.a. n.a.
Előre összeállított modellek Egészségbiztosítási kártya ✔️ ✔️ ✔️ n.a.
Előre összeállított modellek Személyazonosító okmányok ✔️ ✔️ ✔️ ✔️
Előre összeállított modellek Számla ✔️ ✔️ ✔️ ✔️
Előre összeállított modellek Beérkezési ✔️ ✔️ ✔️ ✔️
Előre összeállított modellek USA 1040 Adó* ✔️ ✔️ n.a. n.a.
Előre összeállított modellek USA 1098 Adó* ✔️ n.a. n.a. n.a.
Előre összeállított modellek USA 1099 Adó* ✔️ n.a. n.a. n.a.
Előre összeállított modellek AMERIKAI W2 adó ✔️ ✔️ ✔️ n.a.
Előre összeállított modellek US Mortgage 1003 URLA ✔️ n.a. n.a. n.a.
Előre összeállított modellek US Mortgage 1008 Összegzés ✔️ n.a. n.a. n.a.
Előre összeállított modellek USA-beli jelzáloghitelek záró közzététele ✔️ n.a. n.a. n.a.
Előre összeállított modellek Házassági anyakönyvi kivonat ✔️ n.a. n.a. n.a.
Előre összeállított modellek Hitelkártya ✔️ n.a. n.a. n.a.
Előre összeállított modellek Névjegykártya Elavult ✔️ ✔️ ✔️
Egyéni besorolási modell Egyéni osztályozó ✔️ ✔️ n.a. n.a.
Egyéni extrakciós modell Egyéni neurális ✔️ ✔️ ✔️ n.a.
Customextraction modell Egyéni sablon ✔️ ✔️ ✔️ ✔️
Egyéni extrakciós modell Egyéni összeállítás ✔️ ✔️ ✔️ ✔️
Minden modell Bővítmények képességei ✔️ ✔️ n.a. n.a.

* – Almodelleket tartalmaz. A támogatott változatok és altípusok modellspecifikus információi.

Bővítmény képessége Bővítmény/ingyenes 2024-02-29-preview
&listajel [2023-10-31-preview](/rest/api/aiservices/operation-groups?view=rest-aiservices-2024-02-29-preview&preserve-view=true
2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Betűtípustulajdonságok kinyerése Összead ✔️ ✔️ n.a. n.a.
Képlet kinyerése Összead ✔️ ✔️ n.a. n.a.
Nagy felbontású kinyerés Összead ✔️ ✔️ n.a. n.a.
Vonalkód kinyerése Ingyenes ✔️ ✔️ n.a. n.a.
Nyelvfelismerés Ingyenes ✔️ ✔️ n.a. n.a.
Kulcsértékpárok Ingyenes ✔️ n.a. n.a. n.a.
Lekérdezési mezők Összead* ✔️ n.a. n.a. n.a.

Modellelemzési funkciók

Modellazonosító Tartalom kinyerése Lekérdezési mezők Bekezdések Bekezdésszerepkörök Kijelölési jelek Táblák Kulcs-érték párok Nyelvek Vonalkódok Dokumentumelemzés Képletek* Stílus betűtípusa* Felsőbb*
előre összeállított olvasás O O O O O
előre összeállított elrendezés O O O O O
előre összeállított dokumentum O O O O O
előre összeállított-businessCard
előre összeállított szerződés O O O O O
prebuilt-healthInsuranceCard.us O O O O O
előre összeállított-idDocument O O O O O
előre összeállított számla O O O O O O
előre összeállított nyugta O O O O O
prebuilt-marriageCertificate.us O O O O O
előre összeállított-creditCard O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099(változatok) O O O O O
prebuilt-tax.us.1040(változatok) O O O O O
{ customModelName } O O O O O

✓ – Engedélyezett
O – Nem kötelező
* – A prémium funkciók többletköltséggel járnak

Bővítmény* – A lekérdezésmezők ára eltér a többi bővítményfunkciótól. Részletekért tekintse meg a díjszabást .

Modell Leírás
Dokumentumelemzési modellek
OcR olvasása Nyomtatott és kézzel írt szöveg kinyerése szavakkal, helyekkel és észlelt nyelvekkel együtt.
Elrendezéselemzés Szöveg- és dokumentumelrendezési elemek, például táblázatok, kijelölési jelek, címek, szakaszfejlécek és egyebek kinyerése.
Előre összeállított modellek
Egészségbiztosítási kártya Automatizálhatja az egészségügyi folyamatokat a biztosító, a tag, a vény, a csoportszám és más kulcsfontosságú információk amerikai egészségbiztosítási kártyákból való kinyerésével.
Usa-beli adódokumentum-modellek Amerikai adózási űrlapok feldolgozása alkalmazotti, munkáltatói, bér- és egyéb információk kinyeréséhez.
US Mortgage-dokumentummodellek Usa-beli jelzálog-űrlapok feldolgozása a hitelfelvevő hitel- és ingatlaninformációinak kinyeréséhez.
Szerződés Bontsa ki a szerződést és a felek adatait.
Számla Számlák automatizálása.
Beérkezési Nyugtaadatok kinyerve a nyugtákból.
Identitásdokumentum (azonosító) A személyazonossági (id) mezők kinyerve az egyesült államokbeli jogosítványokból és nemzetközi útlevelekből.
Névjegykártya A névjegykártyák beolvasása a kulcsmezők és adatok alkalmazásba való kinyeréséhez.
Egyéni modellek
Egyéni modell (áttekintés) Adatokat nyerhet ki a vállalkozásához tartozó űrlapokból és dokumentumokból. Az egyéni modellek be vannak tanítva a különböző adatokhoz és használati esetekhez.
Egyéni extrakciós modellek Az egyéni sablonmodellek elrendezési jeleket használnak az értékek dokumentumokból való kinyerésére, és alkalmasak mezők kinyerésére magas strukturált dokumentumokból, meghatározott vizualizációs sablonokkal.
Az egyéni neurális modellek különböző dokumentumtípusokra vannak betanolva, hogy mezőket nyerjenek ki strukturált, félig strukturált és strukturálatlan dokumentumokból.
Egyéni besorolási modell Az egyéni besorolási modell osztályozhatja a bemeneti fájl egyes lapjait, hogy azonosítsa a bemeneti fájlban lévő dokumentumokat, és több dokumentumot vagy egy dokumentum több példányát is azonosíthatja egy bemeneti fájlban.
Összeállított modellek Több egyéni modell egyetlen modellbe kombinálásával automatizálhatja a különböző dokumentumtípusok feldolgozását egyetlen összeállított modellel.

A Névjegykártya-modell kivételével az összes modell esetében a Dokumentumintelligencia mostantól támogatja a bővítményfunkciókat, hogy kifinomultabb elemzést lehessen lehetővé tenni. Ezek az opcionális képességek a dokumentum kinyerésének forgatókönyvétől függően engedélyezhetők és letilthatók. A (GA) és újabb 2023-07-31 API-verzióhoz hét bővítmény áll rendelkezésre:

Modell adatai

Ez a szakasz az egyes modellektől elvárható kimenetet ismerteti. Vegye figyelembe, hogy a legtöbb modell kimenetét bővítheti bővítményfunkciókkal.

Read OCR

A Read API elemzi és kinyeri a vonalakat, szavakat, azok helyét, az észlelt nyelveket és a kézzel írt stílust, ha észleli őket.

A Document Intelligence Studio használatával feldolgozott mintadokumentum:

Képernyőkép a Document Intelligence Studio Read használatával feldolgozott mintadokumentumról

Elrendezéselemzés

Az elrendezéselemzési modell elemzi és kinyeri a szöveget, a táblázatokat, a kijelölési jeleket és más szerkezeti elemeket, például a címeket, a szakaszfejléceket, az oldalfejléceket, az oldallábakat és egyebeket.

A Document Intelligence Studio használatával feldolgozott mintadokumentum:

Képernyőkép a Document Intelligence Studióval feldolgozott mintalapról.

Egészségbiztosítási kártya

Az egészségbiztosítási kártyamodell a hatékony optikai karakterfelismerési (OCR) képességeket a mélytanulási modellekkel kombinálva elemzi és kinyeri a legfontosabb információkat az EGYESÜLT Államok egészségbiztosítási kártyáiból.

A Document Intelligence Studio használatával feldolgozott USA-beli egészségbiztosítási kártyaminta:

Képernyőkép egy usa-beli egészségbiztosítási kártya elemzési mintájáról a Document Intelligence Studióban.

Amerikai adódokumentumok

Az egyesült államokbeli adódokumentum-modellek az adódokumentumok kiválasztott csoportjából elemzik és nyerik ki a kulcsmezőket és a sorelemeket. Az API támogatja az angol nyelvű amerikai adódokumentumok különböző formátumú és minőségű elemzését, beleértve a telefonon rögzített képeket, a beolvasott dokumentumokat és a digitális PDF-eket. Jelenleg a következő modellek támogatottak:

Modell Leírás ModelID
AMERIKAI adó W-2 Az adóköteles kompenzáció részleteinek kinyerése. előre összeállított-tax.us.W-2
Amerikai adó 1040 A jelzálog-kamat részleteinek kinyerésében. prebuilt-tax.us.1040(változatok)
Amerikai adó 1098 A jelzálog-kamat részleteinek kinyerésében. prebuilt-tax.us.1098(változatok)
Amerikai adó 1099 A munkáltatótól eltérő forrásokból származó jövedelem kinyeréséből. prebuilt-tax.us.1099(változatok)

A Document Intelligence Studio használatával feldolgozott W-2-mintadokumentum:

Képernyőkép egy W-2-es mintáról.

USA-beli jelzáloghitel-dokumentumok

Az usa-beli jelzálogdokumentum-modellek elemzik és kinyerik a kulcsfontosságú mezőket, beleértve a hitelfelvevő, a hitel- és az ingatlaninformációkat a jelzálogdokumentumok egy kiválasztott csoportjából. Az API támogatja az angol nyelvű, különböző formátumú és minőségű, amerikai jelzáloghiteles dokumentumok elemzését, beleértve a telefonon rögzített képeket, a beolvasott dokumentumokat és a digitális PDF-eket. Jelenleg a következő modellek támogatottak:

Modell Leírás ModelID
1003 Végfelhasználói licencszerződés (EULA) Hitel, hitelfelvevő, ingatlan adatainak kinyerés. prebuilt-mortgage.us.1003
1008- összefoglaló dokumentum Hitelfelvevő, eladó, ingatlan, jelzálog és jegyzés részleteinek kinyerése. prebuilt-mortgage.us.1008
Közzététel lezárása A lezárás, a tranzakciós költségek és a hitel részleteinek kinyerésére. prebuilt-mortgage.us.closingDisclosure
Házassági anyakönyvi kivonat A közös kölcsön kérelmezőinek házassági adatainak kinyeréséről. előre összeállított-házasságCertificate
AMERIKAI adó W-2 Jövedelemigazolás adóköteles kompenzációs adatainak kinyerése. előre összeállított-tax.us.W-2

Minta a Document Intelligence Studio használatával feldolgozott záró közzétételi dokumentumra:

Képernyőkép egy minta záró közzétételéről.

Contract

A szerződési modell elemzi és kinyeri a főbb mezőket és sorelemeket a szerződéses szerződésekből, beleértve a feleket, a joghatóságokat, a szerződés azonosítóját és a címet. A modell jelenleg az angol nyelvű szerződéses dokumentumokat támogatja.

A Document Intelligence Studio használatával feldolgozott mintaszerződés:

Képernyőkép a szerződésmodell kinyeréséről a Document Intelligence Studióval.

Számla

A számlamodell automatizálja a számlák feldolgozását az ügyfélnév, a számlázási cím, a határidő és az esedékes összeg, a sorelemek és egyéb kulcsadatok kinyeréséhez. A modell jelenleg az angol, spanyol, német, francia, olasz, portugál és holland számlákat támogatja.

A Document Intelligence Studio használatával feldolgozott számlaminta:

Képernyőkép egy számlamintáról.

Nyugta

A nyugtamodell használatával a kereskedő nevét, dátumait, sortételeit, mennyiségét és összegét a nyomtatott és kézzel írt nyugtákból származó értékesítési nyugták vizsgálatára használhatja. A 3.0-s verzió az egyoldalas szállodai nyugtafeldolgozást is támogatja.

A Document Intelligence Studio használatával feldolgozott minta nyugta:

Képernyőkép egy minta nyugtáról.

Identitásdokumentum (azonosító)

A kulcsmezők kinyeréséhez használja az identitásdokumentum (id) modellt az amerikai jogosítványok (mind az 50 állam és Columbia kerület) és az életrajzi lapok feldolgozásához nemzetközi útlevelekből (a vízum és egyéb úti okmányok kivételével).

Példa a Document Intelligence Studióval feldolgozott amerikai illesztőprogram-licencre:

Képernyőkép egy mintaazonosítási kártyáról.

Házassági anyakönyvi kivonat

A házassági anyakönyvi kivonat modelljével feldolgozhatja az amerikai házassági anyakönyvi kivonatokat, hogy kinyerje a legfontosabb mezőket, beleértve az egyéneket, a dátumot és a helyet.

A Document Intelligence Studio használatával feldolgozott amerikai házassági anyakönyvi kivonat minta:

Képernyőkép egy házassági anyakönyvi mintaigazolásról.

Hitelkártya

A hitelkártya-modell használatával feldolgozhatja a hitel- és bankkártyákat a kulcsmezők kinyeréséhez.

A Document Intelligence Studio használatával feldolgozott hitelkártyaminta:

Képernyőkép egy hitelkártyamintáról.

Egyéni modellek

Az egyéni modellek széles körben két típusba sorolhatók. Olyan egyéni besorolási modellek, amelyek támogatják a "dokumentumtípus" besorolását és az egyéni extrakciós modelleket, amelyek egy meghatározott sémát kinyerhetnek egy adott dokumentumtípusból.

Az egyéni modellek típusainak és a kapcsolódó modellépítési módoknak a diagramja.

Az egyéni dokumentummodellek a vállalatra jellemző űrlapokból és dokumentumokból elemzik és nyerik ki az adatokat. Betanítottuk őket, hogy felismerjék az űrlapmezőket a különálló tartalomban, és kulcs-érték párokat és táblaadatokat nyerjenek ki. Az első lépésekhez csak egy példa kell az űrlaptípusra.

A 3.0-s verziójú egyéni modell támogatja az aláírásészlelést az egyéni sablonban (űrlap) és a többoldalas táblázatokban mind a sablonban, mind a neurális modellekben.

Minta egyéni sablon a Document Intelligence Studióval feldolgozva:

Képernyőkép a Document Intelligence eszköz elemzési-a-custom-form ablakáról.

Egyéni kinyerés

Az egyéni extrakciós modell két típus , egyéni sablon vagy egyéni neurális modell egyike lehet. Egyéni kinyerési modell létrehozásához címkézzen fel egy dokumentum adathalmazát a kinyerni kívánt értékekkel, és tanítsa be a modellt a címkézett adathalmazra. Az első lépésekhez csak öt, azonos űrlap- vagy dokumentumtípusú példára van szüksége.

Minta egyéni kinyerés a Document Intelligence Studióval feldolgozva:

Képernyőkép az egyéni kinyerési modell elemzéséről a Document Intelligence Studióban.

Egyéni osztályozó

Az egyéni besorolási modell lehetővé teszi a dokumentumtípus azonosítását a kinyerési modell meghívása előtt. A besorolási modell az API-tól 2023-07-31 (GA) kezdve érhető el. Az egyéni besorolási modellek betanításához osztályonként legalább két különböző osztályra és legalább öt mintára van szükség.

Összeállított modellek

A rendszer úgy hoz létre egy összeállított modellt, hogy egyéni modellek gyűjteményét veszi fel, és egyetlen, az űrlaptípusokból készült modellhez rendeli őket. Több egyéni modellt is hozzárendelhet egy egyetlen modellazonosítóval rendelkező, komponált modellhez. Egyetlen összeállított modellhez legfeljebb 200 betanított egyéni modellt rendelhet.

A Modell összeállítása párbeszédpanel ablaka a Document Intelligence Studióban:

Képernyőkép a Document Intelligence Studio egyéni modell összeállítására szolgáló párbeszédpaneléről.

Bemeneti követelmények

  • A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.

  • Támogatott fájlformátumok:

    Modell PDF Kép:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) és HTML
    Olvasás
    Elrendezés ✔ (2024-02-29-preview, 2023-10-31-preview)
    Általános dokumentum
    Előre összeállított
    Egyéni kinyerés
    Egyéni besorolás ✔ (2024-02-29-preview)
  • PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).

  • A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) és 4 MB az ingyenes (F0) szint esetén.

  • A képméreteknek 50 x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.

  • Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.

  • A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül 8150 pont/hüvelyk (DPI) pont szövegnek felel meg.

  • Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.

    • Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete sablonmodell esetén 50 MB, a neurális modell esetében pedig 1G-MB.

    • Egyéni besorolási modell betanítása esetén a betanítási adatok 1GB teljes mérete legfeljebb 10 000 oldal lehet.

Feljegyzés

A Mintacímke eszköz nem támogatja a BMP fájlformátumot. Ez nem a Dokumentumintelligencia-szolgáltatás, hanem az eszköz korlátozása.

Verziómigrálás

A Document Intelligence v3.1 migrálási útmutatóját követve megtudhatja, hogyan használhatja a Document Intelligence 3.0-s verziót az alkalmazásokban

Modell Leírás
Dokumentumelemzés
Elrendezés Szöveg- és elrendezésinformációk kinyerve a dokumentumokból.
Előre elkészített
Számla Kulcsinformációk kinyerése angol és spanyol számlákból.
Beérkezési Kulcsinformációk kinyerése az angol nyugtákból.
Személyazonosító okmányok Kulcsinformációk kinyerése amerikai jogosítványokból és nemzetközi útlevelekből.
Névjegykártya Kulcsinformációk kinyerése angol névjegykártyákból.
Szokás
Szokás Adatokat nyerhet ki a vállalkozásához tartozó űrlapokból és dokumentumokból. Az egyéni modellek be vannak tanítva a különböző adatokhoz és használati esetekhez.
Áll Egyéni modellek gyűjteményének összeállítása és hozzárendelése egyetlen, az űrlaptípusokból készült modellhez.

Elrendezés

Az Layout API szövegeket, táblázatokat és fejléceket, kijelölési jeleket és szerkezetadatokat elemez és nyer ki a dokumentumokból.

Mintadokumentum a Mintacímkézés eszközzel feldolgozva:

Képernyőkép az

Számla

A számlamodell elemzi és kinyeri a kulcsadatokat az értékesítési számlákból. Az API különböző formátumban elemzi a számlákat, és kinyeri a legfontosabb információkat, például az ügyfél nevét, a számlázási címet, a határidőt és a fizetendő összeget.

Mintaszámlák feldolgozása a Mintacímkézés eszközzel:

Képernyőkép a minta számlaelemzésről a Mintacímkézés eszközzel.

Nyugta

  • A nyugtamodell elemzi és kinyeri a kulcsadatokat a nyomtatott és kézzel írt értékesítési nyugtákból.

Minta visszaigazolása a Mintacímkézés eszközzel feldolgozva:

Képernyőkép egy minta nyugtáról.

Személyazonosító okmányok

Az azonosító dokumentummodell elemzi és kinyeri a legfontosabb információkat a következő dokumentumokból:

  • Amerikai jogosítványok (mind az 50 állam és Columbia kerület)

  • Életrajzi oldalak nemzetközi útlevélből (a vízum és egyéb úti okmányok kivételével). Az API elemzi az identitásdokumentumokat és kinyeri azokat

A mintacímkézési eszközzel feldolgozott egyesült államokbeli illesztőprogram-licencminta:

Képernyőkép egy mintaazonosítási kártyáról.

Névjegykártya

A névjegykártya-modell elemzi és kinyeri a névjegykártya-rendszerképek legfontosabb információit.

Minta névjegykártya a Mintacímkézés eszközzel:

Képernyőkép egy névjegykártyáról.

Egyéni

  • Az egyéni modellek a vállalatra jellemző űrlapokból és dokumentumokból elemzik és nyerik ki az adatokat. Az API egy gépi tanulási program, amely betanított a különböző tartalmak űrlapmezőinek felismerésére, valamint kulcs-érték párok és táblaadatok kinyerésére. Az első lépésekhez csak öt, azonos típusú példára van szüksége, és az egyéni modell címkézett adatkészletekkel vagy anélkül is betanított.

Minta egyéni modellfeldolgozás a Mintacímkézés eszközzel:

Képernyőkép a Document Intelligence eszköz elemzési-a-custom-form ablakáról.

Összeállított egyéni modell

A rendszer úgy hoz létre egy összeállított modellt, hogy egyéni modellek gyűjteményét veszi fel, és egyetlen, az űrlaptípusokból készült modellhez rendeli őket. Több egyéni modellt is hozzárendelhet egy egyetlen modellazonosítóval rendelkező, komponált modellhez. Akár 100 betanított egyéni modellt is hozzárendelhet egyetlen összeállított modellhez.

A Modell összeállítása párbeszédpanel ablaka a Mintacímkézés eszközzel:

Képernyőkép a Document Intelligence Studio egyéni modell összeállítására szolgáló párbeszédpaneléről.

Modelladatok kinyerése

Modell Szöveg kinyerése Nyelvfelismerés Kijelölési jelek Táblák Bekezdések Bekezdésszerepkörök Kulcs-érték párok Mezők
Elrendezés
Számla
Beérkezési
Azonosító dokumentum
Névjegykártya
Egyéni űrlap

Bemeneti követelmények

  • A legjobb eredmény érdekében dokumentumonként egy tiszta fényképet vagy kiváló minőségű vizsgálatot biztosít.

  • Támogatott fájlformátumok:

    Modell PDF Kép:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) és HTML
    Olvasás
    Elrendezés ✔ (2024-02-29-preview, 2023-10-31-preview)
    Általános dokumentum
    Előre összeállított
    Egyéni kinyerés
    Egyéni besorolás ✔ (2024-02-29-preview)
  • PDF és TIFF esetén legfeljebb 2000 oldal dolgozható fel (ingyenes szintű előfizetéssel csak az első két oldal dolgozható fel).

  • A dokumentumok elemzéséhez használt fájlméret 500 MB a fizetős (S0) és 4 MB az ingyenes (F0) szint esetén.

  • A képméreteknek 50 x 50 képpont és 10 000 képpont x 10 000 képpont között kell lenniük.

  • Ha a PDF-eket jelszó védi, akkor beküldés előtt el kell távolítania a védelmet.

  • A kinyerni kívánt szöveg minimális magassága 12 képpont egy 1024 x 768 képpontos képhez. Ez a dimenzió körülbelül 8150 pont/hüvelyk (DPI) pont szövegnek felel meg.

  • Egyéni modell betanítása esetén a betanítási adatok oldalainak maximális száma az egyéni sablonmodell esetében 500, az egyéni neurális modell esetében pedig 50 000.

    • Egyéni extrakciós modell betanítása esetén a betanítási adatok teljes mérete sablonmodell esetén 50 MB, a neurális modell esetében pedig 1G-MB.

    • Egyéni besorolási modell betanítása esetén a betanítási adatok 1GB teljes mérete legfeljebb 10 000 oldal lehet.

Feljegyzés

A Mintacímke eszköz nem támogatja a BMP fájlformátumot. Ez nem a Dokumentumintelligencia-szolgáltatás, hanem az eszköz korlátozása.

Verziómigrálás

A Document Intelligence v3.1 migrálási útmutatóját követve megtudhatja, hogyan használhatja a Document Intelligence 3.0-s verziót az alkalmazásokban

Következő lépések