Obecný model dokumentu pro rozpoznávání formulářů (Preview)

Model obecné dokumentu Preview kombinuje výkonné funkce optického rozpoznávání znaků (OCR) s modely hloubkového učení pro extrakci párů klíč-hodnota a entit z dokumentů. Obecný dokument je k dispozici pouze v rozhraní API verze Preview (v 3.0). Další informace o používání rozhraní API Preview (v 3.0) najdete v naší příručce k migraci.

Rozhraní API pro obecné dokumenty podporuje většinu typů formulářů a analyzuje dokumenty a přiřazuje hodnoty k klíčům a záznamům k tabulkám, které zjistí. Je ideální pro extrakci společných párů klíč-hodnota z dokumentů. Obecný model dokumentu můžete použít jako alternativu k výuce vlastního modelu bez popisků.

Obecné funkce dokumentu

  • Pro extrakci párů klíč-hodnota není nutné vyškolit vlastní model.

  • Jedno rozhraní API se používá k extrakci párů klíčových hodnot, entit, textu, tabulek a struktur z dokumentů.

  • Jedná se o předem připravený model, který bude pravidelně vyškolený pro nová data, aby se zlepšil rozsah a přesnost.

  • Obecný model dokumentu podporuje strukturovaná, částečně strukturovaná a nestrukturovaná data.

Ukázkový dokument zpracovaný ve formuláři Studio pro rozpoznávání

Snímek obrazovky: Obecná analýza dokumentů v nástroji pro rozpoznávání formulářů

Možnosti vývoje

Nástroj pro rozpoznávání formulářů v 3.0 podporuje následující zdroje:

Funkce Zdroje informací
🆕 obecný model dokumentu

Vyzkoušet Nástroj pro rozpoznávání formulářů

Podívejte se, jak se data, včetně tabulek, hodnot a entit, extrahují z formulářů a dokumentů pomocí nástroje pro rozpoznávání formulářů Studio nebo našeho nástroje pro popisky ukázek. Budete potřebovat následující:

Snímek obrazovky: klíče a umístění koncového bodu v Azure Portal.

Rozpoznávání formulářů – Studio (Preview)

Poznámka

Nástroj pro rozpoznávání formulářů a obecný model dokumentu jsou k dispozici v rozhraní API Preview (v 3.0).

  1. Na domovské stránce Studio pro rozpoznávání formulářů vyberte Obecné dokumenty .

  2. Můžete analyzovat ukázkový dokument nebo kliknutím na tlačítko + Přidat nahrát vlastní ukázku.

  3. Vyberte tlačítko analyzovat :

    Snímek obrazovky: nabídka analýza obecného dokumentu

Páry klíč-hodnota

Páry klíč-hodnota jsou konkrétní rozsahy v rámci dokumentu, které identifikují popisek nebo klíč a jeho přidruženou odpověď nebo hodnotu. Ve strukturovaném formuláři může to být popisek a hodnota, kterou uživatel zadal pro dané pole nebo v nestrukturovaném dokumentu. může to být datum, kdy se kontrakt spustil na základě textu v odstavci. Model AI je vyškolený k extrakci identifikovatelných klíčů a hodnot na základě široké škály typů dokumentů, formátů a struktur.

Klíče mohou také existovat v izolaci, pokud model detekuje, že existuje klíč, bez přidružené hodnoty nebo při zpracování volitelných polí. Například pole Prostřední název může být ve formuláři v některých instancí ponecháno prázdné. Páry klíč-hodnota jsou vždy tvořeny textem obsaženým v dokumentu a pokud máte dokumenty, kde je stejná hodnota popsána různými způsoby, například zákazníkem nebo uživatelem, přidružený klíč bude zákazníkem nebo uživatelem na základě toho, co dokument obsahoval.

Entity

Modely zpracování přirozeného jazyka můžou identifikovat části řeči a klasifikovat jednotlivé tokeny nebo slova. Model rozpoznávání pojmenovaných entit dokáže identifikovat entity, jako jsou lidé, místa a data, aby se zajistilo lepší prostředí. Identifikace entit vám umožní rozlišovat mezi typy zákazníků, například jednotlivec nebo organizace. Model extrakce páru hodnot klíčů a model identifikace entity jsou spouštěny paralelně na celém dokumentu a nikoli pouze na hodnotách extrahovaných párů hodnot klíčů. Tím je zajištěno, že složité struktury, ve kterých nelze identifikovat klíč, jsou stále obohaceny určením odkazovaných entit. Klíče nebo hodnoty můžete i nadále odpovídat entitám, které jsou založeny na posunech identifikovaných rozsahů.

  • Obecný dokument je předem vyškolený model a lze jej vyvolat přímo pomocí REST API.

  • Obecný model dokumentu podporuje rozpoznávání pojmenovaných entit (NER) pro několik kategorií entit. NER je schopnost identifikovat různé entity v textu a kategorizovat je do předem definovaných tříd nebo typů, jako je například osoba, umístění, událost, produkt a organizace. Extrahování entit může být užitečné ve scénářích, kde chcete ověřit extrahované hodnoty. Entity jsou extrahovány z celého obsahu a nikoli pouze extrahované hodnoty.

Základní extrakce dat modelu dokumentu

Modelování Extrakce textu Páry klíč-hodnota Značky výběru Tabulky Entity
Obecný dokument

Požadavky na vstup

  • Nejlepších výsledků dosáhnete, když zadáte jednu z jasných fotografií nebo vysoce kvalitní kontrolu na dokument.
  • Podporované formáty souborů: JPEG, PNG, BMP, TIFF a PDF (text – vložený nebo naskenovaný). Soubory PDF vložené do textu jsou nejvhodnější pro odstranění možnosti chyby při extrakci a umístění znaků.
  • Pro PDF a TIFF se dají zpracovat až 2000 stránek (s předplatným úrovně Free, zpracovávají se jenom první dvě stránky).
  • Velikost souboru musí být menší než 50 MB.
  • Rozměry obrázku musí být mezi 50 × 50 pixelů a 10000 × 10000 pixelů.
  • Rozměry PDF jsou až 17 × 17 palců, které odpovídají právnímu nebo a3 velikosti papíru nebo jsou menší.
  • Celková velikost školicích dat je 500 stránek nebo méně.
  • Pokud jsou vaše soubory PDF zamčené heslem, je nutné před odesláním odebrat zámek.
  • Pro bezdohledový Learning (bez označení dat):
    • Data musí obsahovat klíče a hodnoty.
    • Klíče se musí nacházet nad nebo nalevo od hodnot. nemůžou se zobrazit níže nebo vpravo.

Podporované jazyky a národní prostředí

Modelování Jazyk – kód národního prostředí Výchozí
Obecný dokument
  • Angličtina (USA) – EN-US
Angličtina (USA) – EN-US

Kategorie rozpoznávání pojmenovaných entit (NER)

Kategorie Typ Description
Person (Osoba) Řetězec Částečný nebo úplný název osoby
PersonType Řetězec Typ úlohy nebo role osoby
Umístění Řetězec Přírodní a lidský orientačních bodů, struktur, geografických funkcí a geopolitických entit.
Organizace Řetězec Společnosti, politické skupiny, hudební pásma, sportovní klub, státní orgány a veřejné organizace.
Událost Řetězec Historické, společenské a přirozeně vyskytující se události.
Produkt Řetězec Fyzické objekty různých kategorií.
Tuhle Řetězec Schopnost, dovednosti nebo odbornost.
Adresa Řetězec Úplné poštovní adresy.
Telefonní číslo Řetězec Telefon čísla.
E-mail Řetězec E-mailovou adresu
URL Řetězec Adresy URL a odkazy webu.
IP adresa Řetězec Síťové IP adresy.
DateTime Řetězec Data a denní doba.
Množství Řetězec Číselná měření a jednotky.

Požadavky

  • Extrahování entit může být užitečné ve scénářích, kde chcete ověřit extrahované hodnoty. Entity jsou extrahovány na celý obsah dokumentů, a nikoli pouze extrahované hodnoty.

  • Klíče jsou rozsahy textu extrahované z dokumentu, u částečně strukturovaných dokumentů může být nutné namapovat klíče na existující slovník klíčů.

  • Očekává se, že se mají zobrazit páry klíč-hodnota s klíčem, ale bez hodnoty. Například pokud se uživatel rozhodne nezadat e-mailovou adresu na formuláři.

Další kroky