Rozpoznávání formulářů modelu rozložení

Rozhraní API Rozpoznávání formulářů Layout v Azure extrahuje text, tabulky, značky výběru a informace o struktuře z dokumentů (PDF, TIFF) a obrázků (JPG, PNG, BMP). Model rozložení kombinuje vylepšenou verzi výkonných funkcí optického rozpoznávání znaků (OCR) s modely hlubokého učení, které extrahují text, tabulky, značky výběru a strukturu dokumentů.

Ukázkový formulář zpracovaný pomocí Rozpoznávání formulářů rozložení nástroje Pro ukázkové popisování

Snímek obrazovky: Ukázkový nástroj pro popisování, který zpracovává gif

Funkce pro extrakci dat

Model rozložení Extrakce textu Značky výběru Tabulky
Layout

Možnosti vývoje

Následující prostředky podporuje Rozpoznávání formulářů verze 2.1:

Funkce Zdroje informací
Rozhraní API pro rozložení

Následující prostředky podporuje Rozpoznávání formulářů verze 3.0:

Funkce Zdroje informací ID modelu
Model rozložení předem sestavené rozložení

Zkuste Rozpoznávání formulářů

Podívejte se, jak se data, včetně tabulek, zaškrtávacích políček a textu, extrahují z formulářů a dokumentů pomocí nástroje Rozpoznávání formulářů Studio nebo našeho ukázkového nástroje pro popisování. Budete potřebovat následující:

  • Předplatné Azure – můžete si ho vytvořit zdarma.

  • Instance Rozpoznávání formulářů v Azure Portal. K vyzkoušejí služby můžete použít bezplatnou cenovou úroveň ( F0 ). Po nasazení prostředku vyberte Přejít k prostředku a získejte klíč a koncový bod rozhraní API.

Snímek obrazovky: Klíče a umístění koncového bodu v Azure Portal

Rozpoznávání formulářů Studio (Preview)

Poznámka

Rozpoznávání formulářů Studio je k dispozici ve verzi Preview (v3.0) API.

Ukázkový formulář zpracovaný pomocí Rozpoznávání formulářů Studio

Snímek obrazovky: Zpracování dokumentů v Rozpoznávání formulářů Studiu

  1. Na domovské Rozpoznávání formulářů Studio vyberte Rozložení.

  2. Můžete analyzovat ukázkový dokument nebo vybrat tlačítko + Přidat a nahrát vlastní ukázku.

  3. Vyberte tlačítko Analyzovat:

    Snímek obrazovky: analýza nabídky rozložení

Ukázkový nástroj pro popisování

Budete potřebovat dokument formuláře. Můžete použít náš ukázkový formulářový dokument.

  1. Na domovské stránce nástroje Ukázkové popisování vyberte Použít rozložení k získání textu, tabulek a značek výběru .

  2. V rozevírací nabídce vyberte Místní soubor.

  3. Upload souboru a vyberte Rozložení spuštění.

    Snímek obrazovky: Snímek obrazovky: Rozevírací nabídka pro výběr zdrojového souboru v nástroji pro ukázkové popisování

Požadavky na vstup

  • Nejlepších výsledků dosáhnete, když pro každý dokument poskytnete jednu jasnou fotku nebo vysoce kvalitní sken.
  • Podporované formáty souborů: JPEG, PNG, BMP, TIFF a PDF (vložený nebo naskenovaný text). Soubory PDF s vloženým textem nejlépe eliminují možnost chyby při extrakci a umístění znaků.
  • V případě souborů PDF a TIFF je možné zpracovat až 2 000 stránek (s předplatným úrovně Free se zpracovávají pouze první dvě stránky).
  • Velikost souboru musí být menší než 50 MB.
  • Rozměry obrázku musí být v rozmezí 50 × 50 pixelů a 1 0000 × 1 0000 pixelů.
  • Rozměry PDF jsou až 17 x 17 palců, což odpovídá velikosti papíru Legal nebo A3 nebo menší.
  • Celková velikost trénovací data je 500 stránek nebo méně.
  • Pokud jsou soubory PDF uzamčené heslem, musíte před odesláním odebrat zámek.
  • Pro učení bez dohledu (bez označených dat):
    • Data musí obsahovat klíče a hodnoty.
    • Klíče se musí objevit nad nebo nalevo od hodnot. Nelze je zobrazit pod ani napravo.

Poznámka

Nástroj Ukázkové popisování nepodporuje formát souboru BMP. Jedná se o omezení nástroje, nikoli služby Rozpoznávání formulářů Service.

Podporované jazyky a národní prostředí

Rozpoznávání formulářů Preview přináší další jazykovou podporu pro model rozložení. Úplný seznam podporovaných rukou psaných a tištěných textů najdete v naší podpoře jazyků.

Funkce

Tabulky a záhlaví tabulek

Rozhraní API pro rozložení extrahuje pageResults tabulky v části výstupu JSON. Dokumenty je možné naskenovat, vyfotografovat nebo digitalizovat. Tabulky mohou být složité se sloučenými buňkami nebo sloupci, s ohraničením nebo bez ohraničení a s lichými úhly. Extrahované informace o tabulce zahrnují počet sloupců a řádků, rozsah řádků a rozsah sloupců. Každá buňka s ohraničující rámeček je výstupem spolu s informacemi, zda je rozpoznána jako součást záhlaví. Předpovězené buňky záhlaví modelu mohou zahrnovat více řádků a nemusí nutně představovat první řádky v tabulce. Fungují také s obměnami tabulek. Každá buňka tabulky obsahuje také celý text s odkazy na jednotlivá slova v readResults oddílu .

Výstup záhlaví tabulky rozložení

Značky výběru

Rozhraní API pro rozložení také extrahuje značky výběru z dokumentů. Extrahované značky výběru zahrnují ohraničující rámeček, spolehlivost a stav (vybrané/nevybrané). Informace o znací výběru se readResults extrahuje v části výstupu JSON.

Výstup značek výběru rozložení

Řádky a slova textu

Rozhraní API pro rozložení extrahuje text z dokumentů a obrázků s několika úhly a barvami textu. Přijímá fotky dokumentů, faxů, tištěný nebo ručně psaný text (jenom angličtina) a smíšené režimy. Text se extrahuje s informacemi o řádcích, slovech, ohraničující rámečcích, skóre spolehlivosti a stylu (rukou psaných nebo jiných). Všechny textové informace jsou obsaženy v readResults části výstupu JSON.

Výstup extrakce textu rozložení

Přirozené pořadí čtení pro textové řádky (jenom latinku)

Můžete určit pořadí, ve kterém jsou textové řádky ve výstupu s readingOrder parametrem dotazu. Použijte natural pro více uživatelsky přívětivého výstupu pořadí čtení, jak je znázorněno v následujícím příkladu. Tato funkce je podporována pouze v jazycích Latin.

Příklad pořadí čtení rozložení

Ručně psaná klasifikace pro textové řádky (jenom latinku)

Odpověď zahrnuje klasifikaci, zda je každý textový řádek ve stylu rukopisu nebo ne, spolu s skóre spolehlivosti. Tato funkce je podporována pouze v jazycích Latin. Následující příklad ukazuje ručně vytvořenou klasifikaci textu v obrázku.

Příklad klasifikace rukopisu

Vybrat čísla stránek nebo rozsahy pro extrakci textu

U rozsáhlých vícestránkových dokumentů použijte pages parametr dotazu k označení konkrétního čísla stránky nebo rozsahů stránek pro extrakci textu. Následující příklad ukazuje dokument s 10 stránkami a text extrahovaný pro oba případy – všechny stránky (1-10) a vybrané stránky (3-6).

Výstup vybrané stránky rozložení

Verze Preview nástroje pro rozpoznávání formulářů v 3.0

Verze Preview nástroje pro rozpoznávání formulářů přináší několik nových funkcí a možností.

Další kroky