Model příjmu pro rozpoznávání formulářů

Model příjemce kombinuje výkonné funkce optického rozpoznávání znaků (OCR) s modely obsáhlého učení za účelem analýzy a extrakce klíčových informací z prodejních příjmů. Příjmy mohou mít různé formáty a kvality, včetně vytištěných a rukopisných příjmů. Rozhraní API extrahuje klíčové informace, jako je název obchodní telefon, telefonní číslo, datum transakce, daň a celková transakce a vrátí strukturované znázornění dat JSON.

Ukázka příjemky se zpracoval pomocí Nástroje pro rozpoznávání popisků ve formě:

Ukázka účtenky

Možnosti vývoje

Nástroj pro rozpoznávání formulářů v 2.1 podporuje následující zdroje:

Funkce Zdroje informací
Model příjmu

Nástroj pro rozpoznávání formulářů v 3.0 podporuje následující zdroje:

Funkce Zdroje informací ID modelu
Model příjmu předem vytvořená příjem

Vyzkoušet Nástroj pro rozpoznávání formulářů

Podívejte se, jak se data, včetně času a data transakcí, informací o obchodní verzi a součtu celkového množství, extrahují z příjmů pomocí nástroje pro rozpoznávání formulářů Studio nebo našeho nástroje pro označování ukázek. Budete potřebovat následující:

Snímek obrazovky: klíče a umístění koncového bodu v Azure Portal.

Rozpoznávání formulářů – Studio (Preview)

Poznámka

Nástroj pro rozpoznávání formulářů je k dispozici v rozhraní API Preview (v 3.0).

  1. Na domovské stránce studia pro rozpoznávání formulářů vyberte příjmy

  2. Můžete analyzovat ukázkovou účtenku nebo vybrat tlačítko + Přidat a nahrát si tak vlastní ukázku.

  3. Vyberte tlačítko analyzovat :

    Snímek obrazovky: Analýza nabídky pro příjem

Ukázkový nástroj pro popisky

Budete potřebovat příjmový doklad. Můžete použít ukázkový dokument pro příjem.

  1. Na domovské stránce nástroje Sample labeling vyberte použít předem sestavený model k získání dat.

  2. Z rozevírací nabídky typ formuláře vyberte příjem :

    Snímek obrazovky: Ukázka výběr nástrojů pro popisky v nabídce Výběr předem sestaveného modelu rozevíracího seznamu.

Požadavky na vstup

  • Nejlepších výsledků dosáhnete, když zadáte jednu z jasných fotografií nebo vysoce kvalitní kontrolu na dokument.
  • Podporované formáty souborů: JPEG, PNG, BMP, TIFF a PDF (text – vložený nebo naskenovaný). Soubory PDF vložené do textu jsou nejvhodnější pro odstranění možnosti chyby při extrakci a umístění znaků.
  • Pro PDF a TIFF se dají zpracovat až 2000 stránek (s předplatným úrovně Free, zpracovávají se jenom první dvě stránky).
  • Velikost souboru musí být menší než 50 MB.
  • Rozměry obrázku musí být mezi 50 × 50 pixelů a 10000 × 10000 pixelů.
  • Rozměry PDF jsou až 17 × 17 palců, které odpovídají právnímu nebo a3 velikosti papíru nebo jsou menší.
  • Celková velikost školicích dat je 500 stránek nebo méně.
  • Pokud jsou vaše soubory PDF zamčené heslem, je nutné před odesláním odebrat zámek.
  • Pro bezdohledový Learning (bez označení dat):
    • Data musí obsahovat klíče a hodnoty.
    • Klíče se musí nacházet nad nebo nalevo od hodnot. nemůžou se zobrazit níže nebo vpravo.

Podporované jazyky a národní prostředí v 2.1

Poznámka

Není nutné zadávat národní prostředí. Toto je volitelný parametr. Technologie pro hloubkové učení ve formuláři automaticky detekuje jazyk textu v imagi.

Modelování Jazyk – kód národního prostředí Výchozí
Obdrží
  • Angličtina (USA) – EN-US
  • Angličtina (Austrálie) – EN-AU
  • Angličtina (Kanada) – en-CA
  • Angličtina (Spojené království) – en-GB
  • Angličtina (Indie) – en-IN
Automaticky rozpoznáno

Extrakce polí

Název Typ Description Standardizovaný výstup
ReceiptType Řetězec Typ prodejní účtenky Oddělené
Obchodní Řetězec Název obchodníka, který vystavil příjem
MerchantPhoneNumber phoneNumber Uvedené telefonní číslo v obchodníkovi + 1 XXX XXX XXXX
MerchantAddress Řetězec Uvedená adresa obchodního typu
TransactionDate Date (Datum) Datum vydání příjmu rrrr-mm-dd
TransactionTime Čas Čas vydání stvrzenky hh-mm-ss (24 hodin)
Celkem Číslo (USD) Úplná celková částka příjmu transakce Plovoucí desetinná čárka se dvěma desetinnými místy
Mezisoučet Číslo (USD) Mezisoučt příjmu, často před tím, než se použijí daně Plovoucí desetinná čárka se dvěma desetinnými místy
Daň Číslo (USD) Daň z příjmu (často daň z prodeje nebo ekvivalent) Plovoucí desetinná čárka se dvěma desetinnými místy
Tip Číslo (USD) Tip zahrnutý kupujícím Plovoucí desetinná čárka se dvěma desetinnými místy
Položky Pole objektů Extrahované řádkové položky s názvem, množstvím, jednotkovou cenou a extrahované celkovou cenou
Name Řetězec Název položky
Množství Číslo Množství jednotlivých položek Integer
Cena Číslo Individuální cena každé jednotky položky Plovoucí desetinná čárka se dvěma desetinnými místy
Total Price Číslo Celková cena řádkové položky Plovoucí desetinná čárka se dvěma desetinnými místy

Rozpoznávání formulářů Preview verze 3.0

Verze Rozpoznávání formulářů Preview představuje několik nových funkcí a možností. Model účtenky podporuje zpracování účtenek na jedné stránce.

Extrakce pole účtenky v hotelu

Název Typ Description Standardizovaný výstup
Datum přijetí Date (Datum) Datum doručení rrrr-mm-dd
Měna Měna Měnová jednotka částek příjmu Například USD, EUR nebo MIXED, pokud se nachází více hodnot.
Datum odletu Date (Datum) Datum odletu rrrr-mm-dd
Položky Pole
Items.*. Kategorie Řetězec Kategorie položky, například Room (Místnost), Tax (Daň) atd.
Items.*. Datum Date (Datum) Datum položky rrrr-mm-dd
Items.*. Popis Řetězec Popis položky
Items.*. TotalPrice Číslo Celková cena položky Integer
Národní prostředí Řetězec Národní prostředí účtenky, například en-US. Kód okresu jazyka ISO
MerchantAddress Řetězec Uvedená adresa prodejce
MerchantAliases Pole
MerchantAliases.* Řetězec Alternativní název obchodníci
MerchantName Řetězec Jméno prodejce vydávajícího stvrzenku
MerchantPhoneNumber Phonenumber Uvedené telefonní číslo prodejce +1 xxx xxx xxxx
ReceiptType (Typ účtenky) Řetězec Typ účtenky, například Hotel, Itemized
Celkem Číslo Úplná celková částka příjmu transakce Plovoucí desetinná čárka se dvěma desetinnými místy

Podporované jazyky a národní prostředí pro hotelové účtenky

Modelování Jazyk – kód národního prostředí Výchozí
Účtenka (hotel)
  • Angličtina (USA)– en-US
Angličtina (USA)– en-US

Průvodce migrací a REST API v3.0

Další kroky