Vlastní a složené modely pro rozpoznávání formulářů

Nástroj pro rozpoznávání formulářů používá pokročilou technologii strojového učení ke zjišťování a extrakci informací z obrázků dokumentů a vrácení extrahovaných dat ve strukturovaném výstupu JSON. Pomocí nástroje pro rozpoznávání formulářů můžete při vytváření složených modelů vytvářet samostatné vlastní modely nebo kombinovat vlastní modely.

  • Vlastní modely. Vlastní modely pro rozpoznávání formulářů umožňují analyzovat a extrahovat data z formulářů a dokumentů, které jsou specifické pro vaši firmu. Vlastní modely jsou vyškoleny pro vaše odlišná data a případy použití.

  • Složené modely. Složený model se vytvoří tak, že převezme kolekci vlastních modelů a přiřadí se k jednomu modelu, který zahrnuje typy formulářů. Při odeslání dokumentu do složeného modelu provede služba klasifikaci krok k rozhodnutí, který vlastní model přesně představuje formulář uvedený pro analýzu.

Snímek obrazovky: Nástroj pro rozpoznávání formulářů analyzovat-a – okno s vlastním formulářem.

Co je vlastní model?

Vlastní model je program strojového učení, který je vyškolený pro rozpoznávání polí formuláře v rámci odlišného obsahu a extrakci párů klíč-hodnota a tabulkových dat. Pro začátek stačí jenom pět příkladů stejného typu formuláře a váš vlastní model je možné vyškolet pomocí nebo bez označení datových sad.

Co je složený model?

U složených modelů můžete přiřadit více vlastních modelů k složenému modelu s názvem s jedním ID modelu. To je užitečné v případě, že jste proučeni několik modelů a chtěli byste je seskupit k analýze podobných typů formulářů. Například váš sestavený model může zahrnovat vlastní modely školené k analýze vašich dodávek, vybavení a nákupních objednávek nábytku. Místo ručního pokusu o výběr vhodného modelu můžete použít složený model k určení vhodného vlastního modelu pro každou analýzu a extrakci.

Možnosti vývoje

Nástroj pro rozpoznávání formulářů v 2.1 podporuje následující zdroje:

Funkce Zdroje informací
Vlastní model

Nástroj pro rozpoznávání formulářů v 3.0 podporuje následující zdroje:

Funkce Zdroje informací
Vlastní model

Vyzkoušet Nástroj pro rozpoznávání formulářů

Podívejte se, jak se data extrahují z konkrétních nebo jedinečných dokumentů pomocí vlastních modelů. Budete potřebovat následující:

Snímek obrazovky: klíče a umístění koncového bodu v Azure Portal.

Rozpoznávání formulářů – Studio (Preview)

Poznámka

Nástroj pro rozpoznávání formulářů je k dispozici v rozhraní API Preview (v 3.0).

  1. Na domovské stránce studia pro rozpoznávání formulářů vyberte vlastní formulář.

  2. V části projekty vyberte + vytvořit projekt.

  3. Vyplňte pole Project Details .

  4. Nakonfigurujte prostředek služby.

  5. přidejte svůj účet Storage a kontejner objektů Blob , abyste Připojení svůj školicí zdroj dat.

  6. Zkontrolujte a vytvořte svůj projekt.

  7. K dispozici je sada ukázkových dokumentů pro sestavení a otestování vlastního modelu.

Ukázkový nástroj pro popisky

Budete potřebovat sadu alespoň šesti forem stejného typu. Tato data použijete ke školení modelu a testování formuláře. Můžete použít naši ukázkovou datovou sadu. stáhněte a extrahujte sample_data.zip a pak obsah nahrajte do svého kontejneru Azure Blob Storage.

V uživatelském rozhraní pro rozpoznávání formulářů:

  1. Na domovské stránce nástroje pro popis popisků vyberte použít vlastní pro výuku modelu s popisky a získejte páry klíč-hodnota.

    Snímek obrazovky: FOTTtool výběr vlastní možnosti

  2. V dalším okně vyberte Nový projekt:

    Snímek obrazovky: FOTTtools vyberte nový projekt.

    Podrobnější pokyny najdete v našem rychlém startu k nástroji Sample labeling .

Požadavky na vstup

  • Nejlepších výsledků dosáhnete, když zadáte jednu z jasných fotografií nebo vysoce kvalitní kontrolu na dokument.

  • Podporované formáty souborů: JPEG, PNG, BMP, TIFF a PDF (text – vložený nebo naskenovaný). Soubory PDF vložené do textu jsou nejvhodnější pro odstranění možnosti chyby při extrakci a umístění znaků.

  • Pro PDF a TIFF se dají zpracovat až 2000 stránek (s předplatným úrovně Free, zpracovávají se jenom první dvě stránky).

  • Velikost souboru musí být menší než 50 MB.

  • Rozměry obrázku musí být mezi 50 × 50 pixelů a 10000 × 10000 pixelů.

  • Rozměry PDF jsou až 17 × 17 palců, které odpovídají právnímu nebo a3 velikosti papíru nebo jsou menší.

  • Celková velikost školicích dat je 500 stránek nebo méně.

  • Pokud jsou vaše soubory PDF zamčené heslem, je nutné před odesláním odebrat zámek.

  • Pro bezdohledový Learning (bez označení dat):

    • Data musí obsahovat klíče a hodnoty.
    • Klíče se musí nacházet nad nebo nalevo od hodnot. nemůžou se zobrazit níže nebo vpravo.

    Tip

    Data pro trénink

    • Pokud je to možné, používejte textové dokumenty PDF namísto dokumentů na základě obrázků. Naskenované soubory PDF jsou zpracovávány jako obrázky.
    • Pro vyplněné formuláře použijte příklady, které mají všechna jejich pole vyplněna.
    • Používejte formuláře s různými hodnotami v každém poli.
    • Pokud jsou obrázky z formuláře nižší kvality, použijte větší sadu dat (například obrázek 10-15).

Poznámka

Nástroj pro označování ukázkových popisků nepodporuje formát souboru BMP. Toto je omezení nástroje, který není službou pro rozpoznávání formulářů.

Podporované jazyky a národní prostředí

Verze Preview nástroje pro rozpoznávání formulářů přináší další jazykovou podporu pro vlastní modely. Úplný seznam podporovaného rukopisného a tištěného textu najdete v naší jazykové podpoře .

Verze Preview nástroje pro rozpoznávání formulářů v 3.0

Nástroj pro rozpoznávání formulářů v 3.0 (Preview) zavádí několik nových funkcí a možností:

  • Rozhraní API vlastního modelu (v 3.0) podporuje detekci podpisu pro vlastní formuláře. Při výuce vlastních modelů můžete určit určitá pole jako signatury. Když je dokument analyzován pomocí vlastního modelu, bude označovat, zda byl podpis zjištěn nebo nikoli.

  • Informace o použití verze Preview ve vašich aplikacích a pracovních postupech najdete v naší příručce Průvodce migrací pro rozpoznávání formulářů v 3.0 .

  • Podívejte se na naše REST API (Preview) , kde najdete další informace o verzi Preview a nových funkcích.

Vyzkoušet detekci podpisu

  1. Sestavte si sadu školicích dat.

  2. Přejděte do nástroje pro rozpoznávání formulářů a vyberte vlastní formulář v části vlastní modely:

    Snímek obrazovky: Studio pro rozpoznávání formulářů vyberte vlastní stránku formuláře.

  3. Použijte pracovní postup pro vytvoření nového projektu:

  4. Postupujte podle požadavků na vstup vlastního modelu.

  5. Označte své dokumenty. Pro pole signatury se doporučuje použít označení oblasti pro lepší přesnost.

  6. Označte své dokumenty. Pro pole signatury se doporučuje použít označení oblasti pro lepší přesnost.

    Snímek obrazovky: pole podpisu popisku

Po označení sady školení můžete svůj vlastní model analyzovat a použít ho k analýze dokumentů. Pole podpisu určují, zda byl podpis zjištěn nebo nikoli.

Další kroky