Začínáme s ukázkovým nástrojem pro popisování
Azure Rozpoznávání formulářů je cloudová služba Azure Applied AI Service, která pomocí modelů strojového učení extrahuje a analyzuje pole formuláře, text a tabulky z vašich dokumentů. Pomocí nástroje Rozpoznávání formulářů automatizovat zpracování dat v aplikacích a pracovních postupech, vylepšovat strategie řízené daty a rozšiřovat možnosti vyhledávání dokumentů.
Nástroj Rozpoznávání formulářů Sample Labeling je nástroj open source, který umožňuje otestovat nejnovější funkce služeb Azure Rozpoznávání formulářů a optického rozpoznávání znaků (OCR):
Analyzujte dokumenty pomocí rozhraní LAYOUT API. Vyzkoušejte rozhraní API pro rozložení a extrahujte z dokumentů text, tabulky, značky výběru a strukturu.
Analýza dokumentů pomocí předem sestavených modelů Začněte předem připraveným modelem, který extrahuje data z faktur, účtenek, dokumentů identit nebo z vizitk.
Trénování a analýza vlastního formuláře. Pomocí vlastního modelu můžete extrahovat data z dokumentů specifických pro odlišná obchodní data a případy použití.
Požadavky
Abyste začali, budete potřebovat následující:
Předplatné Azure – můžete si ho vytvořit zdarma.
Prostředek Cognitive Services nebo Rozpoznávání formulářů. Jakmile máte předplatné Azure, vytvořte prostředek služby s jednou nebo více Rozpoznávání formulářů ve službě Azure Portal a získejte svůj klíč a koncový bod. K vyzkoušejí služby můžete použít bezplatnou cenovou úroveň ( ) a později upgradovat
F0na placenou úroveň pro produkční prostředí.Tip
Pokud plánujete Cognitive Services více kognitivních služeb v rámci jednoho koncového bodu nebo klíče, vytvořte nový prostředek. Pro Rozpoznávání formulářů přístup vytvořte prostředek Rozpoznávání formulářů. Upozorňujeme, že pokud chcete použít ověřování pomocí služby , budete potřebovat Azure Active Directory službu.
Vytvoření Rozpoznávání formulářů prostředků
Přejít na Azure Portal a vytvořit nový prostředek pro rozpoznávání formulářů . V podokně vytvořit zadejte následující informace:
| Podrobnosti o projektu | Popis |
|---|---|
| Předplatné | Vyberte předplatné Azure, kterému bylo uděleno oprávnění k přístupu. |
| Skupina prostředků | Skupina prostředků Azure, která obsahuje váš prostředek. Můžete vytvořit novou skupinu nebo ji přidat do již existující skupiny. |
| Oblast | Umístění instance služby vyvnímání. Různá umístění můžou způsobit latenci, ale nemají žádný vliv na dostupnost vašeho prostředku za běhu. |
| Název | Popisný název prostředku. Doporučujeme použít popisný název, například MyNameFormRecognizer. |
| Cenová úroveň | Náklady na váš prostředek závisí na cenové úrovni, kterou si zvolíte, a na způsobu využití. Další informace najdete v podrobnostech o cenáchrozhraní API. |
Načtení klíče a koncového bodu
Když se dokončí nasazení prostředku pro rozpoznávání formulářů, vyhledejte ho a vyberte ze seznamu všechny prostředky na portálu. Klíč a koncový bod se umístí na stránku klíč a koncový bod prostředku v části Správa prostředků. Před tím, než budete pokračovat, uložte oba tyto složky do dočasného umístění.
Analýza s využitím předem sestavených modelů
Rozpoznávání formulářů na výběr několik předem připravených modelů. Každý model má vlastní sadu podporovaných polí. Model, který se má použít pro operaci analýzy, závisí na typu dokumentu, který se má analyzovat. Tady jsou předem sestavené modely, které aktuálně podporuje Rozpoznávání formulářů služby:
- Faktura:Extrahuje text, značky výběru, tabulky, páry klíč-hodnota a klíčové informace z faktur.
- Účtenka:Extrahuje z účtenek textové a klíčové informace.
- Dokument ID:Extrahuje textové a klíčové informace z řidičský průkaz a mezinárodních pasů.
- Vizitek:Extrahuje informace o textu a klíči z vizitek.
Přejděte k Rozpoznávání formulářů nástroje.
Na domovské stránce ukázkového nástroje vyberte Použít předem připravený model k získání dat.
V rozevíracím okně vyberte Typ formuláře, který chcete analyzovat.
Z následujících možností vyberte adresu URL souboru, který chcete analyzovat:
Do pole Zdroj: Adresa URL vložte vybranou adresu URL a vyberte tlačítko Načíst.
Do pole Koncový bod služby rozpoznávání formulářů vložte koncový bod, který jste získali pomocí Rozpoznávání formulářů předplatného.
Do pole Klíč rozhraní API vložte klíč předplatného, který jste získali z Rozpoznávání formulářů prostředku.
Vyberte Spustit analýzu. Nástroj Rozpoznávání formulářů ukázkového popisování bude volat rozhraní API analyze prebuilt a analyzovat dokument.
Podívejte se na výsledky – podívejte se na extrahované páry klíč-hodnota, řádkové položky, extrahovaný zvýrazněný text a zjištěné tabulky.
Stáhněte si výstupní soubor JSON a podívejte se na podrobné výsledky.
- Uzel readResults obsahuje každý řádek textu s příslušným umístěním ohraničovacího rámečku na stránce.
- Uzel selectionMarks zobrazuje všechny značky výběru (zaškrtávací políčko, přepínač) a to, jestli je jeho stav "vybraný" nebo "nevybraný".
- Oddíl "pageResults" zahrnuje extrahované tabulky. Pro každou tabulku se extrahuje index textu, řádku a sloupce, posouvání řádků a sloupců, ohraničující rámeček a další.
- Pole documentResults obsahuje informace o párech klíč/hodnota a informace o řádcích pro nejdůležitější části dokumentu.
Analýza rozložení
Rozhraní API Rozpoznávání formulářů Layout extrahuje text, tabulky, značky výběru a informace o struktuře z dokumentů (PDF, TIFF) a obrázků (JPG, PNG, BMP).
Přejděte k Rozpoznávání formulářů nástroje.
Na domovské stránce ukázkového nástroje vyberte Použít rozložení k získání textu, tabulek a značek výběru .
Do pole Koncový bod služby rozpoznávání formulářů vložte koncový bod, který jste získali pomocí Rozpoznávání formulářů předplatného.
Do pole Klíč rozhraní API vložte klíč předplatného, který jste získali z Rozpoznávání formulářů prostředku.
Do pole Zdroj: Adresa URL vložte následující adresu URL a
https://raw.githubusercontent.com/Azure-Samples/cognitive-services-REST-api-samples/master/curl/form-recognizer/layout-page-001.jpgvyberte tlačítko Načíst.Vyberte Rozložení spuštění. Nástroj Rozpoznávání formulářů ukázkového popisování bude volat rozhraní API pro analýzu rozložení a analyzovat dokument.
Podívejte se na výsledky – podívejte se na extrahovaný zvýrazněný text, zjištěné výběrové značky a zjištěné tabulky.
Stáhněte si výstupní soubor JSON a zobrazte podrobné výsledky rozložení.
- Uzel
readResultsobsahuje každý řádek textu s příslušným umístěním ohraničovacího rámečku na stránce. - Uzel
selectionMarkszobrazí všechny značky výběru (zaškrtávací políčko, přepínač) a to, jestli je jeho stav neboselectedunselected. - Oddíl
pageResultsobsahuje extrahované tabulky. Pro každou tabulku se extrahuje index textu, řádku a sloupce, posouvání řádků a sloupců, ohraničující rámeček a další.
- Uzel
Trénovat vlastní model formuláře
Vytrénujte vlastní model, abyste analyzovali a extrahoovali data z formulářů a dokumentů specifických pro vaši firmu. Toto rozhraní API je program strojového učení natrénovaný k rozpoznávání polí formulářů v rámci vašeho odlišného obsahu a extrahování párů klíč-hodnota a tabulkových dat. Abyste mohli začít, budete potřebovat alespoň pět příkladů stejného typu formuláře a vlastní model můžete trénovat s označenými datovými sadami nebo bez nich.
Požadavky pro trénování vlastního modelu formuláře
Kontejner Azure Storage objektů blob, který obsahuje sadu trénovací data. Ujistěte se, že jsou všechny trénovací dokumenty ve stejném formátu. Pokud máte formuláře v několika formátech, uspořádejte je do podsložek na základě společného formátu. Pro tento projekt můžete použít naši ukázkovou datovou sadu.
Konfigurace CORS
Cors (sdílení prostředků mezi zdroji) je potřeba nakonfigurovat ve vašem účtu úložiště Azure, aby byl přístupný z Rozpoznávání formulářů Studio. Pokud chcete CORS nakonfigurovat v Azure Portal, budete potřebovat přístup k okně CORS vašeho účtu úložiště.
Vyberte okno CORS pro účet úložiště.
Začněte vytvořením nové položky CORS v Blob service.
Možnost Povolené zdroje nastavte na https://formrecognizer.appliedai.azure.com .
Vyberte všechny dostupné 8 možností pro Povolené metody.
Schvalte všechny povolené hlavičky a vystavené hlavičky zadáním * do každého pole.
Nastavte Maximální věk na 120 sekund nebo libovolnou přijatelnou hodnotu.
Kliknutím na tlačítko Uložit v horní části stránky uložte změny.
CORS by teď mělo být nakonfigurované pro použití účtu úložiště z Rozpoznávání formulářů Studio.
Použití nástroje Ukázkové popisování
Přejděte k Rozpoznávání formulářů nástroje.
Na domovské stránce ukázkového nástroje vyberte Použít vlastní formulář k trénování modelu pomocí popisků a získání párů klíč-hodnota.
Vybrat Nový projekt
Vytvoření nového projektu
nakonfigurujte pole Project Nastavení s následujícími hodnotami:
Zobrazovaný název Pojmenujte projekt.
Token zabezpečení Každý projekt automaticky vygeneruje token zabezpečení, který lze použít k šifrování/dešifrování citlivých nastavení projektu. tokeny zabezpečení můžete v Nastavení aplikace najít tak, že vyberete ikonu ozubeného kolečka v dolní části levého navigačního panelu.
Zdrojové připojení. Nástroj pro označování popisků se připojuje ke zdroji (původní nahrané formuláře) a cíli (vytvořené popisky a výstupní data). Připojení je možné nastavit a sdílet mezi projekty. Používají model rozšiřitelného poskytovatele, takže můžete snadno přidat nové poskytovatele prostředků a cílů.
- Vytvořte nové připojení, vyberte tlačítko Přidat připojení . Vyplňte pole následujícími hodnotami:
- Zobrazovaný název Pojmenujte připojení.
- Popis: Přidejte stručný popis.
- Adresa URL SAS vložte adresu URL sdíleného přístupového podpisu (SAS) pro kontejner Azure Blob Storage.
pokud chcete načíst adresu URL SAS pro vlastní model data školení, přejděte na prostředek úložiště v Azure Portal a vyberte kartu Průzkumník služby Storage . přejděte do svého kontejneru, klikněte pravým tlačítkem myši a vyberte získat sdílený přístupový podpis. Je důležité získat SAS pro váš kontejner, ne pro samotný účet úložiště. Ujistěte se, že jsou zaškrtnuta oprávnění číst, zapisovat, Odstranit a seznam , a klikněte na tlačítko vytvořit. Pak zkopírujte hodnotu v oddílu Adresa URL do dočasného umístění. Měla by mít tento formát:
https://<storage account>.blob.core.windows.net/<container name>?<SAS value>.
Cesta ke složce (volitelné). Pokud se zdrojové formuláře nacházejí ve složce v kontejneru objektů blob, zadejte název složky.
Identifikátor URI služby pro rozpoznávání formulářů – adresa URL koncového bodu rozpoznávání formuláře.
Klíč rozhraní API. Klíč předplatného pro rozpoznávání formulářů
Verze rozhraní API. Ponechte hodnotu v 2.1 (výchozí).
Popis (volitelné). Popište svůj projekt.
Popisek formulářů
Při vytváření nebo otevírání projektu se otevře okno Editor hlavních značek. Editor značek se skládá ze tří částí:
- Podokno náhledu s možností změny velikosti, které obsahuje posuvný seznam formulářů ze zdrojového připojení.
- Hlavní podokno editoru, které umožňuje použít značky.
- Podokno editor značek umožňující uživatelům upravovat, zamykat, měnit pořadí a odstraňovat značky.
Identifikace textu a tabulek
Vyberte možnost spustit optické rozpoznávání znaků ve všech souborech v levém podokně a získejte informace o rozložení textu a tabulky pro každý dokument. Nástroj pro popisování vykreslí ohraničující rámečky kolem každého prvku textu.
Nástroj pro označování zobrazí také, které tabulky byly automaticky extrahovány. Vyberte ikonu tabulky nebo mřížky na levé straně dokumentu, aby se zobrazila extrahovaná tabulka. Vzhledem k tomu, že obsah tabulky je automaticky extrahován, nebudeme označovat obsah tabulky, ale místo toho bude spoléhat na automatizovanou extrakci.
Použít popisky na text
V dalším kroku vytvoříte značky (popisky) a použijete je na textové prvky, které má model analyzovat. Všimněte si, že Ukázková sada dat popisku zahrnuje již označená pole; přidáme další pole.
Pomocí podokna editor značek vytvořte novou značku, kterou chcete identifikovat:
Vyberte znaménko + plus a vytvořte novou značku.
Zadejte název značky "Total".
Vyberte ENTER a uložte značku.
V hlavním editoru vyberte v části zvýrazněný text hodnotu celková.
Vyberte značku celkem, která se má použít na hodnotu, nebo stiskněte odpovídající klávesovou zkratku. Číselné klíče se přiřazují jako klávesové zkratky pro prvních 10 značek. Můžete změnit pořadí značek pomocí ikon šipky nahoru a dolů v podokně editor značek.
Tip
Při označování formulářů mějte na paměti následující tipy:
Pro každý vybraný textový prvek lze použít pouze jednu značku.
Každou značku lze na stránce použít pouze jednou. Pokud se hodnota ve stejném formuláři objeví víckrát, vytvořte pro každou instanci různé značky. Například: "Faktura č. 1", "Faktura č. 2" atd.
Značky nemohou být rozloženy mezi stránkami.
Hodnoty popisků tak, jak se zobrazí ve formuláři; Nepokoušejte se rozdělit hodnotu do dvou částí se dvěma různými značkami. Například pole adresa musí být označeno s jednou značkou, i když pokrývá více řádků.
Nezahrnujte klíče do polí s příznakem — pouze hodnoty.
Data tabulky by měla být zjištěna automaticky a budou k dispozici v konečném výstupním souboru JSON v části "pageResults". Pokud se ale modelu nepovede detekovat všechna data tabulky, můžete také popsat a vytvořit model pro detekci tabulek, přečtěte si téma výuka vlastního modelu | Popisek formulářů
Pomocí tlačítek napravo od + můžete vyhledat, přejmenovat, změnit pořadí a odstranit značky.
Chcete-li odebrat použitou značku bez odstranění samotné značky, vyberte tagovaný obdélník v zobrazení dokumentu a stiskněte klávesu DELETE.
Pokračujte podle výše uvedených kroků a označte všechny pět forem v ukázkové datové sadě.
Trénování vlastního modelu
Kliknutím na ikonu výuka v levém podokně otevřete stránku školení. Pak vyberte tlačítko výuka a začněte s modelem školení. Po dokončení procesu školení se zobrazí následující informace:
ID modelu – ID modelu, který byl vytvořen a vyškolený. Každý školicí hovor vytvoří nový model s vlastním ID. Zkopírujte tento řetězec do zabezpečeného umístění; budete ho potřebovat, pokud chcete provést prediktivní volání prostřednictvím REST API nebo klientské knihovny.
Průměrná přesnost – Průměrná přesnost modelu Přesnost modelu můžete vylepšit tak, že označíte další formy a rekurzi a vytvoříte nový model. Doporučujeme začít tím, že budete připravovat pět forem pro analýzu a testování výsledků a pak v případě potřeby přidání dalších formulářů podle potřeby.
Seznam značek a předpokládaná přesnost na značku.
Analýza vlastního formuláře
Vyberte ikonu analyzovat (žárovka) na levé straně a otestujte svůj model.
Vyberte zdrojový místní soubor a vyhledejte soubor, který chcete vybrat z ukázkové datové sady, kterou jste rozzkoušeli v testovací složce.
Kliknutím na tlačítko Spustit analýzu získáte páry klíč/hodnota, text a tabulky předpovědi formuláře. Nástroj bude používat značky v ohraničujících polích a bude hlásit spolehlivost každé značky.
A to je vše! Seznámili jste se s tím, jak použít vzorový Nástroj pro rozpoznávání formulářů pro předem sestavené, rozložení a vlastní modely pro rozpoznávání formulářů. Seznámili jste se také s analýzou vlastního formuláře s ručně označenými daty. Nyní můžete vyzkoušet sadu SDK klientské knihovny pro rozpoznávání formulářů nebo REST API.