Co je nového v Azure Rozpoznávání formulářů

Rozpoznávání formulářů se průběžně aktualizuje. Přidejte si tuto stránku do záložek, abyste si udržte aktuální zprávu k vydání verze, vylepšení funkcí a aktualizace dokumentace.

Říjen 2021

Rozpoznávání formulářů nové verze Preview

Rozpoznávání formulářů verze Preview přináší několik nových funkcí a možností:

  • Obecný model dokumentu je nové rozhraní API, které používá předem natrénovaný model k extrakci textu, tabulek, struktur, párů klíč-hodnota a pojmenovaných entit z formulářů a dokumentů.

  • Do předem připravených zpracování účtenek se přidal model účtenky v hotelu.

  • Rozbalená pole pro dokument ID, u které model ID podporuje doporučení, omezení a extrakci klasifikace vozidel z licencí řidičů v USA.

  • Pole Podpisu je nový typ pole ve vlastních formulářích, který rozpozná přítomnost podpisu v poli formuláře.

  • Rozšíření jazyka Podpora 122 jazyků (tisk) a 7 jazyků (ručně psaných). Rozpoznávání formulářů a vlastní formulář rozšiřují podporované jazyky na verzi 122 s nejnovější verzí Preview. To zahrnuje extrakci textu pro tisk textu ve 49 nových jazycích, včetně ruštiny, ruštiny a dalších cyrilice a dalších latinských jazyků. Kromě extrakce rukou psaného textu teď podporuje 7 jazyků, které zahrnují angličtinu, a nové verze Preview pro zjednodušenou čínštinu, francouzštinu, němčinu, italštinu, portugalštinu a španělštinu.

  • Vylepšení tabulek a extrakce textu Rozložení teď podporuje extrahování tabulek s jedním řádkem, které se také nazývají tabulky klíč-hodnota. Mezi vylepšení extrakce textu patří lepší zpracování digitálních souborů PDF a textu v dokumentech identit mrZ (Machine Readable Zone) společně s obecným výkonem.

  • Rozpoznávání formulářů Studio Pro zjednodušení používání této služby teď můžete získat přístup k Rozpoznávání formulářů Studiu a otestovat různé předem sestavené modely nebo označit a vytrénovat vlastní model.

Zahlédněte se do nové sady REST API, Python nebo .NET SDK pro rozhraní API verze 3.0 Preview.

Rozpoznávání formulářů extrakce dat modelu

Modelování Extrakce textu Páry klíč-hodnota Značky výběru Tabulky Entity
🆕Obecný dokument
Layout
Faktura
Příjmu
Dokument ID
Vizitka
Vlastní

Září 2021

  • Pokročilé funkce Průzkumníka metrik Azure jsou k dispozici na Rozpoznávání formulářů přehledu prostředků v Azure Portal.

    Nabídka Monitorování

    Snímek obrazovky znázorňující nabídku monitorování v Azure Portal

    Grafy

    Snímek obrazovky znázorňující příklad grafu metrik v Azure Portal

  • Aktualizace modelu dokumentu ID: dané názvy včetně přípony s tečkou nebo bez tečky (úplné zastavení), proces je úspěšný:

    Vstupní text Výsledek s aktualizací
    William Isaac Kirby Jr. Jméno: Petr Petr

    Příjmení: Kirby Jr.
    Předáte CalebOvi Sr. FirstName: Nejdřív Caleb

    Příjmení: Sr

Červenec 2021

Podpora spravované identity přiřazené systémem

Teď můžete spravované identitě přiřazené systémem povolit udělit omezený přístup k účtům privátního úložiště, včetně účtů chráněných službou Virtual Network (VNet) nebo bránou firewall nebo povolení funkce Přineste si vlastní úložiště (BYOS). Rozpoznávání formulářů Další informace najdete v tématu Vytvoření a použití spravované Rozpoznávání formulářů prostředku.

Červen 2021

Rozpoznávání formulářů kontejnery verze 2.1 vydané v bráně Preview

Rozpoznávání formulářů teď podporuje šest kontejnerů funkcí – Rozložení, **Vizitka,**Dokument ID, Účtenka, Faktura a Vlastní. Pokud je chcete použít, musíte odeslat online žádosta přijmout schválení.

Viz Instalace a spuštění kontejnerů Dockeru pro Rozpoznávání formulářů a Konfigurace kontejnerů Rozpoznávání formulářů.

Rozpoznávání formulářů konektor vydaný ve verzi Preview

Konektor Rozpoznávání formulářů se integruje s Azure Logic Apps, Microsoft Power Automatea Microsoft Power Apps. Konektor podporuje akce pracovních postupů a triggery pro extrakci a analýzu dat a struktury dokumentů z vlastních a předem připravených formulářů, faktur, účtenek, vizitk a dokumentů ID.

Rozpoznávání formulářů sdk v3.1.0 opravené na verzi 3.1.1 pro C#, Javu a Python

Oprava řeší faktury, které nemají detekovaná pole pod řádkové položky, například s , FormField ale bez informací nebo Text BoundingBox Page .

Květen 2021

Rozpoznávání formulářů obecně dostupné rozhraní API verze 2.1

  • Rozpoznávání formulářů 2.1 je obecně dostupná. Tato všeobecně dostupné verze označuje stabilitu změn zavedených v předchozích verzích balíčků Preview verze 2.1. Tato verze umožňuje zjišťovat a extrahovat informace a data z následujících zdrojů:

  • Dokumenty

  • Účtenky

  • Vizitky

  • Faktury

  • Dokumenty identity

  • Vlastní formuláře

Začínáme

Přejděte do ukázkového nástroje pro rozpoznávání formulářů a postupujte podle pokynů pro rychlý Start .

Rozložení přidá záhlaví tabulky

Funkce tabulky aktualizovaného rozložení rozhraní API přidává rozpoznávání záhlaví se záhlavími sloupců, které mohou být rozloženy do více řádků. Každá buňka tabulky má atribut, který označuje, zda je součástí záhlaví nebo nikoli. Tato možnost slouží k určení, které řádky tvoří záhlaví tabulky.

Aktualizace sady SDK

| Referenční dokumentace | verze balíčku NuGet 3.0.1 |

Neprůlomové změny

  • Třída FormRecognizerModelFactory nyní podporuje aktualizace TextAppearance a ReadingOrder a odebírání modelů vytvořil systém . Zobrazit přerušující změny

Průlomové změny (květen)

  • Klient je ve výchozím nastavení nejnovější podporovanou verzí služby, aktuálně v 2.1. Ve vlastnosti verze objektu FormRecognizerClientOptions můžete zadat verzi 2,0.

  • StartRecognizeIdentityDocuments. Přejmenované metody a parametry metod pomocí identity k nahrazení klíčového slova ID pro všechny související funkce rozhraní API pro rozpoznávání dokumentů identity

  • FormReadingOrder. ReadingOrder přejmenován na FormReadingOrder.

  • AsCountryRegion. AsCountryCode přejmenován na AsCountryRegion.

  • TextAppearance nyní obsahuje vlastnosti style a StyleConfidence (dřív část objektu vytvořil systém ).

  • FieldValueType. Z modelu se odebrala hodnota pohlaví .

  • Model vytvořil systém se odebral.

  • Typ FieldValueGender se odebral.

Duben 2021

SDK Preview aktualizace pro rozhraní API verze 2,1-Preview. 3

verze balíčku NuGet 3.1.0 – beta. 4

  • Nové metody analýzy dat z identit dokumentů:

    StartRecognizeIdDocumentsFromUriAsync

    StartRecognizeIdDocumentsAsync

    Seznam hodnot polí najdete v části pole extrahovaná v dokumentaci ke službě pro rozpoznávání formulářů.

  • Rozšířila se sada jazyků dokumentu, které lze poskytnout metodě StartRecognizeContent .

  • Nová vlastnost Pages podporovaná následujícími třídami:

    RecognizeBusinessCardsOptions
    RecognizeCustomFormsOptions
    RecognizeInvoicesOptions
    RecognizeReceiptsOptions

    Vlastnost umožňuje vybrat jednotlivé stránky nebo rozsah stránek pro vícestránkové dokumenty Pages PDF a TIFF. Pro jednotlivé stránky zadejte číslo stránky, například 3 . Pro rozsah stránek (například stránky 2 a stránky 5–7) zadejte věková čísla a rozsahy p oddělené čárkami: 2, 5-7 .

  • Nová vlastnost ReadingOrder podporovaná pro následující třídu:

    RecognizeContentOptions

    Vlastnost je volitelný parametr, který umožňuje určit, který algoritmus pořadí čtení – nebo – by se měl použít k řazení extrakce ReadingOrder basic natural textových prvků. Pokud není zadaný, výchozí hodnota je basic .

Rozbíjení změn (duben)

  • Klient ve výchozím nastavení používá nejnovější podporovanou verzi služby, která je aktuálně 2.1-preview.3.

  • Metoda StartRecognizeCustomForms teď při RequestFailedException() předávce neplatného souboru vyvolá výjimku .

Březen 2021

Rozpoznávání formulářů je teď k dispozici verze Public Preview 3 verze 2.1. Vydali jsme verzi v2.1-preview.3, včetně následujících funkcí:

  • Nový předem připravený model ID Nový předem připravený model ID umožňuje zákazníkům převezměte ID a vracet strukturovaná data pro automatizaci zpracování. Kombinuje naše výkonné funkce optického rozpoznávání znaků (OCR) s modely rozpoznávání ID a extrahuje klíčové informace z cestovních pasů a řidičských licencí USA, jako je jméno, datum narození, datum vydání, datum vypršení platnosti a další.

    Další informace o předem sestavených modelech ID

    Příklad passportu

  • Extrakce řádkové položky pro model faktur – předem připravený model faktur teď podporuje extrakci řádkové položky. Teď extrahuje úplné položky a jejich části – popis, množství, množství, ID produktu, datum a další. Pomocí jednoduchého volání rozhraní API nebo sady SDK můžete extrahovat užitečná data z faktur – text, tabulka, páry klíč-hodnota a řádkové položky.

    Další informace o modelu faktur

  • Označování tabulek pod dohledem a trénování, označování prázdnými hodnotami – kromě moderních funkcí automatické extrakce tabulek hlubokého učení v Rozpoznávání formulářů teď zákazníkům umožňuje označovat popisky a trénovat na tabulkách. Tato nová verze zahrnuje možnost označovat popisky a trénovat na řádkové nebo tabulkové položky (dynamické a pevné) a vytrénovat vlastní model tak, aby extrahooval páry klíč-hodnota a řádkové položky. Po vytrénování modelu bude model extrahovat řádkové položky jako součást výstupu JSON v části documentResults.

    Popisování tabulek

    Kromě popisování tabulek teď můžete označit prázdné hodnoty a oblasti. Pokud některé dokumenty ve vaší trénovací sadě nemají hodnoty pro určitá pole, můžete je označit, aby váš model věděl, že má správně extrahovat hodnoty z analyzovaných dokumentů.

  • Podpora 66 nových jazyků – Rozhraní API pro rozložení a vlastní modely pro Rozpoznávání formulářů teď podporují 73 jazyků.

    Další informace o podpoře jazyka pro rozpoznávání formulářů

  • Přirozené pořadí čtení, klasifikace rukopisu a výběr stránky – pomocí této aktualizace se můžete rozhodnout, že se mají načíst výstupy textových řádků v přirozeném pořadí čtení namísto výchozího řazení zleva doprava a shora dolů. Použijte nový parametr dotazu readingOrder a nastavte jej na "přirozený" hodnotu pro přesnější výstup pořadí čtení. Pro jazyky v latince navíc Nástroj pro rozpoznávání formulářů klasifikuje textové řádky jako ručně psaný styl, nikoli a poskytuje hodnocení spolehlivosti.

  • Předem připravená vylepšení kvality modelu příjmu Tato aktualizace zahrnuje mnoho vylepšení kvality pro předem sestavený model příjmu, zejména kolem extrakce položky řádku.

Listopad 2020

Nové funkce

Nástroj pro rozpoznávání formulářů v 2.1 Public Preview 2 je nyní k dispozici. verze 2.1-Preview. 2 byla vydaná, včetně následujících funkcí:

  • Nový předem sestavený model faktury – nový předem sestavený model faktury zákazníkům umožňuje přebírat faktury v různých formátech a vracet strukturovaná data pro automatizaci zpracování faktury. Kombinuje naše výkonné funkce optického rozpoznávání znaků (OCR) s fakturací s porozuměním modelem obsáhlého učení pro extrakci klíčových informací z faktur v angličtině. Extrahuje text, tabulky a informace o klíčovém textu, jako je například zákazník, dodavatel, ID faktury, datum splatnosti faktury, celková částka, splatné částky, částka daně, odeslání do a Fakturovatelné.

    Další informace o předem vytvořeném modelu faktury

    Příklad faktury

  • Vylepšená extrakce tabulky – Nástroj pro rozpoznávání formulářů teď nabízí rozšířenou extrakci tabulky, která kombinuje naše výkonné funkce optického rozpoznávání znaků (OCR) s modelem extrakce tabulky hloubkového učení. Nástroj pro rozpoznávání formulářů může extrahovat data z tabulek, včetně složitých tabulek se sloučenými sloupci, řádky, bez ohraničení a další.

    Příklad tabulek

    Další informace o extrakci rozložení

  • Aktualizace klientské knihovny – nejnovější verze klientských knihoven pro .NET, Python, Java a JavaScript podporují rozhraní API pro rozpoznávání formulářů 2,1.

  • Podporován nový jazyk: japonština : nyní jsou podporovány následující nové jazyky: pro AnalyzeLayout a AnalyzeCustomForm : japonština ( ja ). Podpora jazyků

  • Označení stylu čáry textu (ručně psané) (jenom v jazycích Latin) – Nástroj pro rozpoznávání formulářů teď vytvoří výstup appearance objektu, který klasifikuje, jestli je každý textový řádek v rukopisu, nebo ne, společně s skóre spolehlivosti. Tato funkce je podporovaná jenom pro jazyky v latince.

  • Vylepšení kvality – vylepšení extrakce, včetně vylepšení pro extrakci s jednou číslicí.

  • Nová funkce try-to-out v nástroji pro rozpoznávání formulářů a nástroj pro popisování – schopnost vyzkoušet předem připravené modely faktur, příjmů a obchodních karet a rozhraní API rozložení pomocí nástroje pro vzorkování ukázek pro rozpoznávání formulářů. Podívejte se, jak budou data extrahována bez psaní kódu.

    Vyzkoušejte nástroj pro označování ukázkových popisků pro rozpoznávání formulářů

    Snímek obrazovky: ukázkový nástroj pro popisky.

  • Smyčka zpětné vazby – při analýze souborů prostřednictvím nástroje pro označování ukázek se teď můžete přidat i do sady školení a v případě potřeby upravit štítky a vytvořit výuku pro zlepšení modelu.

  • Automatické označování dokumentů – automaticky označí další dokumenty na základě předchozích označených dokumentů v projektu.

Srpen 2020

Nové funkce

Verze Public Preview pro rozpoznávání formulářů v 2.1 je nyní k dispozici. Verze 2.1-Preview. 1 byla uvolněna, včetně následujících funkcí:

  • Odkaz na REST API je k dispozici – Podívejte se na odkaz v 2.1-Preview. 1.
  • Nové jazyky podporované kromě angličtiny jsou teď podporované tyto jazyky : pro Layout a Train Custom Model : angličtina ( en ), čínština (zjednodušená) ( zh-Hans ), holandština ( nl ), francouzština (), fr němčina (), de italština () it , portugalština () pt a španělština ( es ).
  • Detekce značek zaškrtnutí nebo výběru – Nástroj pro rozpoznávání formulářů podporuje detekci a extrakci značek výběru, jako jsou zaškrtávací políčka a přepínače. Značky výběru jsou extrahovány v Layout a nyní můžete také označovat popisky a vlaky v Train Custom Model - vlakech pomocí popisků pro extrakci párů klíč-hodnota pro značky výběru.
  • Vytváření modelů – umožňuje sestavit více modelů a volat je pomocí jediného ID modelu. Při odeslání dokumentu, který má být analyzován pomocí složeného ID modelu, je nejprve proveden krok klasifikace, který bude směrován do správného vlastního modelu. Vytváření modelů je k dispozici pro Train Custom Model - vlaky s popisky.
  • Název modelu – přidejte do vlastních modelů popisný název pro snazší správu a sledování.
  • Nový předem sestavený model pro vizitky pro extrakci společných polí v angličtině, jazykových obchodních karet.
  • Nové národní prostředí pro předem připravené příjmy kromě en-US je teď k dispozici pro en-au, en-CA, en-GB, EN-in.
  • Vylepšení kvality pro Layout , Train Custom Model - výuku bez popisků a vlaků s popisky.

v 2.0 zahrnuje následující aktualizaci:

Nové ukázky jsou k dispozici na GitHub.

Červenec 2020

Nové funkce

  • dostupné reference v 2.0 – Podívejte se na Reference k rozhraní API v 2.0 a aktualizované sady SDK pro .NET, Python, Javaa JavaScript.

  • Vylepšení tabulek a vylepšení extrakce – obsahuje vylepšení přesnosti a vylepšení extrahování tabulek, konkrétně možnost učit se záhlaví a struktury tabulek ve vlastním vlaku bez popisků.

  • Podpora měny – detekce a extrakce globálních symbolů měn.

  • Azure gov – Nástroj pro rozpoznávání formulářů je teď dostupný i v Azure gov.

  • Rozšířené funkce zabezpečení:

    • Přineste si vlastní Nástroj pro rozpoznávání vlastního klíče, který vaše data automaticky šifruje, když jsou trvale chráněná v cloudu, a pomůžou vám splnit závazky zabezpečení a dodržování předpisů vaší organizace. Vaše předplatné ve výchozím nastavení používá šifrovací klíče spravované Microsoftem. Vaše předplatné teď můžete spravovat i s vlastními šifrovacími klíči. Klíče spravované zákazníkem, označované také jako Přineste si vlastní klíč (BYOK), nabízejí větší flexibilitu při vytváření, střídání, zakázání a odvolávání řízení přístupu. Šifrovací klíče sloužící k ochraně vašich dat můžete také auditovat.
    • Soukromé koncové body – umožňují vám ve virtuální síti zabezpečený přístup k datům prostřednictvím privátního propojení.

Červen 2020

Nové funkce

Duben 2020

Nové funkce

  • Podpora sady SDK pro rozhraní API pro rozpoznávání formulářů v 2.0 Public Preview – tento měsíc rozšířili jsme podporu naší služby tak, aby ZAHRNOVALA sadu SDK verze Preview pro vydaný formulář pro rozpoznávání formulářů v 2.0 (Preview). Pomocí odkazů níže můžete začít s jazykem, který si vyberete:

    Nová sada SDK podporuje všechny funkce REST API v 2.0 pro rozpoznávání formulářů. Můžete například vytvořit model s nebo bez popisků a extrahovat text, páry klíčových hodnot a tabulky z formulářů, extrahovat data z účtenek pomocí předem připravené služby příjem a extrahovat text a tabulky pomocí služby rozvržení z vašich dokumentů. Svůj názor na sady SDK můžete sdílet prostřednictvím formuláře zpětné vazby SDK.

  • Kopírovat vlastní model Nyní můžete kopírovat modely mezi oblastmi a odběry pomocí funkce nový vlastní model kopírování. Před vyvoláním rozhraní API pro kopírování vlastního modelu je nutné nejprve získat autorizaci pro kopírování do cílového prostředku voláním operace kopírování do cílového koncového bodu prostředku.

Vylepšení zabezpečení

Březen 2020

Nové funkce

  • Typy hodnot pro popisky Nyní můžete určit typy hodnot, na které přiřadíte, pomocí nástroje pro rozpoznávání popisků ve formě. V současné době jsou podporovány následující typy hodnot a variace:

    • string
      • výchozí, no-whitespaces , alphanumeric
    • number
      • výchozí currency
    • date
      • výchozí, dmy , mdy , ymd
    • time
    • integer

    Informace o tom, jak používat tuto funkci, najdete v průvodci ukázkami popisků .

  • Vizualizace tabulky Nástroj pro vzorkování popisků teď zobrazuje tabulky, které byly rozpoznané v dokumentu. Tato funkce umožňuje zobrazit tabulky, které byly rozpoznány a extrahovány z dokumentu před popisky a analýzou. Tuto funkci můžete zapnout nebo vypnout pomocí možnosti vrstvy.

    Následující obrázek je příkladem způsobu, jakým jsou tabulky rozpoznány a extrahovány:

    Vizualizace tabulky pomocí nástroje Sample labeling

    Extrahované tabulky jsou k dispozici ve výstupu JSON pod "pageResults" .

    Důležité

    Tabulky popisků se nepodporují. Pokud se tabulky nerozpoznají a extrated automaticky, můžete je označit jenom jako páry klíč/hodnota. Při označování tabulek jako párů klíč/hodnota označte každou buňku jako jedinečnou hodnotu.

Vylepšení extrakce

Tato verze zahrnuje vylepšení a vylepšení přesnosti extrakce, konkrétně možnost označovat a extrahovat více párů klíč/hodnota na stejném řádku textu.

Ukázka labeling Tool je teď Open-Source.

Nástroj pro vyznačení ukázky pro rozpoznávání formulářů je teď dostupný jako open source projekt. Můžete ji integrovat v rámci svých řešení a provádět změny specifické pro konkrétní zákazníky, které odpovídají vašim potřebám.

Další informace o nástroji pro označování ukázek na základě rozpoznávání formulářů najdete v dokumentaci k dispozici v GitHub.

Vynucení protokolu TLS 1.2

Pro všechny požadavky HTTP na tuto službu se teď vynutilo TLS 1,2. Další informace najdete v tématu zabezpečení Azure Cognitive Services.

Leden 2020

Tato verze zavádí nástroj pro rozpoznávání formulářů 2,0 (Preview). V následujících částech najdete další informace o nových funkcích, vylepšeních a změnách.

Nové funkce

  • Vlastní model

    • Výuka s popisky Nyní můžete vytvořit vlastní model s ručně označenými daty. Tato metoda vede k lepšímu provádění modelů a může vydávat modely, které pracují se složitými formuláři nebo formuláři obsahujícími hodnoty bez klíčů.
    • Asynchronní rozhraní API Asynchronní volání rozhraní API můžete použít ke školení a analýze velkých datových sad a souborů.
    • Podpora souborů TIFF Nyní můžete data z dokumentů TIFF vyškolit a extrahovat.
    • Vylepšení přesnosti extrakce
  • Předem sestavený model příjmu

    • Částky hrotu Nyní můžete extrahovat množství tipů a další ručně psané hodnoty.
    • Extrakce položky řádku Můžete extrahovat hodnoty položek řádků z příjmů.
    • Hodnoty spolehlivosti U každé extrahované hodnoty můžete zobrazit důvěru modelu.
    • Vylepšení přesnosti extrakce
  • Extrakce rozložení Rozhraní API pro rozložení teď můžete použít k extrakci textových dat a tabulkových dat z vašich formulářů.

Změny rozhraní API vlastního modelu

Všechna rozhraní API pro školení a používání vlastních modelů byla přejmenována a některé synchronní metody jsou nyní asynchronní. Níže jsou uvedené zásadní změny:

  • Proces školení modelu je nyní asynchronní. Zahájíte školení prostřednictvím volání rozhraní /Custom/Models API. Toto volání vrátí ID operace, kterou můžete předat vlastním/modelům/{modelID} a vrátit výsledky školení.
  • Extrakce klíč/hodnota je nyní iniciována voláním rozhraní API /Custom/Models/{modelID}/Analyze . Toto volání vrátí ID operace, kterou můžete předat vlastním/modelům/{modelID}/analyzeResults/{hodnotu resultid} a vrátit výsledky extrakce.
  • ID operací pro operaci vlaku se nyní nacházejí v hlavičce umístění odpovědí HTTP, nikoli v hlavičce umístění operace .

Změny rozhraní API pro příjem

Rozhraní API pro čtení prodejních příjmů bylo přejmenováno.

  • Extrakce dat pro příjem se teď iniciuje voláním rozhraní API /prebuilt/Receipt/Analyze . Toto volání vrátí ID operace, kterou můžete předat do /prebuilt/Receipt/analyzeResults/{resultID} a vrátit výsledky extrakce.

Změny formátu výstupu

Odpovědi JSON pro všechna volání rozhraní API mají nové formáty. Některé klíče a hodnoty byly přidány, odebrány nebo přejmenovány. Příklady aktuálních formátů JSON najdete v rychlých startech.

Další kroky

Dokončete rychlý Start , abyste mohli začít psát aplikaci zpracovávající formuláře pomocí nástroje pro rozpoznávání formulářů ve vývojovém jazyce podle vašeho výběru.

Viz také