Formigenkänning layoutmodell

Azure Formigenkänning Layout-API:et extraherar text, tabeller, markeringsmarkeringar och strukturinformation från dokument (PDF, TIFF) och bilder (JPG, PNG, BMP). Layoutmodellen kombinerar en förbättrad version av våra kraftfulla OCR-funktioner (optisk teckenläsning) med djupinlärningsmodeller för att extrahera text, tabeller, markeringar och dokumentstruktur.

Exempelformulär som bearbetas Formigenkänning layoutfunktionen för exempeletikettverktyget

Skärmbild: Exempel på en gif för bearbetning av etiketteringsverktyget.

Funktioner för extrahering av data

Layoutmodell Extrahering av text Markeringsmarkeringar Tabeller
Layout

Utvecklingsalternativ

Följande resurser stöds av Formigenkänning v2.1:

Funktion Resurser
Layout-API

Följande resurser stöds av Formigenkänning v3.0:

Funktion Resurser Modell-ID
Layoutmodell förbyggd layout

Prova Formigenkänning

Se hur data, inklusive tabeller, kryssrutor och text, extraheras från formulär och dokument med hjälp av Formigenkänning Studio eller vårt exempeletikettverktyg. Du behöver följande:

  • En Azure-prenumeration – du kan skapa en kostnadsfritt

  • En Formigenkänning-instans i Azure Portal. Du kan använda den kostnadsfria prisnivån ( F0 ) för att prova tjänsten. När resursen har distribuerats väljer du Gå till resurs för att hämta API-nyckeln och slutpunkten.

Skärmbild: nycklar och slutpunktsplats i Azure Portal.

Formigenkänning Studio (förhandsversion)

Anteckning

Formigenkänning Studio är tillgängligt med FÖRHANDSVERSIONS-API:et (v3.0).

Exempelformulär som bearbetas med Formigenkänning Studio

Skärmbild: dokumentbearbetning i Formigenkänning Studio.

  1. På Formigenkänning Studio-startsidan väljer du Layout

  2. Du kan analysera exempeldokumentet eller välja knappen + Lägg till för att ladda upp ditt eget exempel.

  3. Välj knappen Analysera:

    Skärmbild: analysera layoutmenyn.

Exempel på märkningsverktyg

Du behöver ett formulärdokument. Du kan använda vårt exempelformulärdokument.

  1. På startsidan för exempeletikettverktyget väljer du Använd layout för att hämta text, tabeller och markeringar.

  2. Välj Lokal fil på den nedrullningsbara menyn.

  3. Upload filen och välj Kör layout

    Skärmbild: Skärmbild: Listrutan för exempeletikettverktygets meny för val av filkälla.

Indatakrav

  • Ge bästa resultat genom att tillhandahålla ett tydligt foto eller genomsökning av hög kvalitet per dokument.
  • Filformat som stöds: JPEG, PNG, BMP, TIFF och PDF (textbäddad eller skannad). Text-inbäddade PDF-filer är bäst för att eliminera risken för fel vid extrahering av tecken och plats.
  • För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en kostnadsfri nivåprenumeration bearbetas bara de första två sidorna).
  • Filstorleken måste vara mindre än 50 MB.
  • Bilddimensionerna måste vara mellan 50 x 50 bildpunkter och 1 0 000 x 1 0 000 bildpunkter.
  • PDF-måtten är upp till 17 x 17 tum, vilket motsvarar pappersstorleken Juridiskt eller A3 eller mindre.
  • Den totala storleken på träningsdata är 500 sidor eller mindre.
  • Om dina PDF-filer är lösenordslåsta måste du ta bort låset innan du skickar in det.
  • För oövervakad inlärning (utan märkta data):
    • Data måste innehålla nycklar och värden.
    • Nycklarna måste visas ovanför eller till vänster om värdena. de kan inte visas nedan eller till höger.

Anteckning

Exempeletikettverktyget stöder inte BMP-filformatet. Det här är en begränsning för verktyget, inte Formigenkänning Service.

Språk och språk som stöds

Formigenkänning förhandsversionen introducerar ytterligare språkstöd för layoutmodellen. Se vår språksupport för en fullständig lista över handskriven och tryckt text som stöds.

Funktioner

Tabeller och tabellrubriker

Layout-API extraherar tabeller i avsnittet pageResults i JSON-utdata. Dokument kan skannas, fotograferas eller digitaliseras. Tabeller kan vara komplexa med sammanfogade celler eller kolumner, med eller utan kantlinjer och med udda vinklar. Extraherad tabellinformation innehåller antalet kolumner och rader, radintervall och kolumnintervall. Varje cell med sin begränsningsruta matas ut tillsammans med information om den identifieras som en del av en rubrik eller inte. Modellens förutsagda rubrikceller kan sträcka sig över flera rader och är inte nödvändigtvis de första raderna i en tabell. De fungerar också med roterade tabeller. Varje tabellcell innehåller också den fullständiga texten med referenser till de enskilda orden i readResults avsnittet.

Utdata för layouttabellrubriker

Markeringsmarkeringar

Layout-API extraherar också markeringar från dokument. Extraherade markeringar inkluderar markeringsrutan, konfidensen och tillståndet (markerat/avmarkerat). Markeringsinformation extraheras i avsnittet readResults i JSON-utdata.

Utdata för markering av layout

Textrader och ord

Layout-API:et extraherar text från dokument och bilder med flera textvinklar och färger. Den accepterar foton av dokument, fax, tryckt och/eller handskriven text (endast engelska) och blandade lägen. Text extraheras med information om rader, ord, avgränsade rutor, förtroendepoäng och stil (handskriven eller annan). All textinformation ingår i avsnittet readResults i JSON-utdata.

Utdata för layouttextuttrahering

Naturlig läsordning för textrader (endast latinsk)

Du kan ange i vilken ordning textraderna ska matas ut med readingOrder frågeparametern. Använd natural för mer användarvänliga läsordningsutdata som du ser i följande exempel. Den här funktionen stöds endast för latinska språk.

Exempel på layoutläsningsordning

Handskriven klassificering för textrader (endast latinsk)

Svaret omfattar klassificering av om varje textrad har handskriftsstil eller inte, tillsammans med en förtroendepoäng. Den här funktionen stöds endast för latinska språk. I följande exempel visas den handskrivna klassificeringen för texten i bilden.

exempel på handskriftsklassificering

Välj sidnummer eller intervall för extrahering av text

För stora dokument med flera sidor använder du pages frågeparametern för att ange specifika sidnummer eller sidintervall för extrahering av text. I följande exempel visas ett dokument med 10 sidor, med text extraherad för båda fallen – alla sidor (1–10) och valda sidor (3–6).

Layout för utdata för valda sidor

Formigenkänning förhandsversion v3.0

I Formigenkänning förhandsversionen introduceras flera nya funktioner.

Nästa steg