Formigenkänning anpassade och sammansatta modeller
Formigenkänning använder avancerad maskininlärningsteknik för att identifiera och extrahera information från dokumentbilder och returnera extraherade data i strukturerade JSON-utdata. Med Formigenkänning kan du träna fristående anpassade modeller eller kombinera anpassade modeller för att skapa sammansatta modeller.
Anpassade modeller. Formigenkänning anpassade modeller kan du analysera och extrahera data från formulär och dokument som är specifika för din verksamhet. Anpassade modeller tränas för dina distinkta data och användningsfall.
Består modeller. En skapad modell skapas genom att ta en samling anpassade modeller och tilldela dem till en enda modell som omfattar dina formulärtyper. När ett dokument skickas till en sammansatt modell utför tjänsten ett klassificeringssteg för att avgöra vilken anpassad modell som korrekt representerar formuläret som presenteras för analys.
Vad är en anpassad modell?
En anpassad modell är ett maskininlärningsprogram som har tränats att identifiera formulärfält i ditt distinkta innehåll och extrahera nyckel/värde-par och tabelldata. Du behöver bara fem exempel av samma formulärtyp för att komma igång och din anpassade modell kan tränas med eller utan märkta datauppsättningar.
Vad är en sammansatt modell?
Med sammansatta modeller kan du tilldela flera anpassade modeller till en skapad modell med namnet med ett enda modell-ID. Det är användbart när du har tränat flera modeller och vill gruppera dem för att analysera liknande formulärtyper. Den uppskrivna modellen kan till exempel innehålla anpassade modeller som tränats för att analysera dina inköpsordrar för leverans, utrustning och modeller. I stället för att manuellt försöka välja lämplig modell kan du använda en sammansatt modell för att fastställa lämplig anpassad modell för varje analys och extrahering.
Utvecklingsalternativ
Följande resurser stöds av Formigenkänning v2.1:
| Funktion | Resurser |
|---|---|
| Anpassad modell |
Följande resurser stöds av Formigenkänning v3.0:
| Funktion | Resurser |
|---|---|
| Anpassad modell |
Prova Formigenkänning
Se hur data extraheras från dina specifika eller unika dokument med hjälp av anpassade modeller. Du behöver följande:
En Azure-prenumeration – du kan skapa en utan kostnad
En Formigenkänning-instans i Azure Portal. Du kan använda den kostnadsfria prisnivån (
F0) för att prova tjänsten. När resursen har distribuerats väljer du Gå till resurs för att hämta API-nyckeln och slutpunkten.
Formigenkänning Studio (förhandsversion)
Anteckning
Formigenkänning Studio är tillgängligt med FÖRHANDSVERSIONS-API:et (v3.0).
På Formigenkänning Studio-startsidan väljer du Anpassat formulär.
Under Mina projekt väljer du + Skapa ett projekt.
Fyll i projektinformationsfälten.
Konfigurera tjänstresursen.
Lägg till Storage-konto och blobcontainer Anslut din träningsdatakälla.
Granska och skapa projektet.
En uppsättning exempeldokument har tillhandahållits för att du ska kunna skapa och testa din anpassade modell.
Exempel på märkningsverktyg
Du behöver en uppsättning med minst sex former av samma typ. Du använder dessa data för att träna modellen och testa ett formulär. Du kan använda vår exempeldatauppsättning. Ladda ned och extrahera sample_data.zip och ladda sedan upp innehållet till din Azure Blob Storage container.
I Formigenkänning användargränssnitt:
På startsidan för exempeletikettverktyget väljer du Använd anpassad för att träna en modell med etiketter och hämta nyckel/värde-par.
I nästa fönster väljer du Nytt projekt:
Mer detaljerade anvisningar finns i snabbstarten för vårt exempeletikettverktyg.
Indatakrav
Ge bästa resultat genom att tillhandahålla ett tydligt foto eller en skanning med hög kvalitet per dokument.
Filformat som stöds: JPEG, PNG, BMP, TIFF och PDF (textbäddad eller skannad). Text-inbäddade PDF-filer är bäst för att eliminera risken för fel vid extrahering av tecken och plats.
För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en kostnadsfri nivåprenumeration bearbetas bara de första två sidorna).
Filstorleken måste vara mindre än 50 MB.
Bilddimensionerna måste vara mellan 50 x 50 bildpunkter och 1 0000 x 1 0000 bildpunkter.
PDF-måtten är upp till 17 x 17 tum, vilket motsvarar pappersstorleken Juridiskt eller A3 eller mindre.
Den totala storleken på träningsdata är 500 sidor eller mindre.
Om dina PDF-filer är lösenordslåsta måste du ta bort låset innan du skickar in det.
För oövervakad inlärning (utan märkta data):
- Data måste innehålla nycklar och värden.
- Nycklarna måste visas ovanför eller till vänster om värdena. de kan inte visas nedan eller till höger.
Tips
Träningsdata
- Använd om möjligt textbaserade PDF-dokument i stället för bildbaserade dokument. Skannade PDF-filer hanteras som bilder.
- För ifyllda formulär använder du exempel där alla fält är ifyllda.
- Använd formulär med olika värden i varje fält.
- Om dina formulärbilder har lägre kvalitet använder du en större datauppsättning (till exempel 10–15 bilder).
Anteckning
Exempeletikettverktyget stöder inte BMP-filformatet. Det här är en begränsning för verktyget, inte Formigenkänning Service.
Språk och språk som stöds
Formigenkänning förhandsversionen introducerar ytterligare språkstöd för anpassade modeller. Se vår språksupport för en fullständig lista över handskriven och tryckt text som stöds.
Formigenkänning förhandsversion v3.0
Formigenkänning v3.0 (förhandsversion) introducerar flera nya funktioner:
API för anpassad modell (v3.0) stöder signaturidentifiering för anpassade formulär. När du tränar anpassade modeller kan du ange vissa fält som signaturer. När ett dokument analyseras med din anpassade modell visas om en signatur har identifierats eller inte.
Följ vår Formigenkänning v3.0 för att lära dig hur du använder förhandsversionen i dina program och arbetsflöden.
Utforska vår REST API (förhandsversion) om du vill veta mer om förhandsversionen och nya funktioner.
Testa signaturidentifiering
Skapa din träningsdatauppsättning.
Gå till Formigenkänning Studio och välj Anpassat formulär under Anpassade modeller:
Följ arbetsflödet för att skapa ett nytt projekt:
Följ indatakraven för anpassad modell.
Märk dina dokument. För signaturfält rekommenderas regionsetiketter för bättre noggrannhet.
Märk dina dokument. För signaturfält rekommenderas regionsetiketter för bättre noggrannhet.
När din träningsuppsättning har märkts kan du träna din anpassade modell och använda den för att analysera dokument. Signaturfälten anger om en signatur har identifierats eller inte.
Nästa steg
Slutför en Formigenkänning snabbstart:
Utforska våra REST API: