Form Recognizer en samengestelde modellen maken
Form Recognizer maakt gebruik van geavanceerde machine learning om informatie te detecteren en te extraheren uit documentafbeeldingen en de geëxtraheerde gegevens te retourneren in een gestructureerde JSON-uitvoer. Met Form Recognizer kunt u zelfstandige aangepaste modellen trainen of aangepaste modellen combineren om samengestelde modellen te maken.
Aangepaste modellen. Form Recognizer aangepaste modellen kunt u gegevens analyseren en extraheren uit formulieren en documenten die specifiek zijn voor uw bedrijf. Aangepaste modellen worden getraind voor uw afzonderlijke gegevens en gebruiksgevallen.
Samengestelde modellen. Een samengesteld model wordt gemaakt door een verzameling aangepaste modellen te nemen en deze toe te wijzen aan één model dat uw formuliertypen omvat. Wanneer een document wordt verzonden naar een samengesteld model, voert de service een classificatiestap uit om te bepalen welk aangepast model het formulier vertegenwoordigt dat voor analyse wordt gepresenteerd.
Wat is een aangepast model?
Een aangepast model is een machine learning-programma dat is getraind om formuliervelden binnen uw afzonderlijke inhoud te herkennen en sleutel-waardeparen en tabelgegevens te extraheren. U hebt slechts vijf voorbeelden van hetzelfde formuliertype nodig om aan de slag te gaan en uw aangepaste model kan worden getraind met of zonder gelabelde gegevenssets.
Wat is een samengesteld model?
Met samengestelde modellen kunt u meerdere aangepaste modellen toewijzen aan een samengesteld model met de naam met één model-id. Dit is handig wanneer u verschillende modellen hebt getraind en deze wilt groepen om vergelijkbare formuliertypen te analyseren. Uw samengestelde model kan bijvoorbeeld aangepaste modellen bevatten die zijn getraind om uw voorraad, apparatuur en inkooporders voor gereedschap te analyseren. In plaats van handmatig het juiste model te selecteren, kunt u een samengesteld model gebruiken om het juiste aangepaste model voor elke analyse en extractie te bepalen.
Ontwikkelingsopties
De volgende resources worden ondersteund door Form Recognizer v2.1:
| Functie | Resources |
|---|---|
| Aangepast model |
De volgende resources worden ondersteund door Form Recognizer v3.0:
| Functie | Resources |
|---|---|
| Aangepast model |
Form Recognizer proberen
Zie hoe gegevens worden geëxtraheerd uit uw specifieke of unieke documenten met behulp van aangepaste modellen. U hebt het volgende nodig:
Een Azure-abonnement: u kunt er gratis een maken
Een Form Recognizer-exemplaar in de Azure Portal. U kunt de gratis prijscategorie (
F0) gebruiken om de service te proberen. Nadat uw resource is geïmplementeerd, selecteert u Ga naar resource om uw API-sleutel en eindpunt op te halen.
Form Recognizer Studio (preview)
Notitie
Form Recognizer Studio is beschikbaar met de preview-API (v3.0).
Selecteer op Form Recognizer Startpagina van Studio de optie Aangepast formulier.
Selecteer onder Mijn projecten de optie + Een project maken.
Vul de velden projectdetails in.
Configureer de serviceresource.
Voeg uw Storage account en Blob-container toe om Verbinding maken trainingsgegevensbron te maken.
Controleer en maak uw project.
Er is een set voorbeelddocumenten beschikbaar voor het bouwen en testen van uw aangepaste model.
Voorbeeldhulpprogramma voor labelen
U hebt een set van ten minste zes formulieren van hetzelfde type nodig. U gebruikt deze gegevens om het model te trainen en een formulier te testen. U kunt onze voorbeeldgegevensset gebruiken. Download en extraher desample_data.zip en upload vervolgens de inhoud naar uw Azure Blob Storage container.
In de Form Recognizer gebruikersinterface:
Selecteer op de startpagina van het voorbeeldhulpprogramma voor labelen de optie Aangepast gebruiken om een model te trainen met labels en sleutelwaardeparen op te halen.
Selecteer in het volgende venster Nieuw project:
Zie onze quickstart voor voorbeeldhulpprogramma's voor labelen voor meer gedetailleerde instructies.
Vereisten voor invoer
Geef voor de beste resultaten één duidelijke foto of scan van hoge kwaliteit per document op.
Ondersteunde bestandsindelingen: JPEG, PNG, BMP, TIFF en PDF (tekst ingesloten of gescand). Pdf-bestanden met ingesloten tekst zijn het beste om de mogelijkheid van een fout in tekenextractie en -locatie te elimineren.
Voor PDF en TIFF kunnen maximaal 2000 pagina's worden verwerkt (met een gratis abonnement worden alleen de eerste twee pagina's verwerkt).
De bestandsgrootte moet kleiner zijn dan 50 MB.
De afmetingen van afbeeldingen moeten tussen 50 x 50 en 10000 x 10000 pixels liggen.
PDF-afmetingen zijn maximaal 17 x 17 inch, overeenkomend met juridische of A3 papiergrootte of kleiner.
De totale grootte van de trainingsgegevens is 500 pagina's of minder.
Als uw PDF-bestanden met een wachtwoord zijn vergrendeld, moet u de vergrendeling verwijderen voordat u ze indient.
Voor leren zonder supermomenten (zonder gelabelde gegevens):
- Gegevens moeten sleutels en waarden bevatten.
- Sleutels moeten boven of links van de waarden worden weergegeven; ze kunnen niet onder of rechts worden weergegeven.
Tip
Trainingsgegevens
- Gebruik indien mogelijk PDF-documenten op basis van tekst in plaats van documenten op basis van afbeeldingen. Gescande PDF-bestanden worden verwerkt als afbeeldingen.
- Gebruik voor ingevulde formulieren voorbeelden waarin al hun velden zijn ingevuld.
- Gebruik in formulieren met in elk veld verschillende waarden.
- Als uw formulierafbeeldingen van lagere kwaliteit zijn, gebruikt u een grotere gegevensset (bijvoorbeeld 10-15 afbeeldingen).
Notitie
Het voorbeeldhulpprogramma voor labelen biedt geen ondersteuning voor de BMP-bestandsindeling. Dit is een beperking van het hulpprogramma, niet van Form Recognizer Service.
Ondersteunde talen en talen
Form Recognizer preview-versie introduceert aanvullende taalondersteuning voor aangepaste modellen. Zie onze taalondersteuning voor een volledige lijst met ondersteunde handgeschreven en gedrukte tekst.
Form Recognizer preview v3.0
Form Recognizer v3.0 (preview) introduceert verschillende nieuwe functies en mogelijkheden:
Aangepaste model-API (v3.0) ondersteunt detectie van handtekeningen voor aangepaste formulieren. Wanneer u aangepaste modellen traint, kunt u bepaalde velden opgeven als handtekeningen. Wanneer een document wordt geanalyseerd met uw aangepaste model, wordt aangegeven of er een handtekening is gedetecteerd of niet.
Volg onze Form Recognizer v3.0-migratiehandleiding voor meer informatie over het gebruik van de preview-versie in uw toepassingen en werkstromen.
Verken onze REST API (preview) voor meer informatie over de preview-versie en nieuwe mogelijkheden.
Detectie van handtekeningen uitproberen
Bouw uw set met trainingsgegevens.
Navigeer naar Form Recognizer Studio en selecteer Aangepast formulier onder Aangepaste modellen:
Volg de werkstroom om een nieuw project te maken:
Volg de vereisten voor aangepaste modelinvoer.
Label uw documenten. Voor handtekeningvelden wordt het gebruik van regiolabels aanbevolen voor een betere nauwkeurigheid.
Label uw documenten. Voor handtekeningvelden wordt het gebruik van regiolabels aanbevolen voor een betere nauwkeurigheid.
Zodra uw trainingsset is gelabeld, kunt u uw aangepaste model trainen en gebruiken om documenten te analyseren. De handtekeningvelden geven aan of een handtekening is gedetecteerd of niet.
Volgende stappen
Voltooi een Form Recognizer quickstart:
Verken onze REST API: