riconoscimento modulo modelli personalizzati e composti

riconoscimento modulo usa una tecnologia avanzata di Machine Learning per rilevare ed estrarre informazioni dalle immagini dei documenti e restituire i dati estratti in un output JSON strutturato. Con riconoscimento modulo, è possibile eseguire il training di modelli personalizzati autonomi o combinare modelli personalizzati per creare modelli composti.

  • Modelli personalizzati. riconoscimento modulo modelli personalizzati consentono di analizzare ed estrarre dati da moduli e documenti specifici dell'azienda. I modelli personalizzati vengono addestrati per i dati e i casi d'uso distinti.

  • Modelli composti. Un modello composto viene creato prendendo una raccolta di modelli personalizzati e assegnandoli a un singolo modello che include i tipi di modulo. Quando un documento viene inviato a un modello composto, il servizio esegue un passaggio di classificazione per decidere quale modello personalizzato rappresenta in modo accurato il modulo presentato per l'analisi.

Screenshot: riconoscimento modulo strumento analyze-a-custom-form window.

Che cos'è un modello personalizzato?

Un modello personalizzato è un programma di Machine Learning con training per riconoscere i campi modulo all'interno del contenuto distinto ed estrarre coppie chiave-valore e dati di tabella. Per iniziare sono necessari solo cinque esempi dello stesso tipo di modulo ed è possibile eseguire il training del modello personalizzato con o senza set di dati etichettati.

Che cos'è un modello composto?

Con i modelli composti è possibile assegnare più modelli personalizzati a un modello composto denominato con un singolo ID modello. È utile quando si esegue il training di diversi modelli e si vuole raggrupparli per analizzare tipi di modulo simili. Ad esempio, il modello composto può includere modelli personalizzati con training per analizzare gli ordini di acquisto di fornitura, apparecchiature e attrezzature. Anziché tentare manualmente di selezionare il modello appropriato, è possibile usare un modello composto per determinare il modello personalizzato appropriato per ogni analisi ed estrazione.

Opzioni di sviluppo

Le risorse seguenti sono supportate da riconoscimento modulo v2.1:

Funzionalità Risorse
Modello personalizzato

Le risorse seguenti sono supportate da riconoscimento modulo v3.0:

Funzionalità Risorse
Modello personalizzato

Provare Riconoscimento modulo

Informazioni su come i dati vengono estratti da documenti specifici o univoci usando modelli personalizzati. Sono necessari gli elementi seguenti:

Screenshot: chiavi e posizione dell'endpoint nel portale di Azure.

riconoscimento modulo Studio (anteprima)

Nota

riconoscimento modulo Studio è disponibile con l'API di anteprima (v3.0).

  1. Nella pagina riconoscimento modulo Studio home page selezionare Modulo personalizzato.

  2. In Progetti personaliselezionare + Crea un progetto.

  3. Completare i campi dei dettagli del progetto.

  4. Configurare la risorsa del servizio.

  5. Aggiungere l'account Archiviazione e il contenitore BLOB per Connessione'origine dati di training.

  6. Esaminare e creare il progetto.

  7. È stato fornito un set di documenti di esempio per compilare e testare il modello personalizzato.

Strumento di etichettatura di esempio

È necessario un set di almeno sei forme dello stesso tipo. Questi dati verranno usati per eseguire il training del modello e testare un modulo. È possibile usare il set di dati di esempio. Scaricare ed estrarre il sample_data.zip, quindi caricare il contenuto nel contenitore blob Archiviazione Azure.

Nell'interfaccia riconoscimento modulo interfaccia utente:

  1. Nella pagina Sample Labeling tool (Strumento di etichettatura home page selezionare Use Custom (Usa personalizzato) per eseguire il training di un modello con etichette e ottenere coppie chiave-valore.

    Screenshot: selezione dell'opzione personalizzata da parte di FOTTtool.

  2. Nella finestra successiva selezionare Nuovo progetto:

    Screenshot: fotttools select new project (Seleziona nuovo progetto).

    Per istruzioni più dettagliate, vedere la guidaintroduttiva dello strumento di etichettatura di esempio.

Requisiti di input

  • Per ottenere risultati ottimali, fornire una foto chiara o un'analisi di alta qualità per ogni documento.

  • Formati di file supportati: JPEG, PNG, BMP, TIFF e PDF (con testo incorporato o digitalizzato). I FILE PDF incorporati nel testo sono la scelta migliore per eliminare la possibilità di errori nell'estrazione e nella posizione dei caratteri.

  • Per PDF e TIFF, è possibile elaborare fino a 2000 pagine (con una sottoscrizione di livello gratuito vengono elaborate solo le prime due pagine).

  • Le dimensioni del file devono essere inferiori a 50 MB.

  • Per le immagini, le dimensioni devono essere comprese tra 50 x 50 pixel e 10000 x 10000 pixel.

  • Le dimensioni pdf sono fino a 17 x 17 pollici, corrispondenti al formato carta Legale o A3 o inferiori.

  • Le dimensioni totali dei dati di training sono pari o inferiori a 500 pagine.

  • Se i FILE PDF sono bloccati da password, è necessario rimuovere il blocco prima dell'invio.

  • Per l'apprendimento non supervisionato (senza dati etichettati):

    • I dati devono contenere chiavi e valori.
    • Le chiavi devono essere visualizzate sopra o a sinistra dei valori. non possono essere visualizzati sotto o a destra.

    Suggerimento

    Dati di training

    • Se possibile, usare documenti PDF basati su testo anziché documenti basati su immagini. I PDF analizzati vengono gestiti come immagini.
    • Per i moduli compilati, usare esempi con tutti i campi compilati.
    • Usare moduli con valori diversi in ogni campo.
    • Se le immagini del modulo sono di qualità inferiore, usare un set di dati più grande ,ad esempio 10-15 immagini.

Nota

Lo strumento di etichettatura di esempio non supporta il formato di file BMP. Si tratta di una limitazione dello strumento e non del riconoscimento modulo servizio.

Lingue e impostazioni locali supportate

riconoscimento modulo versione di anteprima introduce il supporto del linguaggio aggiuntivo per i modelli personalizzati. Per un elenco completo del testo scritto a mano e stampato supportato, vedere supporto per la lingua.

riconoscimento modulo preview v3.0

riconoscimento modulo v3.0 (anteprima) introduce diverse nuove funzionalità:

  • L'API del modello personalizzato (v3.0) supporta il rilevamento delle firme per i moduli personalizzati. Quando si esegue il training di modelli personalizzati, è possibile specificare determinati campi come firme. Quando un documento viene analizzato con il modello personalizzato, indicherà se è stata rilevata o meno una firma.

  • Seguire la riconoscimento modulo migrazione v3.0 per informazioni su come usare la versione di anteprima nelle applicazioni e nei flussi di lavoro.

  • Esplorare l'API REST (anteprima) per altre informazioni sulla versione di anteprima e sulle nuove funzionalità.

Provare a rilevare la firma

  1. Creare il set di dati di training.

  2. Passare a riconoscimento modulo Studio e selezionare Modulo personalizzato in Modelli personalizzati:

    Screenshot: riconoscimento modulo Studio seleziona una pagina modulo personalizzata.

  3. Seguire il flusso di lavoro per creare un nuovo progetto:

  4. Seguire i requisiti di input del modello personalizzato.

  5. Etichettare i documenti. Per i campi della firma, è consigliabile usare l'etichettatura dell'area per una migliore accuratezza.

  6. Etichettare i documenti. Per i campi della firma, è consigliabile usare l'etichettatura dell'area per una migliore accuratezza.

    Screenshot: Campo della firma dell'etichetta.

Dopo aver etichettato il set di training, è possibile eseguire il training del modello personalizzato e usarlo per analizzare i documenti. I campi della firma specificano se è stata rilevata o meno una firma.

Passaggi successivi