Modelli personalizzati di Document Intelligence

Articolo
02/29/2024

Importante

Le versioni di anteprima pubblica di Document Intelligence consentono l'accesso anticipato alle funzionalità in fase di sviluppo attivo.
Le funzionalità, gli approcci e i processi possono cambiare, prima della disponibilità generale, in base al feedback degli utenti.
La versione di anteprima pubblica delle librerie client di Document Intelligence per impostazione predefinita è l'API REST versione 2024-02-29-preview.
L'anteprima pubblica versione 2024-02-29-preview è attualmente disponibile solo nelle aree di Azure seguenti:
Stati Uniti orientali
Stati Uniti occidentali2
Europa occidentale

Questo contenuto si applica a:v4.0 (anteprima) | Versioni precedenti:v3.1 (GA)v3.0 (GA)v2.1 (GA)

Questo contenuto si applica a:v3.1 (GA) | Versione più recente:v4.0 (anteprima) | Versioni precedenti:v3.0v2.1

Questo contenuto si applica a:v3.0 (GA) | Versioni più recenti:v4.0 (anteprima)v3.1 | Versione precedente:v2.1

Questo contenuto si applica a:v2.1 | Versione più recente:v4.0 (anteprima)

Document Intelligence usa una tecnologia avanzata di Machine Learning per identificare documenti, rilevare ed estrarre informazioni da moduli e documenti e restituire i dati estratti in un output JSON strutturato. Con Document Intelligence è possibile usare modelli di analisi dei documenti, pre-training o modelli personalizzati con training predefinito o personalizzati sottoposti a training.

I modelli personalizzati includono ora modelli di classificazione personalizzati per gli scenari in cui è necessario identificare il tipo di documento prima di richiamare il modello di estrazione. I modelli di classificatore sono disponibili a partire dall'API 2023-07-31 (GA) . Un modello di classificazione può essere associato a un modello di estrazione personalizzato per analizzare ed estrarre campi da moduli e documenti specifici dell'azienda per creare una soluzione di elaborazione documenti. I modelli di estrazione personalizzati autonomi possono essere combinati per creare modelli composti.

Tipi di modello di documento personalizzati

I modelli di documento personalizzati possono essere uno dei due tipi, modello personalizzato o modulo personalizzato e modelli di documento neurali o personalizzati. Il processo di etichettatura e training per entrambi i modelli è identico, ma i modelli differiscono come segue:

Modelli di estrazione personalizzati

Per creare un modello di estrazione personalizzato, etichettare un set di dati di documenti con i valori da estrarre ed eseguire il training del modello nel set di dati etichettato. Per iniziare, sono necessari solo cinque esempi dello stesso tipo di modulo o documento.

Modello neurale personalizzato

Importante

A partire dalla versione 4.0 - 2024-02-29-preview, i modelli neurali personalizzati supportano ora campi e tabelle sovrapposti, attendibilità a livello di riga e cella.

Il modello neurale personalizzato (documento personalizzato) usa modelli di Deep Learning e il modello di base sottoposto a training su un'ampia raccolta di documenti. Questo modello viene quindi ottimizzato o adattato ai dati quando si esegue il training del modello con un set di dati etichettato. I modelli neurali personalizzati supportano documenti strutturati, semistrutturati e non strutturati per estrarre i campi. I modelli neurali personalizzati supportano attualmente documenti in lingua inglese. Quando si sceglie tra i due tipi di modello, iniziare con un modello neurale per determinare se soddisfa le esigenze funzionali. Per altre informazioni sui modelli di documento personalizzati, vedere Modelli neurali.

Modello di modello personalizzato

Il modello personalizzato o il modello di modulo personalizzato si basa su un modello visivo coerente per estrarre i dati etichettati. Le variazioni nella struttura visiva dei documenti influiscono sull'accuratezza del modello. Moduli strutturati, ad esempio questionari o applicazioni, sono esempi di modelli visivi coerenti.

Il set di training è costituito da documenti strutturati in cui la formattazione e il layout sono statici e costanti da un'istanza del documento alla successiva. I modelli di modello personalizzati supportano coppie chiave-valore, segni di selezione, tabelle, campi di firma e aree. I modelli di modello e possono essere sottoposti a training su documenti in qualsiasi lingua supportata. Per altre informazioni, vedereModelli di modello personalizzati.

Se il linguaggio dei documenti e degli scenari di estrazione supporta modelli neurali personalizzati, è consigliabile usare modelli neurali personalizzati su modelli per un'accuratezza più elevata.

Suggerimento

Per verificare che i documenti di training presentino un modello visivo coerente, rimuovere tutti i dati immessi dall'utente da ogni modulo nel set. Se i moduli vuoti sono identici nell'aspetto, rappresentano un modello di oggetto visivo coerente.

Per altre informazioni, vedereInterpretare e migliorare l'accuratezza e l'attendibilità dei modelli personalizzati.

Requisiti di input

Per ottenere risultati ottimali, fornire una foto chiara o un'analisi di alta qualità per ogni documento.

Formati di file supportati:

Modello	PDF	Immagine: jpeg/jpg, png, bmp, tiff, heif	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx)
Lettura	✔	✔	✔
Layout	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview e versioni successive)
Documento generale	✔	✔
Predefinito	✔	✔
Estrazione personalizzata	✔	✔
Classificazione personalizzata	✔	✔	✔

✱ i file di Microsoft Office non sono attualmente supportati per altri modelli o versioni.

Per PDF e TIFF, è possibile elaborare fino a 2.000 pagine (con una sottoscrizione di livello gratuito, vengono elaborate solo le prime due pagine).
Le dimensioni del file per l'analisi dei documenti sono di 500 MB per il livello a pagamento (S0) e 4 MB per il livello gratuito (F0).
Le dimensioni dell'immagine devono essere comprese tra 50 x 50 pixel e 10.000 px x 10.000 pixel.
Se i file PDF sono bloccati da password, è necessario rimuovere il blocco prima dell'invio.
L'altezza minima del testo da estrarre è di 12 pixel per un'immagine da 1024 x 768 pixel. Questa dimensione corrisponde a circa 8-point text a 150 punti per pollice.
Per il training di modelli personalizzati, il numero massimo di pagine per i dati di training è 500 per il modello di modello personalizzato e 50.000 per il modello neurale personalizzato.
Per il training del modello di estrazione personalizzato, le dimensioni totali dei dati di training sono di 50 MB per il modello di modello e 1G-MB per il modello neurale.
Per il training del modello di classificazione personalizzato, le dimensioni totali dei dati di training sono 1GB pari a un massimo di 10.000 pagine.

Modalità di compilazione

L'operazione di compilazione del modello personalizzato aggiunge il supporto per il modello e i modelli personalizzati neurali. Le versioni precedenti dell'API REST e delle librerie client supportano solo una singola modalità di compilazione ora nota come modalità modello .

I modelli di modello accettano solo documenti con la stessa struttura di pagina di base, ovvero un aspetto visivo uniforme, o la stessa posizione relativa degli elementi all'interno del documento.
I modelli neurali supportano documenti con le stesse informazioni, ma strutture di pagina diverse. Esempi di questi documenti includono Stati Uniti moduli W2, che condividono le stesse informazioni, ma variano in base all'aspetto delle aziende. I modelli neurali supportano attualmente solo il testo in inglese.

Questa tabella fornisce collegamenti ai riferimenti e agli esempi di codice dell'SDK del linguaggio di programmazione in modalità di compilazione in GitHub:

Linguaggio di programmazione	Informazioni di riferimento sugli SDK	Esempio di codice
C#/.NET	DocumentBuildMode Struct	Sample_BuildCustomModelAsync.cs
Java	Classe DocumentBuildMode	BuildModel.java
JavaScript	Tipo DocumentBuildMode	buildModel.js
Python	Enumerazione DocumentBuildMode	sample_build_model.py

Confrontare le funzionalità del modello

La tabella seguente confronta i modelli personalizzati e le funzionalità neurali personalizzate:

Funzionalità	Modello personalizzato (modulo)	Neurale personalizzato (documento)
Struttura del documento	Modello, modulo e strutturato	Strutturata, semistrutturata e non strutturata
Tempo di addestramento	Da 1 a 5 minuti	Da 20 minuti a 1 ora
Estrazione dei dati	Coppie chiave-valore, tabelle, segni di selezione, coordinate e firme	Coppie chiave-valore, segni di selezione e tabelle
Campi sovrapposti	Non supportato	Supportato
Varianti dei documenti	Richiede un modello per ogni variante	Usa un singolo modello per tutte le varianti
Supporto di versioni in lingue diverse	Supporto per più lingue	Inglese, con supporto in anteprima per il supporto spagnolo, francese, tedesco, italiano e olandese

Modello di classificazione personalizzato

La classificazione dei documenti è un nuovo scenario supportato da Document Intelligence con l'API 2023-07-31 (versione 3.1 GA). L'API del classificatore di documenti supporta scenari di classificazione e suddivisione. Eseguire il training di un modello di classificazione per identificare i diversi tipi di documenti supportati dall'applicazione. Il file di input per il modello di classificazione può contenere più documenti e classifica ogni documento all'interno di un intervallo di pagine associato. Per altre informazioni, vedereModelli di classificazione personalizzati.

Nota

A partire dalla classificazione dei documenti della versione API 2024-02-29-preview ora supporta i tipi di documento di Office per la classificazione. Questa versione dell'API introduce anche il training incrementale per il modello di classificazione.

Strumenti del modello personalizzati

I modelli di Document Intelligence v3.1 e versioni successive supportano gli strumenti, le applicazioni e le librerie, i programmi e le librerie seguenti:

Funzionalità	Risorse	Model ID
Modello personalizzato	• Document Intelligence Studio • API REST• C# SDK • Python SDK	custom-model-id

Document Intelligence v2.1 supporta gli strumenti, le applicazioni e le librerie seguenti:

Nota

I tipi di modello personalizzati neurali e personalizzati sono disponibili con le API Document Intelligence versione 3.1 e v3.0.

Funzionalità	Risorse
Modello personalizzato	• Strumento di etichettatura di Document Intelligence• API REST• SDK della libreria client• Contenitore Docker di Document Intelligence

Creare un modello personalizzato

Estrarre dati da documenti specifici o univoci usando modelli personalizzati. Sono necessarie le risorse seguenti:

Una sottoscrizione di Azure. È possibile crearne uno gratuitamente.
Istanza di Document Intelligence nel portale di Azure. Per provare il servizio, è possibile usare il piano tariffario gratuito (F0). Dopo la distribuzione della risorsa, selezionare Vai alla risorsa per ottenere la chiave e l'endpoint.

Strumento di etichettatura di esempio

Suggerimento

Per un'esperienza avanzata e una qualità avanzata del modello, provare Document Intelligence v3.0 Studio.
V3.0 Studio supporta qualsiasi modello sottoposto a training con dati con etichetta v2.1.
Per informazioni dettagliate sulla migrazione dalla versione 2.1 alla versione 3.0, vedere la guida alla migrazione delle API.
Per iniziare a usare la versione 3.0, vedere le guide introduttive sull'API REST o C#, Java, JavaScript o Python SDK.

Lo strumento di etichettatura degli esempi di analisi dei documenti è uno strumento open source che consente di testare le funzionalità più recenti di Document Intelligence e riconoscimento ottico dei caratteri (OCR).
Provare la guida introduttiva allo strumento di etichettatura di esempio per iniziare a creare e usare un modello personalizzato.

Document Intelligence Studio

Nota

Document Intelligence Studio è disponibile con le API v3.1 e v3.0.

Nella home page di Document Intelligence Studio selezionare Modelli di estrazione personalizzati.
In Progetti personali selezionare Crea un progetto.
Completare i campi dei dettagli del progetto.
Configurare la risorsa del servizio aggiungendo l'account Archiviazione e il contenitore BLOB per Connessione'origine dati di training.
Esaminare e creare il progetto.
Aggiungere i documenti di esempio per etichettare, compilare e testare il modello personalizzato.

Provare Document Intelligence Studio

Per una procedura dettagliata per creare il primo modello di estrazione personalizzato, vedereCome creare un modello di estrazione personalizzato.

Riepilogo dell'estrazione di modelli personalizzati

Questa tabella confronta le aree di estrazione dati supportate:

Modello	Campi del modulo	Opzioni di selezione	Campi strutturati (tabelle)	Firma	Etichettatura dell'area	Campi sovrapposti
Modello personalizzato	✔	✔	✔	✔	✔	n/d
Neurale personalizzato	✔	✔	✔	n/d	*	✔ (2024-02-29-preview)

Simboli di tabella:
✔ — Supportato
**n/a- Attualmente non disponibile;
*-Si comporta in modo diverso a seconda del modello. Con i modelli di modello, i dati sintetici vengono generati in fase di training. Con i modelli neurali, viene selezionato il testo di uscita riconosciuto nell'area.

Suggerimento

Quando si sceglie tra i due tipi di modello, iniziare con un modello neurale personalizzato se soddisfa le esigenze funzionali. Per altre informazioni sui modelli neurali personalizzati, vedere Neurale personalizzato.

Opzioni di sviluppo di modelli personalizzati

Nella tabella seguente vengono descritte le funzionalità disponibili con gli strumenti associati e le librerie client. Come procedura consigliata, assicurarsi di usare gli strumenti compatibili elencati qui.

Tipo di documento	REST API	SDK	Etichettare e testare i modelli
Modello personalizzato v 4.0 v3.1 v3.0	Document Intelligence 3.1	Document Intelligence SDK	Document Intelligence Studio
Versione neurale personalizzata v4.0 v3.1 v3.0	Document Intelligence 3.1	Document Intelligence SDK	Document Intelligence Studio
Modulo personalizzato v2.1	API di Intelligence per documenti 2.1 disponibile a livello generale	Document Intelligence SDK	Strumento di etichettatura campioni

Nota

I modelli di modello personalizzati sottoposti a training con l'API 3.0 avranno alcuni miglioramenti rispetto all'API 2.1 derivanti dai miglioramenti apportati al motore OCR. I set di dati usati per eseguire il training di un modello modello personalizzato usando l'API 2.1 possono comunque essere usati per eseguire il training di un nuovo modello usando l'API 3.0.

Per ottenere risultati ottimali, fornire una foto chiara o un'analisi di alta qualità per ogni documento.
I formati di file supportati sono JPEG/JPG, PNG, BMP, TIFF e PDF (incorporati o analizzati). I documenti PDF con testo incorporato sono i più adatti per evitare ogni possibilità di errore nell'estrazione e individuazione dei caratteri.
Per i file PDF e TIFF, è possibile elaborare fino a 2.000 pagine. Con una sottoscrizione di livello gratuito, vengono elaborate solo le prime due pagine.
Le dimensioni del file devono essere inferiori a 500 MB per il livello a pagamento (S0) e 4 MB per il livello gratuito (F0).
Per le immagini, le dimensioni devono essere comprese tra 50 x 50 pixel e 10.000 x 10.000 pixel.
Le dimensioni PDF sono fino a 17 x 17 pollici, corrispondenti al formato di carta Legale o A3 o inferiore.
Le dimensioni totali dei dati di training sono pari o inferiori a 500 pagine.
Se i file PDF sono bloccati da password, è necessario rimuovere il blocco prima dell'invio.
Suggerimento

Dati di training:
- Se possibile, utilizza documenti PDF basati su testo anziché documenti basati su immagini. I PDF sottoposti a scansione vengono gestiti come immagini.
- Specificare solo una singola istanza del modulo per ogni documento.
- Per i moduli compilati, usare esempi con tutti i campi compilati.
- Usa moduli con valori diversi in ogni campo.
- Se le immagini del modulo hanno una qualità inferiore, usare un set di dati più grande. Ad esempio, usare da 10 a 15 immagini.

Lingue e impostazioni locali supportate

Per un elenco completo delle lingue supportate, vedere la pagina Supporto linguistico : modelli personalizzati.

Passaggi successivi

Provare a elaborare moduli e documenti personalizzati con lo strumento di etichettatura di esempio di Document Intelligence.
Completare una guida introduttiva di Intelligence sui documenti e iniziare a creare un'app per l'elaborazione di documenti nel linguaggio di sviluppo preferito.

Provare a elaborare moduli e documenti personalizzati con Document Intelligence Studio.
Completare una guida introduttiva di Intelligence sui documenti e iniziare a creare un'app per l'elaborazione di documenti nel linguaggio di sviluppo preferito.

Modelli personalizzati di Document Intelligence

Tipi di modello di documento personalizzati

Modelli di estrazione personalizzati

Modello neurale personalizzato

Modello di modello personalizzato

Requisiti di input

Modalità di compilazione

Confrontare le funzionalità del modello

Modello di classificazione personalizzato

Strumenti del modello personalizzati

Creare un modello personalizzato

Strumento di etichettatura di esempio

Document Intelligence Studio

Riepilogo dell'estrazione di modelli personalizzati

Opzioni di sviluppo di modelli personalizzati

Lingue e impostazioni locali supportate

Passaggi successivi

Risorse aggiuntive