Modelli personalizzati: punteggi di accuratezza e attendibilità

Questo contenuto si applica a:segno di spuntav4.0 (anteprima)segno di spuntav3.1 (GA)segno di spuntav3.0 (GA)segno di spuntav2.1 (GA)

Nota

  • I modelli neurali personalizzati non forniscono punteggi di accuratezza durante il training.
  • I punteggi di attendibilità per tabelle, righe di tabella e celle di tabella sono disponibili a partire dalla versione dell'API 2024-02-29-preview per i modelli personalizzati.

I modelli di modello personalizzati generano un punteggio di accuratezza stimato durante il training. I documenti analizzati con un modello personalizzato producono un punteggio di attendibilità per i campi estratti. Questo articolo illustra come interpretare i punteggi di accuratezza e attendibilità e le procedure consigliate per l'uso di tali punteggi per migliorare l'accuratezza e i risultati di attendibilità.

Punteggi di accuratezza

L'output di un'operazione build personalizzata (v3.0) o train (v2.1) include il punteggio di accuratezza stimato. Questo punteggio rappresenta la capacità del modello di stimare accuratamente il valore etichettato in un documento visivamente simile. L'intervallo di valori di accuratezza è una percentuale compresa tra 0% (bassa) e 100% (alta). L'accuratezza stimata viene calcolata eseguendo alcune combinazioni diverse dei dati di training per stimare i valori etichettati.

Modello personalizzato con training di Document Intelligence Studio
(fattura)

Punteggi di accuratezza del modello personalizzati sottoposti a training

Punteggi di attendibilità

Nota

  • I punteggi di attendibilità delle tabelle, delle righe e delle celle sono ora inclusi nella versione dell'API 2024-02-29-preview.
  • I punteggi di attendibilità per le celle di tabella dei modelli personalizzati vengono aggiunti all'API a partire dall'API 2024-02-29-preview.

I risultati dell'analisi di Intelligence sui documenti restituiscono una probabilità stimata per parole stimate, coppie chiave-valore, segni di selezione, aree e firme. Attualmente, non tutti i campi del documento restituiscono un punteggio di attendibilità.

L'attendibilità del campo indica una probabilità stimata compresa tra 0 e 1 che la stima è corretta. Ad esempio, un valore di attendibilità pari a 0,95 (95%) indica che la stima è probabilmente corretta 19 volte su 20. Per gli scenari in cui l'accuratezza è critica, è possibile usare la confidenza per determinare se accettare automaticamente la stima o contrassegnarla per la revisione umana.

Modello di fattura predefinita predefinita di Document Intelligence Studio
Analyzed invoice

punteggi di attendibilità di Document Intelligence Studio

Interpretare i punteggi di accuratezza e attendibilità per i modelli personalizzati

Quando si interpreta il punteggio di attendibilità da un modello personalizzato, è consigliabile prendere in considerazione tutti i punteggi di attendibilità restituiti dal modello. Iniziamo con un elenco di tutti i punteggi di attendibilità.

  1. Punteggio di attendibilità del tipo di documento: l'attendibilità del tipo di documento è un indicatore del documento analizzato simile ai documenti nel set di dati di training. Quando l'attendibilità del tipo di documento è bassa, è indicativa di variazioni di modello o strutturali nel documento analizzato. Per migliorare l'attendibilità del tipo di documento, etichettare un documento con tale variante specifica e aggiungerlo al set di dati di training. Dopo la ripetizione del training del modello, dovrebbe essere più attrezzato per gestire tale classe di varianti.
  2. Attendibilità del livello di campo: ogni campo etichettato estratto ha un punteggio di attendibilità associato. Questo punteggio riflette l'attendibilità del modello sulla posizione del valore estratto. Durante la valutazione dei punteggi di attendibilità, è consigliabile esaminare anche l'attendibilità dell'estrazione sottostante per generare un'attendibilità completa per il risultato estratto. Valutare i risultati per l'estrazione OCR di testo o i segni di selezione a seconda del tipo di campo per generare un punteggio di attendibilità composito per il campo.
  3. Punteggio di attendibilità parola Ogni parola estratta all'interno del documento ha un punteggio di attendibilità associato. Il punteggio rappresenta l'attendibilità della trascrizione. La matrice di pagine contiene una matrice di parole e ogni parola ha un punteggio di intervallo e attendibilità associato. Si estende dal campo personalizzato i valori estratti corrispondono agli intervalli delle parole estratte.
  4. Punteggio di attendibilità del contrassegno di selezione: la matrice di pagine contiene anche una matrice di segni di selezione. Ogni segno di selezione ha un punteggio di attendibilità che rappresenta l'attendibilità del segno di selezione e del rilevamento dello stato di selezione. Quando un campo etichettato ha un segno di selezione, la selezione del campo personalizzata combinata con l'attendibilità del segno di selezione è una rappresentazione accurata dell'accuratezza complessiva della confidenza.

La tabella seguente illustra come interpretare sia l'accuratezza che i punteggi di attendibilità per misurare le prestazioni del modello personalizzato.

Accuratezza Attendibilità Risultato
Alto Alta • Il modello funziona bene con le chiavi etichettate e i formati di documento.
• Si dispone di un set di dati di training bilanciato.
Alto Basso • Il documento analizzato è diverso dal set di dati di training.
• Il modello può trarre vantaggio dalla ripetizione del training con almeno cinque documenti etichettati.
• Questi risultati possono anche indicare una variazione di formato tra il set di dati di training e il documento analizzato.
Prendere in considerazione l'aggiunta di un nuovo modello.
Ridotto Elevato • Questo risultato è molto improbabile.
• Per i punteggi di accuratezza bassa, aggiungere altri dati etichettati o suddividere documenti visivamente distinti in più modelli.
Basso Basso • Aggiungere altri dati etichettati.
• Suddividere documenti visivamente distinti in più modelli.

Confidenza tra tabelle, righe e celle

Con l'aggiunta di tabella, attendibilità di righe e celle con l'API 2024-02-29-preview , ecco alcune domande comuni che dovrebbero aiutare a interpretare i punteggi di tabella, riga e cella:

D: È possibile visualizzare un punteggio di attendibilità elevato per le celle, ma un punteggio di attendibilità basso per la riga?

R: Sì. I diversi livelli di attendibilità delle tabelle (cella, riga e tabella) sono concepiti per acquisire la correttezza di una stima a quel livello specifico. Una cella stimata correttamente che appartiene a una riga con altri possibili mancati riscontri avrebbe un'elevata attendibilità delle celle, ma la confidenza della riga dovrebbe essere bassa. Analogamente, una riga corretta in una tabella con problemi con altre righe avrebbe un'elevata attendibilità delle righe, mentre l'attendibilità complessiva della tabella sarebbe bassa.

D: Qual è il punteggio di attendibilità previsto quando vengono unite le celle? Poiché un'unione determina il numero di colonne identificate da modificare, come influiscono i punteggi?

R: indipendentemente dal tipo di tabella, l'aspettativa per le celle unite è che devono avere valori di attendibilità inferiori. Inoltre, anche la cella mancante (perché è stata unita a una cella adiacente) deve avere NULL un valore con maggiore attendibilità. La quantità di valori inferiore dipende dal set di dati di training, la tendenza generale delle celle unite e mancanti con punteggi inferiori deve contenere.

D: Qual è il punteggio di attendibilità quando un valore è facoltativo? È necessario prevedere una cella con un valore e un NULL punteggio di attendibilità elevato se manca il valore?

R: Se il set di dati di training è rappresentativo della facoltatività delle celle, aiuta il modello a sapere con quale frequenza un valore tende a comparire nel set di training e quindi cosa aspettarsi durante l'inferenza. Questa funzionalità viene usata quando si calcola l'attendibilità di una stima o di non eseguire alcuna stima (NULL). È consigliabile prevedere un campo vuoto con attendibilità elevata per i valori mancanti che sono prevalentemente vuoti anche nel set di training.

D: Come influiscono i punteggi di attendibilità se un campo è facoltativo e non è presente o perso? Si prevede che il punteggio di attendibilità risponda a tale domanda?

R: Quando manca un valore da una riga, alla cella viene assegnato un valore e un'attendibilità NULL . Un punteggio di attendibilità elevato in questo caso dovrebbe significare che la stima del modello (di non esiste un valore) è più probabile che sia corretta. Al contrario, un punteggio basso dovrebbe segnalare maggiore incertezza dal modello (e quindi la possibilità di un errore, come il valore perso).

D: Quali devono essere le aspettative per l'attendibilità delle celle e la confidenza delle righe durante l'estrazione di una tabella a più pagine con una riga suddivisa tra le pagine?

R: Si prevede che l'attendibilità delle celle sia elevata e che la confidenza delle righe sia potenzialmente inferiore a quella delle righe non suddivise. La percentuale di righe suddivise nel set di dati di training può influire sul punteggio di attendibilità. In generale, una riga divisa ha un aspetto diverso rispetto alle altre righe della tabella ( pertanto, il modello è meno sicuro che sia corretto).

D: Per le tabelle tra pagine con righe che terminano e iniziano correttamente ai limiti della pagina, è corretto presupporre che i punteggi di attendibilità siano coerenti tra le pagine?

R: Sì. Poiché le righe hanno un aspetto simile nella forma e nel contenuto, indipendentemente dalla posizione in cui si trovano nel documento (o nella pagina), i rispettivi punteggi di attendibilità devono essere coerenti.

D: Qual è il modo migliore per usare i nuovi punteggi di attendibilità?

R: Esaminare tutti i livelli di attendibilità delle tabelle a partire da un approccio dall'alto verso il basso: iniziare controllando l'attendibilità di una tabella nel suo complesso, quindi eseguire il drill-down fino al livello di riga e esaminare le singole righe, infine esaminare le attendibilità a livello di cella. A seconda del tipo di tabella, è necessario tenere presente alcuni aspetti:

Per le tabelle fisse, l'attendibilità a livello di cella acquisisce già un po' di informazioni sulla correttezza delle cose. Ciò significa che semplicemente passando su ogni cella e esaminando la sua confidenza può essere sufficiente per determinare la qualità della stima. Per le tabelle dinamiche, i livelli devono essere compilati uno sopra l'altro, quindi l'approccio dall'alto verso il basso è più importante.

Garantire un'accuratezza dei modelli elevata

Le variazioni nella struttura visiva dei documenti influiscono sull'accuratezza del modello. I punteggi di accuratezza segnalati possono non essere coerenti quando i documenti analizzati differiscono dai documenti usati nel training. Tenere presente che un set di documenti può avere un aspetto simile quando viene visualizzato dalle persone, ma sembrare diverso per un modello di intelligenza artificiale. Per seguire, è un elenco delle procedure consigliate per i modelli di training con la massima accuratezza. Seguendo queste linee guida, è consigliabile produrre un modello con una maggiore accuratezza e punteggi di attendibilità durante l'analisi e ridurre il numero di documenti contrassegnati per la revisione umana.

  • Assicurarsi che tutte le varianti di un documento siano incluse nel set di dati di training. Le varianti includono formati diversi, ad esempio PDF digitali e PDF digitalizzati.

  • Aggiungere almeno cinque esempi di ogni tipo al set di dati di training se si prevede che il modello analizzi entrambi i tipi di documenti PDF.

  • Separare i tipi di documenti visivamente distinti per eseguire il training di modelli diversi.

    • Come regola generale, se si rimuovono tutti i valori immessi dall'utente e i documenti hanno un aspetto simile, è necessario aggiungere altri dati di training al modello esistente.
    • Se i documenti sono diversi, dividere i dati di training in cartelle diverse ed eseguire il training di un modello per ogni variante. È quindi possibile comporre le diverse varianti in un unico modello.
  • Assicurarsi di non avere etichette estranee.

  • Assicurarsi che l'etichettatura della firma e dell'area non includa il testo circostante.

Passaggio successivo