OCR - Riconoscimento ottico dei caratteri

Articolo
04/30/2024

Il riconoscimento ottico dei caratteri o OCR è detto anche riconoscimento del testo o estrazione di testo. Le tecniche OCR basate su Machine Learning consentono di estrarre testo stampato o scritto a mano da immagini come poster, segni stradali ed etichette di prodotto, nonché da documenti come articoli, report, moduli e fatture. Il testo viene in genere estratto come parole, righe di testo e paragrafi o blocchi di testo, consentendo l'accesso alla versione digitale del testo analizzato. Ciò elimina o riduce significativamente la necessità di immissione manuale dei dati.

L'elaborazione intelligente dei documenti (IDP) usa OCR come tecnologia di base per estrarre anche struttura, relazioni, valori chiave, entità e altre informazioni dettagliate incentrate sui documenti con un servizio di intelligenza artificiale avanzato basato su Machine Learning come Document Intelligence. Intelligence per i documenti include una versione ottimizzata per i documenti di Read come motore OCR durante la delega ad altri modelli per informazioni dettagliate di livello superiore. Se si estrae testo da documenti digitalizzati e digitali, usare Document Intelligence Read OCR.If you are extract text from scanned and digital documents, use Document Intelligence Read OCR.

Motore OCR

Il motore OCR di lettura di Microsoft è costituito da più modelli avanzati basati su Machine Learning che supportano linguaggi globali. Può estrarre testo stampato e scritto a mano, inclusi linguaggi misti e stili di scrittura. La lettura è disponibile come servizio cloud e contenitore locale per la flessibilità di distribuzione. Con l'anteprima più recente, è disponibile anche come API sincrona per scenari singoli, non documentabili, di sola immagine con miglioramenti delle prestazioni che semplificano l'implementazione di esperienze utente con supporto OCR.

Avviso

L'API OCR legacy di Visione artificiale di Azure nella versione 3.2 e l'API RecognizeText nelle operazioni v2.1 non sono consigliate per l'uso.

Edizioni OCR (Read)

Importante

Selezionare l'edizione Lettura più adatta alle proprie esigenze.

Input	Esempi	Leggere l'edizione	Vantaggio
Immagini: immagini generali, in-the-wild	etichette, segnali stradali e poster	OCR per le immagini (versione 4.0)	Ottimizzato per immagini generali non documentate con un'API sincrona ottimizzata per le prestazioni che semplifica l'incorporamento di OCR negli scenari di esperienza utente.
Documenti: digitale e digitalizzato, incluse le immagini	libri, articoli e report	Modello di lettura di Document Intelligence	Ottimizzato per documenti digitalizzati e digitali con un'API asincrona per automatizzare l'elaborazione intelligente dei documenti su larga scala.

Informazioni sulla versione 3.2 di Visione artificiale di Azure in lettura generale

Cercare la versione 3.2 di Visione artificiale di Azure più recente in lettura generale? Tutti i miglioramenti futuri di OCR di lettura fanno parte dei due servizi elencati in precedenza. Non sono disponibili altri aggiornamenti per Visione artificiale di Azure v3.2. Per altre informazioni, vedere Chiamare l'API di lettura ga di Azure AI Vision 3.2 e Avvio rapido: Visione artificiale di Azure v3.2 in lettura generale.

Come usare OCR

Provare OCR usando Vision Studio. Seguire quindi uno dei collegamenti all'edizione Read che meglio soddisfa i requisiti.

Provare Vision Studio

Screenshot: Read OCR demo in Vision Studio.

Lingue supportate da OCR

Entrambe le versioni di lettura attualmente disponibili in Visione artificiale di Azure supportano diverse lingue per il testo stampato e scritto a mano. OCR per il testo stampato include il supporto per inglese, francese, tedesco, italiano, portoghese, spagnolo, cinese, giapponese, coreano, russo, arabo, hindi e altre lingue internazionali che usano script latini, cirillic, arabi e devanagari. OCR per testo scritto a mano include il supporto per inglese, cinese semplificato, francese, tedesco, italiano, giapponese, coreano, portoghese e spagnolo.

Fare riferimento all'elenco completo delle lingue supportate da OCR.

Funzionalità comuni di OCR

Il modello OCR di lettura è disponibile in Visione artificiale di Azure e in Document Intelligence con funzionalità di base comuni, ottimizzando al tempo stesso i rispettivi scenari. L'elenco seguente riepiloga le funzionalità comuni:

Estrazione di testo stampato e scritto a mano nelle lingue supportate
Pagine, righe di testo e parole con punteggi di posizione e attendibilità
Supporto per lingue miste, modalità mista (stampa e scrittura a mano)
Disponibile come contenitore Docker senza distribuzione per la distribuzione locale

Usare le API cloud OCR o distribuire in locale

Le API cloud sono l'opzione preferita per la maggior parte dei clienti grazie alla facilità di integrazione e alla produttività rapida predefinita. Azure e il servizio Visione artificiale di Azure gestiscono le esigenze di scalabilità, prestazioni, sicurezza dei dati e conformità, mentre ci si concentra sulle esigenze dei clienti.

Per la distribuzione locale, il contenitore Docker read consente di distribuire le funzionalità OCR di Visione artificiale di Azure v3.2 disponibili a livello generale nel proprio ambiente locale. I contenitori sono ottimi per requisiti specifici di sicurezza e governance dei dati.

Privacy e sicurezza dei dati OCR

Come per tutti i servizi di intelligenza artificiale di Azure, gli sviluppatori che usano il servizio Visione artificiale di Azure devono essere consapevoli dei criteri di Microsoft sui dati dei clienti. Per altre informazioni, vedere la pagina dei servizi di intelligenza artificiale di Azure nel Centro protezione Microsoft.

Passaggi successivi

OCR per immagini generali (non document) : provare l'avvio rapido dell'API REST analisi immagini di Azure AI Vision 4.0 in anteprima.
OCR per documenti PDF, Office e HTML e immagini di documenti: iniziare con Document Intelligence Read.
Cerchi la versione disponibile a livello generale precedente? Vedere gli argomenti di avvio rapido su AZURE AI Vision 3.2 GA SDK o API REST.