OCR mitmekeelsete dokumentide korral

Artikkel
01/30/2024

Optiline märgituvastus (OCR) võimaldab leida ja ekstraktida teksti piltidelt või ekraanilt.

Kuigi enamik stsenaariume nõuab kindlas keeles teksti käsitlemist, on juhtumeid, kus allikad on mitmekeelsed.

Optilise tekstituvastuse tegemiseks nendes allikates kasutage vastavas optilise tekstituvastuse toimingus Tesseracti mootorit ja lubage mootori sätetes suvand Kasuta muid keeli .

Kuvatõmmis suvandist Kasuta muid keeli toimingus Exctract text witg OCR.

Kui suvand Kasuta teisi keeli on lubatud, kuvab toiming kaks täiendavat sätet: keelelühendi ja keeletee väljad.

Keele lühendi väli näitab mootorile, millist keelt optilise tekstituvastuse ajal otsida. Keeleandmetee väli sisaldab keeleandmefaile (.traineddata), mida kasutatakse optilise tekstituvastuse mootori treenimiseks.

Kuvatõmmis keelelühendi ja keeletee väljadest toimingus Exctract text witg OCR.

Pärast vajalike keelte andmefailide allalaadimist teisaldage need ühisesse kausta, et muuta need sama tee all kättesaadavaks.

Seejärel valige väljal Keeleandmete tee loodud kaust ja sisestage vastavad keelekoodid väljale Keele lühend. Keelekoodide eraldamiseks kasutage plussmärki (+).

Märkus.

Kõik saadaolevad keelekoodid leiate keeleandmefailide allikast. Järgmises näites tähistavad kasutatud koodid telugu, hindi ja inglise keelt.

Kuvatõmmis toimingu Exctract text witg OCR asustatud keelelühendi ja keeleandmetee väljadest.

Jagamisviis:

OCR mitmekeelsete dokumentide korral

Tagasiside

Tagasiside

Lisaressursid