OCR mitmekeelsete dokumentide korral
Optiline märgituvastus (OCR) võimaldab leida ja ekstraktida teksti piltidelt või ekraanilt.
Kuigi enamik stsenaariume nõuab kindlas keeles teksti käsitlemist, on juhtumeid, kus allikad on mitmekeelsed.
Optilise tekstituvastuse tegemiseks nendes allikates kasutage vastavas optilise tekstituvastuse toimingus Tesseracti mootorit ja lubage mootori sätetes suvand Kasuta muid keeli .
Kui suvand Kasuta teisi keeli on lubatud, kuvab toiming kaks täiendavat sätet: keelelühendi ja keeletee väljad.
Keele lühendi väli näitab mootorile, millist keelt optilise tekstituvastuse ajal otsida. Keeleandmetee väli sisaldab keeleandmefaile (.traineddata), mida kasutatakse optilise tekstituvastuse mootori treenimiseks.
Pärast vajalike keelte andmefailide allalaadimist teisaldage need ühisesse kausta, et muuta need sama tee all kättesaadavaks.
Seejärel valige väljal Keeleandmete tee loodud kaust ja sisestage vastavad keelekoodid väljale Keele lühend. Keelekoodide eraldamiseks kasutage plussmärki (+).
Märkus.
Kõik saadaolevad keelekoodid leiate keeleandmefailide allikast. Järgmises näites tähistavad kasutatud koodid telugu, hindi ja inglise keelt.
Tagasiside
https://aka.ms/ContentUserFeedback.
Varsti tulekul: 2024. aasta jooksul tühistame GitHubi probleemide funktsiooni sisutagasiside mehhanismina ja asendame selle uue tagasisidesüsteemiga. Lisateabe saamiseks vtEsita ja vaata tagasisidet