OCR veikšana vairāku valodu dokumentos

Raksts
06/21/2023

Optiskā rakstzīmju atpazīšana (OCR) ļauj atrast un izvilkt tekstu no attēliem vai ekrāna.

Lai gan lielākajā daļā scenāriju ir nepieciešams apstrādāt tekstu noteiktā valodā, ir gadījumi, kad avoti ir daudzvalodu.

Lai veiktu OCR šajos avotos, attiecīgajā OCR darbībā izmantojiet Tesseract programmu un programmas iestatījumos iespējojiet opciju Lietot citas valodas .

Ekrānuzņēmums, kurā redzama opcija Lietot citas valodas darbībā Izgriezt tekstu witg OCR.

Ja ir iespējota opcija Lietot citas valodas , darbībā tiek parādīti divi papildu iestatījumi: lauki Valodas saīsinājums un Datu ceļš Valoda.

Valodas saīsinājuma lauks norāda dzinējam, kuru valodu meklēt OCR laikā. Valodas datu ceļa lauks satur valodas datu failus (.traineddata), ko izmanto OCR programmas apmācībai.

Ekrānuzņēmums, kurā redzami lauki Valodas saīsinājums un Valodas datu ceļš darbībā Exctract text witg OCR.

Pēc nepieciešamo valodu datu failu lejupielādes pārvietojiet tos uz kopēju mapi, lai tie būtu pieejami tajā pašā ceļā.

Pēc tam laukā Valodas datu ceļš atlasiet izveidoto mapi un aizpildiet atbilstošos valodu kodus laukā Valodas saīsinājums . Lai atdalītu valodu kodus, izmantojiet pluszīmi (+).

Piezīmes

Visus pieejamos valodu kodus varat atrast valodas datu failu avotā. Šajā piemērā izmantotie kodi apzīmē telugu, hindi un angļu valodu.

Ekrānuzņēmums, kurā redzami aizpildītie valodas saīsinājumi un valodas datu ceļa lauki darbībā Teksta asprātība ar OCR.

Kopīgot, izmantojot

OCR veikšana vairāku valodu dokumentos

Papildu resursi