OCR veikšana vairāku valodu dokumentos
Optiskā rakstzīmju atpazīšana (OCR) ļauj atrast un izvilkt tekstu no attēliem vai ekrāna.
Lai gan lielākajā daļā scenāriju ir nepieciešams apstrādāt tekstu noteiktā valodā, ir gadījumi, kad avoti ir daudzvalodu.
Lai veiktu OCR šajos avotos, attiecīgajā OCR darbībā izmantojiet Tesseract programmu un programmas iestatījumos iespējojiet opciju Lietot citas valodas .
Ja ir iespējota opcija Lietot citas valodas , darbībā tiek parādīti divi papildu iestatījumi: lauki Valodas saīsinājums un Datu ceļš Valoda.
Valodas saīsinājuma lauks norāda dzinējam, kuru valodu meklēt OCR laikā. Valodas datu ceļa lauks satur valodas datu failus (.traineddata), ko izmanto OCR programmas apmācībai.
Pēc nepieciešamo valodu datu failu lejupielādes pārvietojiet tos uz kopēju mapi, lai tie būtu pieejami tajā pašā ceļā.
Pēc tam laukā Valodas datu ceļš atlasiet izveidoto mapi un aizpildiet atbilstošos valodu kodus laukā Valodas saīsinājums . Lai atdalītu valodu kodus, izmantojiet pluszīmi (+).
Piezīmes
Visus pieejamos valodu kodus varat atrast valodas datu failu avotā. Šajā piemērā izmantotie kodi apzīmē telugu, hindi un angļu valodu.