Çok dilli belgelerde OCR gerçekleştirme

Makale
03/16/2023

Optik karakter tanıma (OCR), görüntülerden veya ekrandan metin almanızı ve ayıklamanızı sağlar.

Çoğu senaryo belirli bir dilde metni işlemeniz gerekirken ancak kaynakların çok dilli olduğu durumlar vardır.

Bu kaynaklarda OCR işlemi yapmak için, ilgili OCR eyleminde bir Tesseract motoru kullanın ve altyapı ayarlarında Diğer dilleri kullan seçeneğini etkinleştirin.

OCR ile metin ayıkla eylemindeki Diğer dilleri kullan seçeneğinin ekran görüntüsü.

Diğer dilleri kullan seçeneği etkinleştirildiğinde, eylem iki ek ayar görüntüler: Dil kısaltması ve Dil veri yolu alanları.

Dil kısaltması alanı, hangi dilin OCR sırasında aranması gerektiğini altyapıya gösterir. Dil veri yolu alanı, OCR altyapısını eğitmek için kullanılan dil veri dosyalarını (.traineddata) içerir.

OCR ile metin ayıkla eylemindeki Dil kısaltması ve Dil veri yolu alanlarının ekran görüntüsü.

Gerekli dillerin veri dosyalarını yükledikten sonra, bunları aynı yol altında kullanabilmek için ortak bir klasöre taşıyın.

Sonra, Dil veri yolu alanında oluşturulan klasörü seçin ve Dil kısaltması alanında karşılık gelen dil kodlarını doldurun. Dil kodlarını ayırmak için artı karakterini (+) kullanın.

Not

Dil veri dosyalarının kaynağı içinde kullanılabilir tüm dil kodlarını bulabilirsiniz. Aşağıdaki örnekte, kullanılan kodlar Telugu, Hintçe ve İngilizce'yi temsil eder.

OCR ile metin ayıkla eylemindeki doldurulan Dil kısaltması ve Dil veri yolu alanlarının ekran görüntüsü.

Çok dilli belgelerde OCR gerçekleştirme

Ek kaynaklar