Compartilhar via


Realizar OCR em documentos multilíngue

O OCR (Reconhecimento óptico de caracteres) permite localizar e extrair texto de imagens ou da tela.

Embora a maioria dos cenários exija que você processe texto em um idioma específico, existem casos nos quais as fontes são multilíngue.

Para realizar OCR nessas fontes, use um mecanismo Tesseract na respectiva ação de OCR e habilite a opção Usar outros idiomas nas configurações do motor.

Captura de tela da opção Usar outros idiomas em Extrair texto com ação de OCR.

Quando a opção Usar outros idiomas está habilitada, a ação exibe duas configurações adicionais: os campos Abreviação do idioma e Caminho de dados do idioma.

O campo Abreviação do idioma indica para o mecanismo qual idioma procurar durante o OCR. O campo Caminho de dados do idioma contém os arquivos de dados do idioma (.traineddata) usado para treinar o mecanismo de OCR.

Captura de tela dos campos Abreviação do idioma e Caminho de dados do idioma na ação Extrair texto com ação de OCR.

Depois de baixar os arquivos de dados para os idiomas necessários, mova-os para uma pasta em comum a fim de disponibilizá-los no mesmo caminho.

Em seguida, selecione a pasta criada no campo Caminho de dados do idioma e preencha os códigos de idioma correspondentes no campo Abreviação do idioma. Para separar os códigos de idioma, use o caractere de adição (+).

Observação

É possível encontrar todos os códigos de idioma disponíveis na fonte dos arquivos de dados do idioma. No exemplo a seguir, os códigos usados representam télugo, híndi e inglês.

Captura de tela dos campos Abreviação do idioma e Caminho de dados do idioma preenchidos na ação Extrair texto com ação de OCR.