O que é o OCR (reconhecimento óptico de caracteres)?

O OCR (reconhecimento óptico de caracteres) permite que você extraia textos impressos ou manuscritos de imagens, como fotos de placas e produtos, bem como de documentos — faturas, contas, relatórios financeiros, artigos etc. As tecnologias do OCR da Microsoft dão suporte à extração de textos impressos em vários idiomas. Siga nosso início rápido para começar.

Demonstrações de OCR

Esta documentação contém os seguintes tipos de artigos:

  • Os inícios rápidos são instruções passo a passo que permitem fazer chamadas para o serviço e obter resultados em um período curto.
  • Os guias de instruções contêm instruções para usar o serviço de maneiras mais específicas ou personalizadas.

API de leitura

A API de Leitura da Pesquisa Visual Computacional é a tecnologia de OCR mais recente do Azure (conheça as novidades) que extrai texto impresso (em vários idiomas), texto manuscrito (somente em inglês), dígitos e símbolos de moeda de imagens e documentos PDF de várias páginas. Ela é otimizada para extrair texto de imagens com muito texto e documentos PDF de várias páginas com idiomas mistos. Dá suporte à detecção de texto impresso e manuscrito na mesma imagem ou no mesmo documento.

Como o OCR converte imagens e documentos em uma saída estruturada com o texto extraído

Requisitos de entrada

A chamada de Leitura usa imagens e documentos como a entrada. Eles têm os seguintes requisitos:

  • Formatos de arquivo compatíveis: JPEG, PNG, BMP, PDF e TIFF
  • Para arquivos PDF e TIFF, até 2 mil páginas (apenas as duas primeiras páginas da camada gratuita) são processadas.
  • O tamanho do arquivo precisa ser menor que 50 MB (6 MB para a camada gratuita) e ter como dimensões, no mínimo, 50 x 50 pixels e, no máximo, 10000 x 10000 pixels.

Idiomas com suporte

A API de leitura dá suporte a 122 idiomas para texto impresso e 7 idiomas para texto manuscrito, incluindo recursos e linguagens de versão prévia.

O OCR para o texto impresso inclui suporte para inglês, francês, alemão, italiano, Português, espanhol, chinês, japonês, coreano e russo (versão prévia), juntamente com idiomas latinos e cirílicos com a atualização mais recente da versão prévia.

O OCR para texto manuscrito inclui suporte para inglês e para a versão prévia de francês, alemão, italiano, português, espanhol e chinês.

Confira Como especificar a versão do modelo para usar a versão prévia dos idiomas e recursos. Veja a lista completa de idiomas compatíveis com o OCR. O modelo de versão prévia inclui qualquer aprimoramento para a versão atual em GA.

Principais recursos

A API de leitura inclui os recursos a seguir.

  • Imprimir extração de texto em 122 idiomas
  • Extração de texto manuscrito em sete idiomas
  • Linhas de texto e palavras com pontuações de localização e confiança
  • Nenhuma identificação de idioma necessária
  • Suporte para idiomas mistos, modo misto (impressão e manuscrito)
  • Selecionar páginas e intervalos de páginas de documentos grandes, com várias páginas
  • Opção de ordem natural de leitura para a saída da linha de texto (somente para Latin)
  • Classificação manuscrita para linhas de texto (somente para Latin)
  • Disponível como um Contêiner do Docker Distroless para implantação local

Saiba como usar os recursos de OCR.

Usar a API de nuvem ou implantá-la no local

As APIs de nuvem de Leitura 3.x são a opção preferencial para a maioria dos clientes devido à facilidade de integração e produtividade rápida pronta para uso. O Azure e o serviço de Pesquisa Visual Computacional cuidam das necessidades de escala, desempenho, segurança de dados e conformidade enquanto você se concentra em atender às necessidades dos seus clientes.

Para a implantação local, o contêiner do Docker de Leitura (versão prévia) permite que você implante as novas funcionalidades de OCR no seu ambiente local. Contêineres são excelentes para especificar requisitos de segurança e governança de dados.

Aviso

As operações de Reconhecimento de Texto da Pesquisa Visual Computacional 2.0 estão no processo de serem preteridas em favor da nova API de Leitura abordada neste artigo. Os clientes existentes devem fazer a transição para ela usando operações de Leitura.

Segurança e privacidade de dados

Assim como ocorre com todos os Serviços Cognitivos, os desenvolvedores que usam o serviço de Pesquisa Visual Computacional devem estar cientes das políticas da Microsoft em relação aos dados do cliente. Confira a página de Serviços Cognitivos na Central de Confiabilidade da Microsoft para saber mais.

Próximas etapas