OCR - reconhecimento óptico de caracteres

Artigo
04/30/2024

OCR ou Reconhecimento Óptico de Caracteres também é conhecido como reconhecimento de texto ou extração de texto. As técnicas de OCR baseadas em aprendizado de máquina permitem extrair textos manuscritos ou impressos de imagens como pôsteres, placas de rua e etiquetas de produtos, bem como de documentos como artigos, relatórios, formulários e faturas. Normalmente, o texto é extraído como palavras, linhas de texto e parágrafos ou blocos de texto, permitindo o acesso à versão digital do texto digitalizado. Isso elimina ou reduz significativamente a necessidade de entrada manual de dados.

O Processamento Inteligente de Documentos (IDP) usa o OCR como sua tecnologia fundamental para extrair adicionalmente a estrutura, os relacionamentos, os valores-chave, as entidades e outros insights centrados em documentos com um serviço avançado de IA baseado em aprendizado de máquina, como a Informação de Documentos. A Informação de Documentos inclui uma versão otimizada para documentos do Read como seu mecanismo de OCR, ao mesmo tempo em que delega a outros modelos insights mais avançados. Se estiver extraindo textos de documentos digitalizados e digitais, utilize o OCR do Read do Informações de Documentos.

Mecanismo OCR

O mecanismo OCR de Leitura da Microsoft é composto por vários modelos avançados baseados em machine learning que dão suporte a idiomas globais. Ele extrai texto impresso e manuscrito em vários idiomas, incluindo idiomas e estilos de escrita misturados. A Leitura está disponível como serviço de nuvem e contêiner local para oferecer flexibilidade de implantação. Com a versão prévia mais recente, está disponível também como API síncrona para cenários individuais, não relacionados a documentos e somente para imagens com aprimoramentos de desempenho que facilitam a implementação de experiências de usuário assistidas por OCR.

Aviso

As operações herdadas da API de OCR na versão 3.2 do Visão de IA do Azure e da API de RecognizeText na versão 2.1 não são recomendadas para uso.

Edições de OCR (leitura)

Importante

Selecione a edição de Leitura que melhor atenda aos seus requisitos.

Entrada	Exemplos	Edição de Leitura	Benefício
Imagens: gerais, na natureza	rótulos, placas de rua e cartazes	OCR para imagens (versão 4.0)	Otimizado para imagens gerais, não documentais, com uma API síncrona com desempenho aprimorado que facilita a incorporação de OCR nos cenários de experiência do usuário.
Documentos: digitais e digitalizados, incluindo imagens	livros, artigos e relatórios	Modelo de leitura da Informação de Documentos	Otimizado para documentos digitais e digitalizados contendo texto intenso com uma API assíncrona para ajudar a automatizar o processamento inteligente de documentos em escala.

Sobre o Read da GA do Visão de IA do Azure v3.2

Procurando o Read da GA mais recente do Visão de IA do Azure v3.2? Todos os aprimoramentos futuros do OCR de Leitura fazem parte dos dois serviços listados anteriormente. Não haverá mais atualizações para a Visão de IA do Azure v3.2. Para obter mais informações, confira Chamar a API de leitura da Visão de IA do Azure 3.2 GA e Início Rápido: leitura do Visão de IA do Azure v3.2 GA.

Como usar OCR

Experimente o OCR usando o Vision Studio. Então, siga um dos links para a edição Leitura que melhor atendam aos seus requisitos.

Experimentar o Vision Studio

Screenshot: Read OCR demo in Vision Studio.

Idiomas compatíveis para OCR

Ambas as versões do Read disponíveis hoje no Visão de IA do Azure têm suporte a vários idiomas para texto impresso e manuscrito. O OCR para texto impresso inclui suporte para inglês, francês, alemão, italiano, português, espanhol, chinês, japonês, coreano, russo, árabe, híndi e outros idiomas internacionais que usam scripts latino, cirílico, árabe e devanágari. O OCR para texto manuscrito inclui suporte para os idiomas inglês, chinês simplificado, francês, alemão, italiano, japonês, coreano, português e espanhol.

Veja a lista completa de idiomas compatíveis com o OCR.

Recursos comuns do OCR

O modelo de OCR do Read está disponível no Visão de IA do Azure e na Informação de Documentos com recursos de linha de base comuns e otimizado para os respectivos cenários. A lista a seguir resume os recursos comuns:

Extração de texto impresso e manuscrito nos idiomas com suporte
Páginas, linhas de texto e palavras com pontuações de localização e confiança
Suporte para idiomas mistos, modo misto (impressão e manuscrito)
Disponível como um contêiner do Docker sem distro para implantação local

Use a APIs do OCR de nuvem ou a implantação local

As APIs de nuvem são a opção preferencial para a maioria dos clientes devido à facilidade de integração e produtividade rápida pronta para uso. O Azure e o serviço Visão de IA do Azure lidam com as necessidades de escala, desempenho, segurança de dados e conformidade, enquanto você se concentra em atender às necessidades de seus clientes.

Para implantação no local, o contêiner do Docker do Read permite implantar os recursos de OCR geralmente disponíveis do Visão de IA do Azure v3.2 no seu próprio ambiente local. Contêineres são excelentes para especificar requisitos de segurança e governança de dados.

Dados de privacidade e segurança do OCR

Como em todos os serviços de IA do Azure, os desenvolvedores que usam o serviço do Visão de IA do Azure devem estar cientes das políticas da Microsoft sobre dados de clientes. Consulte a página de serviços de IA do Azure na Central de Confiabilidade da Microsoft para saber mais.

Próximas etapas

OCR para imagens gerais (não documentadas): experimente o início rápido da API REST de Análise de Imagens da versão preliminar do Visão de IA do Azure 4.0 .
OCR para documentos PDF, Office e HTML e imagens de documentos: comece com Read do Informações de Documentos.
Procurando a versão anterior de GA? Consulte os inícios rápidos do SDK de GA do Visão de IA do Azure 3.2 ou da API REST.