¿Qué es el reconocimiento óptico de caracteres?

El servicio de reconocimiento óptico de caracteres (OCR) permite extraer el texto impreso o manuscrito de imágenes, como fotos de señales de tráfico y productos, así como de documentos tales como facturas, informes financieros, artículos, etc. Las tecnologías OCR de Microsoft admiten la extracción de texto impreso en varios idiomas. Siga un inicio rápido para comenzar.

Demostraciones de OCR

Esta documentación contiene los siguientes tipos de artículos:

  • Los inicios rápidos son instrucciones paso a paso que permiten realizar llamadas al servicio y obtener los resultados en un breve período de tiempo.
  • Las guías paso a paso contienen instrucciones para usar el servicio de maneras más específicas o personalizadas.

Read API

Read API de Computer Vision es la tecnología de OCR más reciente de Azure (conozca las novedades) que permite extraer texto impreso (en varios idiomas), texto manuscrito (en varios idiomas), dígitos y símbolos de divisa de imágenes y documentos PDF con varias páginas. Esta tecnología está optimizada para extraer texto de imágenes con mucho texto y de documentos PDF con varias páginas y una mezcla de idiomas. Es compatible con la detección de texto impreso y manuscrito en un mismo documento o una misma imagen.

Cómo OCR convierte imágenes y documentos en una salida estructurada con texto extraído

Requisitos de entrada

La llamada a Read usa las imágenes y los documentos como entrada. Tienen los siguientes requisitos:

  • Formatos de archivos admitidos: JPEG, PNG, BMP, PDF y TIFF.
  • En el caso de los archivos PDF y TIFF, se procesan hasta 2000 páginas (solo las primeras dos páginas en el nivel Gratis).
  • El tamaño de archivo debe ser inferior a 50 MB (6 MB para el nivel Gratis); y sus dimensiones, de al menos 50 x 50 píxeles y, como máximo, de 10 000 x 10 000 píxeles.

Idiomas compatibles

Read API admite 122 idiomas en texto impreso y 7 idiomas en texto manuscrito, incluidos los idiomas y las características en versión preliminar.

El OCR del texto impreso incluye compatibilidad con inglés, francés, alemán, italiano, portugués, español, chino, japonés, coreano y ruso (versión preliminar), junto con idiomas cirílicos y derivados del latín con la actualización de versión preliminar más reciente.

El OCR del texto manuscrito incluye compatibilidad con inglés y una versión preliminar de compatibilidad con francés, alemán, italiano, portugués, español y chino.

Consulte los procedimientos para especificar la versión del modelo para usar las características y los idiomas de la versión preliminar. Consulte la lista completa de idiomas admitidos por OCR. El modelo en versión preliminar incluye todas las mejoras de la versión de GA actual.

Características principales

Read API incluye las características siguientes.

  • Extracción de texto impreso en 122 idiomas
  • Extracción de texto manuscrito 7 idiomas
  • Líneas de texto y palabras con puntuaciones de ubicación y confianza
  • No se requiere identificación de idioma
  • Compatibilidad con idiomas mixtos, modo mixto (impresión y escritura a mano)
  • Selección de páginas e intervalos de páginas de documentos grandes de varias páginas
  • Opción de orden de lectura natural para la salida de la línea de texto (solo para idiomas procedentes del latín).
  • Clasificación manuscrita para líneas de texto (solo para idiomas derivados del latín).
  • Disponible como contenedor sin distribución de Docker para la implementación local

Aprenda a usar las características de OCR.

Uso de Cloud API o implementación local

Las instancias de Read Cloud API 3.x son la opción preferida para la mayoría de los clientes debido a su facilidad de integración y su inmediata productividad. Azure y el servicio Computer Vision controlan las necesidades de escalado, rendimiento, seguridad de los datos y cumplimiento, lo que le permite centrarse en satisfacer las necesidades de los clientes.

En las implementaciones locales, el contenedor de Docker de Read (versión preliminar) le permite implementar las nuevas funcionalidades de OCR en su entorno local. Los contenedores son excelentes para requisitos específicos de control de datos y seguridad.

Advertencia

Las operaciones de reconocimiento de texto de Computer Vision 2.0 pronto estarán en desuso en favor de la nueva Read API de la que se habla en este artículo. Los clientes existentes deben realizar la transición a operaciones de lectura.

Seguridad y privacidad de datos

Al igual que sucede con todas las instancias de Cognitive Services, los desarrolladores que usan el servicio Computer Vision deben estar al tanto de las directivas de Microsoft sobre los datos de clientes. Para más información, consulte la página de Cognitive Services en Microsoft Trust Center.

Pasos siguientes