Modelo de diseño de Form Recognizer
La API Layout de Azure Form Recognizer extrae texto, tablas, marcas de selección e información de estructura de documentos (PDF, TIFF) e imágenes (JPG, PNG, BMP). El modelo de diseño combina una versión mejorada de nuestras poderosas funcionalidades de reconocimiento óptico de caracteres (OCR) con modelos de aprendizaje profundo para extraer texto, tablas, marcas de selección y la estructura de los documentos.
Formulario de ejemplo procesado con la característica de diseño de la herramienta de etiquetado de ejemplo de Form Recognizer
Características de extracción de datos
| Modelo de diseño | Extracción de texto | Marcas de selección | Tablas |
|---|---|---|---|
| Layout | ✓ | ✓ | ✓ |
Opciones de desarrollo
Los siguientes recursos son compatibles con Form Recognizer v2.1:
| Característica | Recursos |
|---|---|
| API de diseño |
Los siguientes recursos son compatibles con Form Recognizer v3.0:
| Característica | Recursos | Id. de modelo |
|---|---|---|
| Modelo de diseño | diseño preelaborado |
Probar Form Recognizer
Vea cómo se extraen datos, incluidas tablas, casillas y texto, de formularios y documentos mediante Form Recognizer Studio o nuestra herramienta de etiquetado de ejemplo. Necesitará lo siguiente:
Una suscripción a Azure: puede crear una cuenta gratuita
Una instancia de Form Recognizer en Azure Portal. Puede usar el plan de tarifa gratuito (
F0) para probar el servicio. Después de implementar el recurso, seleccione Ir al recurso para obtener la clave de API y el punto de conexión.
Form Recognizer Studio (versión preliminar)
Nota
Form Recognizer Studio está disponible con la API de versión preliminar (v3.0).
Formulario de ejemplo procesado con Form Recognizer Studio
En la página principal Form Recognizer Studio, seleccione Diseño
Puede analizar el documento de ejemplo o seleccionar el botón + Agregar para cargar su propio ejemplo.
Seleccione el botón Analizar:
Herramienta de etiquetado de muestras
Necesitará un documento de formulario. Puede usar nuestro documento de formulario de ejemplo.
En la página principal de la herramienta de etiquetado de muestras, seleccione Usar diseño para obtener texto, tablas y marcas de selección.
Seleccione Archivo local en el menú desplegable.
Upload el archivo y seleccione Ejecutar diseño
Requisitos de entrada
- Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.
- Formatos de archivo admitidos: JPEG, PNG, BMP, TIFF y PDF (texto insertado o digitalizado). Los PDF insertados de texto son mejores para eliminar la posibilidad de error en la extracción de caracteres y en la ubicación.
- En el caso de PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratuito, solo se procesan las dos primeras páginas).
- El tamaño del archivo debe ser inferior a 50 MB.
- Las imágenes deben tener unas dimensiones entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.
- Los archivos PDF tienen unas dimensiones de hasta 17 x 17 pulgadas, lo que corresponde a los tamaños de papel Legal o A3, o más pequeños.
- El tamaño total de los datos de entrenamiento es de 500 páginas o menos.
- Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.
- Para un aprendizaje sin supervisión (sin datos etiquetados):
- Los datos deben contener claves y valores.
- Las claves deben aparecer por encima o a la izquierda de los valores; no pueden aparecer por debajo ni a la derecha.
Nota
La herramienta de etiquetado de ejemplo no admite el formato de archivo BMP. Se trata de una limitación de la herramienta, no del servicio Form Recognizer.
Idiomas y configuraciones regionales compatibles
La versión preliminar de Form Recognizer presenta compatibilidad de idioma adicional para el modelo de diseño. Consulte nuestra compatibilidad de idioma para obtener una lista completa de textos manuscritos e impresos compatibles.
Características
Tablas y encabezados de tabla
La API Layout extrae tablas de la sección pageResults de la salida JSON. Los documentos se pueden digitalizar o fotografiar. Las tablas pueden ser complejas con celdas o columnas combinadas, con o sin bordes, y con ángulos impares. La información de las tablas extraídas incluyen el número de columnas y filas, el intervalo de filas y el intervalo de columnas. Cada celda con su rectángulo de selección se genera con información sobre si se reconoce como parte de un encabezado o no. Las celdas de encabezado predichos del modelo pueden abarcar varias filas y no son necesariamente las primeras filas de una tabla. También funcionan con tablas giradas. Cada celda de la tabla también incluye el texto completo con referencias a las palabras individuales de la sección readResults.
Marcas de selección
La API Layout también extrae marcas de selección de los documentos. Entre las marcas de selección extraídas se incluyen el rectángulo delimitador, la confianza y el estado (seleccionado o no seleccionado). La información de la marca de selección se extrae en la sección readResults de la salida JSON.
Palabras y líneas del texto
La API Layout extrae texto de documentos e imágenes con varios ángulos y colores de texto. Es compatible con fotografías de documentos, faxes, texto impreso o manuscrito (solo en inglés) y modos mixtos. El texto se extrae con información sobre las líneas, palabras, rectángulos delimitadores, puntuaciones de confianza y estilo (manuscrito u otro). Toda la información del texto se incluye en la sección readResults de la salida JSON.
Orden de lectura natural para las líneas de texto (solo idiomas derivados del latín)
Puede especificar el orden en que se generan las líneas de texto con el parámetro de consulta readingOrder. Use natural si quiere obtener una salida de orden de lectura más natural, como se muestra en el ejemplo siguiente. Esta característica solo es compatible con los idiomas procedentes del latín.
Clasificación manuscrita de líneas de texto (solo para idiomas derivados del latín)
La respuesta incluye la clasificación de si cada línea de texto es de estilo manuscrito o no, junto con una puntuación de confianza. Esta característica solo es compatible con los idiomas procedentes del latín. En el ejemplo siguiente se muestra la clasificación manuscrita del texto de la imagen.
Seleccione los intervalos o los números de páginas para la extracción de texto
En el caso de documentos de varias páginas de gran tamaño, use el parámetro de consulta pagespara indicar números de página o intervalos de páginas específicos para la extracción de texto. En el ejemplo siguiente se muestra un documento con 10 páginas, con texto extraído para ambos casos: todas las páginas (1-10) y las páginas seleccionadas (3-6).
Versión preliminar de Form Recognizer v3.0
La versión preliminar de Form Recognizer presenta varias características y funcionalidades nuevas.
Siga nuestra guía de migración de Form Recognizer v3.0 para obtener información sobre cómo usar la versión preliminar en las aplicaciones y flujos de trabajo.
Explore nuestra API de REST (versión preliminar) para obtener más información sobre la versión preliminar y las nuevas funcionalidades.
Pasos siguientes
Completar un inicio rápido de Form Recognizer:
Explorar nuestra API de REST: