Share via


Acciones PDF

Las acciones de PDF le permiten extraer imágenes, texto y tablas de archivos PDF y organizar páginas para crear nuevos documentos.

Para extraer texto de un archivo PDF, utilice la acción Extraer texto del PDF. El siguiente ejemplo extrae texto de un rango específico de páginas de un archivo protegido por contraseña. La contraseña se especifica en la configuración Avanzada.

Si desea extraer textos organizados en formato tabular, habilite la opción Optimizar para datos estructurados para mejorar el formato y la precisión de los resultados.

Captura de pantalla de la opción Extraer texto de PDF

Para extraer tablas de un archivo PDF, implemente la acción Extraer tablas de PDF, seleccione el archivo y especifique las páginas desde las que extraer.

La acción produce una variable llamada ExtractedPDFTables que contiene una lista de información de la tabla PDF. Para encontrar información sobre este tipo de lista, vaya a Tipos de datos avanzados.

Nota

  • La acción Extraer tablas de PDF no utiliza el reconocimiento óptico de caracteres (OCR), por lo que no puede extraer texto no copiable de archivos PDF escaneados.
  • La biblioteca detrás de la acción extrae ocasionalmente datos PDF adicionales que no son tablas. Esta funcionalidad minimiza el riesgo de omitir accidentalmente una tabla real.

Captura de pantalla de la opción Extraer tablas de PDF.

Además de extraer información de archivos PDF, puede crear un nuevo documento PDF a partir de un archivo existente utilizando la acción Extraer páginas de archivos PDF a un nuevo archivo PDF.

El siguiente ejemplo selecciona una combinación de páginas específicas y un rango de páginas.

Captura de pantalla de la acción Extraer páginas del archivo PDF en un nuevo archivo PDF.

Extraer texto del PDF

Puede extraer texto de un archivo PDF mediante la acción "Extraer texto del PDF". En las propiedades de la acción, puede definir el archivo PDF de origen y las páginas de las que se debe extraer el texto. En las propiedades de acción avanzadas, puede definir una contraseña en caso de que el archivo PDF esté protegido y si el motor debe optimizarse para datos estructurados o no.

Parámetros de entrada

Argumento Opcionales Acepta Valor predeterminado Descripción
PDF file No Archivo Archivo PDF del que extraer el texto. Introduzca una ruta de acceso de archivo, una variable que contenga un archivo o una ruta de texto
Página(s) a extraer N/D Todo, Individual, Rango Todos Especifica cuántas páginas se deben extraer: todas las páginas, una sola página o un intervalo de páginas
Single page number No Valor numérico Número de la página de la que se va a extraer texto
From page number No Valor numérico Primer número de página del intervalo de páginas de las que se va a extraer texto
To page number No Valor numérico Último número de página del intervalo de páginas de las que se va a extraer texto
Contraseña Entrada directa cifrada o valor de texto Contraseña del archivo PDF. Deje esto en blanco si el PDF no está protegido con contraseña
Optimizar para datos estructurados N/D Valor booleano False Especifique si desea detectar el diseño con formato en el documento y extraer el texto en consecuencia

Variables producidas

Argumento Type Descripción
ExtractedPDFText Valor de texto Texto extraído

Excepciones

Excepción Descripción
El archivo PDF no existe El archivo no existe en la ruta especificada
Contraseña no válida La contraseña especificada no es válida
No se pudo extraer texto Error al intentar extraer texto

Extraer tablas de PDF

Puede extraer tablas contenidas en un archivo PDF con la acción Extraer tablas del PDF. En las propiedades de la acción, puede definir el archivo PDF y el rango las páginas de las que se deben extraer las tablas. En las propiedades de acción avanzadas, puede definir una contraseña en caso de que el archivo PDF esté protegido, definir si la tabla tiene encabezados o no y, finalmente, si las tablas que cruzan los márgenes de la página deben fusionarse o no.

Parámetros de entrada

Argumento Opcionales Acepta Valor predeterminado Descripción
Archivo PDF No Archivo El archivo PDF del que extraer tablas. Introduzca una ruta de acceso de archivo, una variable que contenga un archivo o una ruta de texto
Página(s) a extraer N/D Todo, Individual, Rango Toda Especifica cuántas páginas se extraerán de las tablas: todas las páginas, una sola página o un intervalo de páginas
Número de página único No Valor numérico El número de la única página de la que se extraerán tablas
Desde número de página No Valor numérico El primer número de página del intervalo de páginas del que se extraerán tablas
Hasta número de página No Valor numérico Último número de página del intervalo de páginas del que se extraerán tablas
Contraseña Entrada directa cifrada o valor de texto Contraseña del archivo PDF. Deje esto en blanco si el PDF no está protegido con contraseña
Combinar tablas que cruzan márgenes de página N/D Valor booleano VERDADERO Especifica si se combinan tablas que cruzan márgenes de página en el intervalo de páginas especificado
La primera línea contiene nombres de columnas N/D Valor booleano VERDADERO Especifica si la primera línea de la tabla contiene nombres de columna

Variables producidas

Argumento Type Descripción
ExtractedPDFTables Lista de información de tabla PDF Las tablas extraídas con su información como lista

Excepciones

Excepción Descripción
El archivo PDF no existe El archivo no existe en la ruta especificada
Contraseña no válida La contraseña especificada no es válida
No se pudieron extraer tablas Error al intentar extraer tablas

Extraer las imágenes del PDF

Para extraer imágenes de un archivo PDF puede usar la acción Extraer imágenes del PDF. En los parámetros de acción, puede definir el archivo PDF y las páginas de las que extraer imágenes, la convención de nomenclatura de las imágenes extraídas y la ubicación de destino de las imágenes guardadas. También puede definir una contraseña si el archivo PDF está protegido con la configuración avanzada.

Parámetros de entrada

Argumento Opcionales Acepta Valor predeterminado Descripción
PDF file No Archivo Archivo PDF del que extraer las imágenes. Introduzca una ruta de acceso de archivo, una variable que contenga un archivo o una ruta de texto
Contraseña Entrada directa cifrada o valor de texto Contraseña del archivo PDF. Deje esto en blanco si el PDF no está protegido con contraseña
Page(s) to extract N/D Todo, Individual, Rango Toda Especifica cuántas páginas se deben extraer: todas las páginas, una sola página o un intervalo de páginas
Single page number No Valor numérico Número de la página de la que se van a extraer imágenes
From page number No Valor numérico Primer número de página del intervalo de páginas de las que se van a extraer imágenes
To page number No Valor numérico Último número de página del intervalo de páginas de las que se van a extraer imágenes
Image(s) name No Valor de texto Cómo comienza el nombre de las imágenes. Ejemplo de nombre de imágenes extraídas: GivenName_1, GivenName_2
Save image(s) to No Carpeta Carpeta para guardar las imágenes extraídas como archivos PNG

Variables producidas

Esta acción no produce ninguna variable.

Excepciones

Excepción Descripción
Contraseña no válida La contraseña especificada no es válida
No se pudieron extraer las imágenes Indica que se ha producido un error al extraer las imágenes de las páginas especificadas del PDF
La carpeta no existe Indica que la carpeta no existe
El archivo PDF no existe El archivo no existe en la ruta especificada

Extraer páginas de un archivo PDF a un nuevo archivo PDF

Puede crear un nuevo archivo PDF al extraer páginas de un archivo PDF existente si usa la acción Extraer páginas de archivos PDF a un nuevo archivo PDF. En los parámetros de acción puede definir el archivo PDF del que extraer las páginas, las páginas que se extraerán, la ubicación del nuevo archivo PDF y qué debería suceder si ya existe un archivo con el mismo nombre y extensión. Finalmente, en las propiedades avanzadas puede definir una contraseña en caso de que el PDF de origen esté protegido.

Parámetros de entrada

Argumento Opcionales Acepta Valor predeterminado Descripción
PDF file No Archivo Archivo PDF del que extraer las páginas. Introduzca una ruta de acceso de archivo, una variable que contenga un archivo o una ruta de texto
Contraseña Entrada directa cifrada o valor de texto Contraseña del archivo PDF. Deje esto en blanco si el PDF no está protegido con contraseña
Page selection No Valor de texto Los números de índice de las páginas que se conservarán (por ejemplo, 1, 3, 17-24)
Extracted PDF path No Archivo Ruta para almacenar el archivo PDF extraído
If file exists N/D Sobrescribir, No sobrescribir, Agregar sufijo secuencial Agregar sufijo secuencial Especifica qué se debe hacer en caso de que el archivo PDF de salida ya exista

Variables producidas

Argumento Type Descripción
ExtractedPDF Archivo El nuevo archivo PDF

Excepciones

Excepción Descripción
Contraseña no válida La contraseña especificada no es válida
El archivo PDF no existe El archivo no existe en la ruta especificada
Página fuera de los límites Indica que una o más páginas están fuera de los límites del archivo PDF
Selección de página no válida Indica que las páginas especificadas no son válidas para el archivo PDF
No se pudo extraer un nuevo PDF Indica que se ha producido un error al intentar extraer un nuevo PDF

Combinar archivos PDF

Combina varios archivos PDF en uno nuevo.

Puede utilizar la acción Fusionar archivos PDF para tomar dos o más archivos PDF y fusionarlos en un solo archivo. Los archivos que se van a combinar se pueden proporcionar en formato de lista o entre comillas dobles y separados con un delimitador. También puede proporcionar contraseñas para los archivos PDF, en caso de que estén protegidos con contraseña.

Parámetros de entrada

Argumento Opcionales Acepta Valor predeterminado Descripción
PDF files No Lista de archivos Los archivos para combinar. Escriba los distintos archivos entre comillas dobles (") y sepárelos con un delimitador o use una lista de archivos
Merged PDF path No Archivo Ruta para almacenar el PDF combinado
If file exists N/D Sobrescribir, No sobrescribir, Agregar sufijo secuencial Agregar sufijo secuencial Especifica qué se debe hacer en caso de que el archivo de destino ya exista
Contraseñas Entrada directa cifrada o valor de texto Las contraseñas delimitadas. El orden debe ser el mismo que el de los PDF de entrada. Deje esto en blanco si los PDF no están protegidos con contraseña
Delimitador No Valor de texto , Un delimitador de contraseña personalizado. Este delimitador no debe formar parte de ninguna de las contraseñas

Variables producidas

Argumento Type Descripción
MergedPDF Archivo Archivo PDF combinado

Excepciones

Excepción Descripción
El archivo PDF no existe El archivo no existe en la ruta especificada
Contraseña no válida La contraseña especificada no es válida
No se pudieron combinar los archivos PDF Indica que se ha producido un error al combinar los archivos