PDF 動作

PDF 動作讓您可從 PDF 檔案中擷取圖像、文字及表格,以及排列頁面以建立新的文件。

若要從 PDF 檔案中擷取文字,請使用從 PDF 擷取文字動作。 下列範例會從受到密碼保護檔案的特定頁面範圍中擷取文字。 密碼會在進階設定中指定。

若要擷取以表格式表單排列的文字,請啟用最佳化結構性資料,以改善結果的格式和準確性。

[從 PDF 擷取文字] 動作的螢幕擷取畫面。

若要從 PDF 檔案中擷取表格,請部署從 PDF 擷取表格動作,接著選取檔案,再指定要從中擷取的頁面。

此動作會產生包含PDF 表格資訊清單的 ExtractedPDFTables 變數。 如需有關此類清單的詳細資訊,請移至進階資料類型

注意

  • 從 PDF 擷取資料表動作不會使用光學字元辨識 (OCR),因此您無法從掃描的 pdf 提取非可複製文字。
  • 動作後面的程式庫偶爾會擷取其他不是表格的 PDF 資料。 此功能可將意外忽略真實資料表的風險降至最低。

[從 PDF 擷取資料表] 動作的螢幕擷取畫面。

除了從 PDF 檔案提取資訊之外,您可以使用將 PDF 檔案頁面解壓縮至新的 PDF 檔案動作,從現有的檔案建立新的 PDF 檔案。

下列範例混合選取了特定頁面與一段頁面。

[將 PDF 檔案頁面解壓縮至新 PDF 檔案] 動作的螢幕擷取畫面。

從 PDF 擷取文字

您可以使用「從 PDF 擷取文字」動作從 PDF 檔案中擷取文字。 在動作屬性中,您可以定義來源 PDF 檔案和應從中擷取文字的頁面。 在進階動作屬性底下,您可以定義密碼,以防 PDF 檔案受到保護,和定義引擎是否應針對結構化資料進行最佳化。

輸入參數

引數 選用 接受 預設值 描述
PDF file 檔案 要擷取文字的來源 PDF 檔案。 請輸入檔案路徑,或是包含檔案或文字路徑的變數
Page(s) to extract N/A 所有、單一、範圍 所有 指定要擷取多少頁面:所有頁面、單一頁面或頁面範圍
Single page number 數值 要擷取文字之單一頁面的頁碼
From page number 數值 從中擷取文字之頁面範圍的起始頁碼
To page number 數值 從中擷取文字之頁面範圍的結束頁碼
密碼 直接加密文字輸入或文字值 PDF 檔案的密碼。 如果 PDF 未以密碼保護,請保留此處空白
最佳化結構化資料 N/A 布林值 False 指定是否偵測文件中的格式化配置並據以擷取文字

變數已產生

引數 類型​ 描述
ExtractedPDFText 文字值 已擷取的文字

例外狀況

例外 描述
PDF 檔案不存在 檔案不在指定的路徑上
密碼無效 指定的密碼無效
無法擷取文字 嘗試擷取文字時發生錯誤

從 PDF 擷取資料表

您可以使用從 PDF 擷取資料表動作,來擷取包含在 PDF 檔案中的資料表。 在動作屬性中,您可以定義來源 PDF 檔案和從中擷取資料表的範圍。 在進階動作屬性下,您可以定義密碼,以防 PDF 檔案受到保護、定義資料表是否有標題,以及最後是否應合併跨頁邊距的資料表。

輸入參數

引數 選用 接受 預設值 描述
PDF file 檔案 從 PDF 檔案擷取資料表。 請輸入檔案路徑,或是包含檔案或文字路徑的變數
Page(s) to extract 無法使用 所有、單一、範圍 所有 指定有幾頁要擷取資料表: 所有頁面、單一頁面或頁面範圍
Single page number 數值 要擷取資料表的單一頁碼
From page number 數值 從中擷取資料表之頁面範圍的起始頁碼
To page number 數值 從中擷取資料表之頁面範圍的結束頁碼
密碼 直接加密文字輸入或文字值 PDF 檔案的密碼。 如果 PDF 未以密碼保護,請保留此處空白
合併跨頁面邊距的資料表 無法使用 布林值 True 指定是否要合併指定的頁面範圍內跨頁面邊距的資料表
First line contains column names 無法使用 布林值 True 指定資料表的第一行是否包含欄名稱

變數已產生

引數 類型​ 描述
ExtractedPDFTables PDF 資料表資訊的清單 擷取的資料表,並以清單形式顯示其資訊

例外狀況

例外狀況 名稱
PDF 檔案不存在 檔案不在指定的路徑上
密碼無效 指定的密碼無效
無法擷取資料表 嘗試擷取資料表時發生錯誤

從 PDF 擷取影像

若要從 PDF 檔案中擷取影像,您可以使用從 PDF 擷取資料表動作。 在動作參數中,您可以定義 PDF 檔案和要從中擷取影像的頁面、擷取影像的命名規則,以及儲存影像的目標位置。 如果 PDF 檔案在進階設定下受到保護,您也可以定義密碼。

輸入參數

引數 選用 接受 預設值 描述
PDF file 檔案 要擷取影像的來源 PDF 檔案。 請輸入檔案路徑,或是包含檔案或文字路徑的變數
密碼 直接加密文字輸入或文字值 PDF 檔案的密碼。 如果 PDF 未以密碼保護,請保留此處空白
Page(s) to extract 無法使用 所有、單一、範圍 所有 指定要擷取多少頁面: 所有頁面、單一頁面或頁面範圍
Single page number 數值 要擷取影像之單一頁面的頁碼
From page number 數值 從中擷取影像之頁面範圍的起始頁碼
To page number 數值 從中擷取影像之頁面範圍的結束頁碼
Image(s) name 文字值 影像名稱的起始方式。 擷取的影像名稱範例:GivenName_1、GivenName_2
Save image(s) to 資料夾 將擷取的影像另存為 png 檔案的資料夾

變數已產生

此動作不會產生任何變數。

例外狀況

例外狀況 描述
密碼無效 指定的密碼無效
無法擷取影像 表示從 PDF 的指定頁面擷取影像時發生錯誤
資料夾不存在 表示資料夾不存在
PDF 檔案不存在 檔案不在指定的路徑上

將 PDF 檔案中的頁面擷取至新的 PDF 檔案

您可以使用PDF 檔案頁面至新的 PDF 檔案動作,從現有 PDF 檔案中擷取頁面來建立新的 PDF 文件。 在動作參數中,您可以定義要從中擷取頁面的 PDF 檔案、要擷取的頁面、新 PDF 檔案的位置,以及如果已存在具有相同名稱和副檔名的檔案,會發生什麼情況。 最後,在進階屬性底下,您可以定義密碼,以防來源 PDF 受到保護。

輸入參數

引數 選用 接受 預設值 描述
PDF file 檔案 要擷取頁面的來源 PDF 檔案。 請輸入檔案路徑,或是包含檔案或文字路徑的變數
密碼 直接加密文字輸入或文字值 PDF 檔案的密碼。 如果 PDF 未以密碼保護,請保留此處空白
Page selection 文字值 要保留的頁面索引號碼 (如 1、3、17-24)
Extracted PDF path 檔案 儲存已擷取 PDF 檔案的路徑
If file exists 無法使用 覆寫、不要覆寫、新增循序尾碼 新增循序尾碼 指定當輸出 PDF 檔案已經存在時應採取的行動

變數已產生

引數 類型​ 描述
ExtractedPDF 檔案 新的 PDF 檔案

例外狀況

例外 描述
密碼無效 指定的密碼無效
PDF 檔案不存在 檔案不在指定的路徑上
頁面超出邊界 表示一個或多個頁面超出 PDF 檔案的邊界
頁面選擇無效 表示指定的頁面不適用於 PDF 檔案
無法擷取新的 PDF 表示嘗試擷取新 PDF 時發生錯誤

合併 PDF 檔案

將多個 PDF 檔案合併為一個新檔案。

您可以使用合併 PDF 檔案動作來取得兩個或多個 PDF 檔案,並將它們合併成單一檔案。 要合併的檔案可以用清單的形式顯示,也可以用雙引號括起來並用分隔符號隔開。 您也可以提供 PDF 檔案的密碼 (若有密碼保護的話)。

輸入參數

引數 選用 接受 預設值 描述
PDF files 檔案清單 要合併的檔案。 將多個檔案放在雙引號 (") 中,並以分隔符號隔開,或使用檔案清單
Merged PDF path 檔案 儲存合併之 PDF 檔案的路徑
If file exists 無法使用 覆寫、不要覆寫、新增循序尾碼 新增循序尾碼 指定當目的地檔案已經存在時應採取的行動
密碼 直接加密文字輸入或文字值 以分隔符號隔開的密碼。 順序應該與輸入 PDF 的順序相同。 如果 PDF 未以密碼保護,請保留此處空白
分隔符號 文字值 , 自訂密碼分隔符號。 此分隔符號不可以是任何密碼的組成部分

變數已產生

引數 類型​ 描述
MergedPDF 檔案 合併的 PDF 檔案

例外狀況

例外 描述
PDF 檔案不存在 檔案不在指定的路徑上
密碼無效 指定的密碼無效
無法合併 PDF 檔案 表示合併檔案時發生錯誤