Pdf

Name: Pdf
Author: awspace

全方位 Pdf 工具組，可用於提取文字／表格、建立、合併、分割、加浮水印及填寫 Pdf 表單。

awspacev1.0.0

正在連線至智能體...

npx clawhub@latest install pdf

55Star 數

36.8k下載次數

195目前安裝數

755累計安裝數

v1.0.0版本

查看原始碼(ClawHub)

Pdf 技能概述

Pdf 技能為您的 AI 代理提供一整套 PDF 操作功能，由 Python 函式庫（pypdf、pdfplumber、reportlab）和命令列工具（qpdf、pdftotext、pdftk）提供支援。它能處理從讀取和擷取結構化資料、從頭建立新文件、合併或分割檔案、新增浮水印、密碼加密，到填寫 PDF 表單等各種需求。當您需要以程式化方式大規模處理、產生或分析 PDF 文件時，請安裝此技能。

如何使用

Step 1: 在終端機執行或在 AgentCellar 上安裝此技能

npx clawhub@latest install pdf

或

點擊本頁頂部的安裝按鈕即可一鍵設定

When to Use Pdf

Best Fit

大規模資料擷取 — 您需要從大量 PDF 中提取文字或表格資料，並將其輸入至管道、試算表或資料庫。
文件生成 — 您需要使用動態資料，以程式化方式建立格式化的多頁 PDF 報告。
文件管理工作流程 — 您需要將多個 PDF 合併為一個、將大型文件拆分為單頁或指定範圍，或旋轉／重新排序頁面。
表單自動化 — 您需要以程式化方式填寫 PDF 表單，而非手動填寫，如該技能的 forms.md 參考文件所述。
掃描文件處理 — 您需要使用 pytesseract 對圖像型 PDF 進行 OCR，以還原可供機器讀取的文字。

When Not to Use

簡單的一次性查看 — 如果您只需要以視覺方式閱讀 PDF，標準的 PDF 檢視器比此技能更為合適。
保留複雜版面的編輯 — 如果您需要豐富的所見即所得編輯功能（紅線標記、帶有豐富格式的註解），專用的桌面 PDF 編輯器將更能滿足需求。
非 Python 環境 — 如果您的技術堆疊完全是 JavaScript/Node.js，此技能的 Python 函式庫將無法直接適用（不過 reference.md 涵蓋了 JS 替代方案，例如 pdf-lib）。

核心功能

文字與表格擷取

使用 pdfplumber 從任意頁面擷取保留版面配置的純文字及結構化表格。表格可直接匯出至 pandas DataFrame，並儲存為 Excel 檔案，以供後續分析使用。

使用 reportlab 建立 PDF

使用 reportlab 的 canvas API 或更高層級的 Platypus 文件引擎，從頭開始產生全新的 Pdf 文件。支援多頁報表、標題、段落、間距及分頁符號。

合併、分割與旋轉

將多個 Pdf 合併為一個、將文件拆分為單頁或指定頁面範圍，以及將頁面旋轉任意角度——可透過 Python 中的 pypdf，或在命令列使用 qpdf／pdftk 來完成。

掃描版 Pdf 的 OCR 文字辨識

使用 pdf2image 將掃描的影像型 Pdf 轉換為圖片，並對每一頁執行 pytesseract OCR，從不含內嵌文字層的文件中還原可供機器讀取的文字內容。

浮水印與密碼保護

使用 pypdf 的 merge_page API，將浮水印頁面疊加至文件的每一頁。以獨立的使用者密碼與擁有者密碼加密 Pdf 檔案，或使用 qpdf 解密受密碼保護的檔案。

Pdf 表單處理

支援透過 pypdf 或 JavaScript pdf-lib 函式庫以程式化方式填寫表單（詳見該技能的 forms.md）。適用於需要填入標準 Pdf 表單的自動化提交工作流程。

使用情境

自動化報告生成

代理程式從 API 或資料庫中提取資料，使用 reportlab 進行格式化，並生成具有品牌風格的多頁 Pdf 報告——全程無需任何人工操作文書處理軟體。

批量發票或合約資料擷取

一個代理程式逐一處理數百份 Pdf 發票，使用 pdfplumber 擷取明細項目表格，並將結構化結果寫入試算表或資料庫，以供會計或合規審查使用。

掃描文件數位化

代理程式接收掃描的 Pdf 檔案（例如紙本表單或舊式記錄），將每一頁轉換為圖片，使用 pytesseract 執行 OCR 光學字元辨識，並儲存擷取的文字以供搜尋或進一步處理。

PDF 表單自動填寫流程

一個代理程式從 Pdf 範本中讀取表單欄位定義，以 CRM 或試算表中的資料填入相應欄位，並輸出已完成、可供簽署的 Pdf 表單——依照 forms.md 中描述的工作流程執行。

系統需求

Python 執行環境 — 必要項目。使用的函式庫：pypdf、pdfplumber、reportlab、pandas、pdf2image、pytesseract。
Tesseract OCR 執行檔 (選用) — 僅在對掃描版 Pdf 進行 OCR 時需要。必須在主機系統上另行安裝。
poppler-utils (選用) — 提供 pdftotext 與 pdfimages 命令列工具，用於文字與影像擷取。
qpdf (選用) — 用於合併、分割、旋轉及解密 Pdf 的命令列工具。
pdftk (選用) — 若主機上已安裝，可作為合併、分割及旋轉 Pdf 的替代命令列工具。

正在連線至智能體...

npx clawhub@latest install pdf

55Star 數

36.8k下載次數

195目前安裝數

755累計安裝數

v1.0.0版本

查看原始碼(ClawHub)

常見問題

評價

0 則評價

登入後撰寫評價

尚無評價。來分享你的使用體驗吧！