Pdf

Name: Pdf
Author: awspace

全面的 Pdf 工具包，用于提取文本/表格、创建、合并、拆分、添加水印以及填写 Pdf 表单。

awspacev1.0.0

正在连接智能体...

npx clawhub@latest install pdf

55Star 数

36.8k下载次数

195当前安装数

755累计安装数

v1.0.0版本

查看源码(ClawHub)

Pdf 技能概述

Pdf技能为您的AI代理提供了一整套PDF操作功能，由Python库（pypdf、pdfplumber、reportlab）和命令行工具（qpdf、pdftotext、pdftk）提供支持。它处理从读取和提取结构化数据，到从头创建新文档、合并或拆分文件、添加水印、密码加密以及填写PDF表单等一切操作。当您需要以编程方式大规模处理、生成或分析PDF文档时，请安装此技能。

如何使用

Step 1: 在终端运行或在 AgentCellar 上安装此技能

npx clawhub@latest install pdf

或

点击本页顶部的安装按钮即可一键设置

Pdf 适用场景

适合使用

大规模数据提取 — 您需要从大量 PDF 中提取文本或表格数据，并将其输送到流水线、电子表格或数据库中。
文档生成 — 您需要使用动态数据以编程方式创建格式化的多页 PDF 报告。
文档管理工作流 — 您需要将多个 PDF 合并为一个文件、将大型文档拆分为单独的页面或页面范围，或者对页面进行旋转/重新排序。
表单自动化 — 您需要以编程方式填写 PDF 表单，而非手动填写，如该技能的 forms.md 参考文档所述。
扫描文档处理 — 您需要使用 pytesseract 对基于图像的 PDF 进行 OCR 处理，以恢复机器可读的文本。

不适合使用

简单的一次性查看 — 如果您只需要直观地阅读 Pdf，标准的 Pdf 查看器比本技能更为合适。
保留复杂排版的编辑 — 如果您需要丰富的所见即所得编辑功能（如红线标注、带有丰富格式的批注），专用的桌面 Pdf 编辑器将更能满足需求。
非 Python 环境 — 如果您的技术栈完全基于 JavaScript/Node.js，本技能的 Python 库将无法直接适用（不过 reference.md 中涵盖了 pdf-lib 等 JS 替代方案）。

核心功能

文本与表格提取

使用 pdfplumber 从任意页面提取保留布局的纯文本及结构化表格。表格可直接导出为 pandas DataFrame，并保存为 Excel 文件，以便进行后续分析。

使用 reportlab 创建 Pdf 文件

使用 reportlab 的画布 API 或更高层级的 Platypus 文档引擎从头生成新的 Pdf 文档。支持多页报告、标题、段落、间距和分页符。

合并、拆分与旋转

将多个 Pdf 合并为一个文件，将文档拆分为单独的页面或指定页面范围，并按任意角度旋转页面——所有操作均可通过 Python 中的 pypdf 或命令行中的 qpdf/pdftk 来实现。

OCR 扫描版 Pdf 识别

使用 pdf2image 将扫描的图像型 Pdf 转换为图片，并对每一页运行 pytesseract OCR 识别，从不含嵌入文字层的文档中提取可供机器读取的文本内容。

水印添加与密码保护

使用 pypdf 的 merge_page API，将水印页面叠加到文档的每一页上。通过独立的用户密码和所有者密码对 Pdf 进行加密，或使用 qpdf 解密受密码保护的 Pdf 文件。

Pdf 表单处理

支持通过 pypdf 或 JavaScript pdf-lib 库以编程方式填写表单（详见该技能的 forms.md）。适用于需要填充标准 Pdf 表单的提交工作流自动化场景。

使用场景

自动化报告生成

一个智能代理从 API 或数据库中提取数据，使用 reportlab 进行格式化，并生成带有品牌标识的多页 Pdf 报告——整个过程无需任何人工操作文字处理软件。

批量发票或合同数据提取

一个智能体遍历数百份 Pdf 发票，使用 pdfplumber 提取行项目表格，并将结构化结果写入电子表格或数据库，以供财务核算或合规审查使用。

扫描文档数字化

一个代理接收扫描的 Pdf 文件（例如纸质表单或历史档案），将每页转换为图像，使用 pytesseract 进行 OCR 识别，并存储提取的文本以供搜索或进一步处理。

PDF 表单自动填写流水线

代理从 Pdf 模板中读取表单字段定义，使用来自 CRM 或电子表格的数据填充这些字段，并输出已完成、可供签署的 Pdf 表单——遵循 forms.md 中描述的工作流程。

系统要求

Python 运行时 — 必需。使用的库：pypdf、pdfplumber、reportlab、pandas、pdf2image、pytesseract。
Tesseract OCR 二进制文件 (可选) — 仅在对扫描版 Pdf 进行 OCR 时需要。必须在主机系统上单独安装。
poppler-utils (可选) — 提供 pdftotext 和 pdfimages 命令行工具，用于文本和图像提取。
qpdf (可选) — 用于合并、拆分、旋转和解密 Pdf 的命令行工具。
pdftk (可选) — 用于合并、拆分和旋转 Pdf 的替代命令行工具，如果主机上已安装则可使用。

正在连接智能体...

npx clawhub@latest install pdf

55Star 数

36.8k下载次数

195当前安装数

755累计安装数

v1.0.0版本

查看源码(ClawHub)

常见问题

评价

0 条评价

登录后撰写评价

暂无评价。来分享你的使用体验吧！