Pdf技能为您的AI代理提供了一整套PDF操作功能,由Python库(pypdf、pdfplumber、reportlab)和命令行工具(qpdf、pdftotext、pdftk)提供支持。它处理从读取和提取结构化数据,到从头创建新文档、合并或拆分文件、添加水印、密码加密以及填写PDF表单等一切操作。当您需要以编程方式大规模处理、生成或分析PDF文档时,请安装此技能。
npx clawhub@latest install pdf点击本页顶部的 安装 按钮即可一键设置
forms.md 参考文档所述。pytesseract 对基于图像的 PDF 进行 OCR 处理,以恢复机器可读的文本。reference.md 中涵盖了 pdf-lib 等 JS 替代方案)。使用 pdfplumber 从任意页面提取保留布局的纯文本及结构化表格。表格可直接导出为 pandas DataFrame,并保存为 Excel 文件,以便进行后续分析。
使用 reportlab 的画布 API 或更高层级的 Platypus 文档引擎从头生成新的 Pdf 文档。支持多页报告、标题、段落、间距和分页符。
将多个 Pdf 合并为一个文件,将文档拆分为单独的页面或指定页面范围,并按任意角度旋转页面——所有操作均可通过 Python 中的 pypdf 或命令行中的 qpdf/pdftk 来实现。
使用 pdf2image 将扫描的图像型 Pdf 转换为图片,并对每一页运行 pytesseract OCR 识别,从不含嵌入文字层的文档中提取可供机器读取的文本内容。
使用 pypdf 的 merge_page API,将水印页面叠加到文档的每一页上。通过独立的用户密码和所有者密码对 Pdf 进行加密,或使用 qpdf 解密受密码保护的 Pdf 文件。
支持通过 pypdf 或 JavaScript pdf-lib 库以编程方式填写表单(详见该技能的 forms.md)。适用于需要填充标准 Pdf 表单的提交工作流自动化场景。
一个智能代理从 API 或数据库中提取数据,使用 reportlab 进行格式化,并生成带有品牌标识的多页 Pdf 报告——整个过程无需任何人工操作文字处理软件。
一个智能体遍历数百份 Pdf 发票,使用 pdfplumber 提取行项目表格,并将结构化结果写入电子表格或数据库,以供财务核算或合规审查使用。
一个代理接收扫描的 Pdf 文件(例如纸质表单或历史档案),将每页转换为图像,使用 pytesseract 进行 OCR 识别,并存储提取的文本以供搜索或进一步处理。
代理从 Pdf 模板中读取表单字段定义,使用来自 CRM 或电子表格的数据填充这些字段,并输出已完成、可供签署的 Pdf 表单——遵循 forms.md 中描述的工作流程。
pypdf、pdfplumber、reportlab、pandas、pdf2image、pytesseract。pdftotext 和 pdfimages 命令行工具,用于文本和图像提取。登录后撰写评价
暂无评价。来分享你的使用体验吧!