Pdf

Name: Pdf
Author: awspace

Комплексный инструментарий Pdf для извлечения текста/таблиц, создания, объединения, разделения, добавления водяных знаков и заполнения форм в PDF-документах.

awspacev1.0.0

Подключение к агенту...

npx clawhub@latest install pdf

55Звёзды

36.8kЗагрузки

195Текущие установки

755Всего установок

v1.0.0Версия

Просмотр исходного кода(ClawHub)

Обзор скилла Pdf

Навык Pdf предоставляет вашему ИИ-агенту полный набор возможностей для работы с PDF, реализованных на основе библиотек Python (pypdf, pdfplumber, reportlab) и инструментов командной строки (qpdf, pdftotext, pdftk). Он охватывает всё: от чтения и извлечения структурированных данных до создания новых документов с нуля, объединения и разделения файлов, добавления водяных знаков, шифрования с помощью паролей и заполнения PDF-форм. Установите этот навык, когда вам нужно программно обрабатывать, создавать или анализировать PDF-документы в больших масштабах.

Как использовать

Step 1: Запустите в терминале или установите этот скилл на AgentCellar

npx clawhub@latest install pdf

или

Нажмите кнопку Установить вверху страницы для настройки в один клик

When to Use Pdf

Best Fit

Извлечение данных в масштабе — Вам нужно извлечь текст или табличные данные из множества PDF-файлов и передать их в конвейер, таблицу или базу данных.
Генерация документов — Вам нужно программно создавать отформатированные многостраничные PDF-отчёты с использованием динамических данных.
Рабочие процессы управления документами — Вам нужно объединить несколько PDF-файлов в один, разбить большой документ на отдельные страницы или диапазоны, либо повернуть/изменить порядок страниц.
Автоматизация форм — Вам нужно заполнять PDF-формы программно, а не вручную, как описано в справочнике forms.md навыка Pdf.
Обработка сканированных документов — Вам нужно применить OCR к PDF-файлам на основе изображений с помощью pytesseract для восстановления машиночитаемого текста.

When Not to Use

Простой разовый просмотр — Если вам нужно только визуально прочитать PDF, стандартная программа для просмотра PDF подойдёт лучше, чем этот навык.
Сложное редактирование с сохранением макета — Если вам нужно полноценное WYSIWYG-редактирование (разметка правок, аннотации с богатым форматированием), лучше воспользоваться специализированным десктопным редактором PDF.
Среды, не использующие Python — Если ваш стек работает исключительно на JavaScript/Node.js, библиотеки Python этого навыка не применимы напрямую (хотя в reference.md рассматриваются JS-альтернативы, такие как pdf-lib).

Ключевые возможности

Извлечение текста и таблиц

Использует pdfplumber для извлечения простого текста с сохранением макета и структурированных таблиц с любой страницы Pdf. Таблицы можно экспортировать напрямую в pandas DataFrames и сохранять в виде файлов Excel для дальнейшего анализа.

Создание Pdf с помощью reportlab

Создавайте новые Pdf-документы с нуля, используя canvas API библиотеки reportlab или высокоуровневый движок документов Platypus. Поддерживает многостраничные отчёты, заголовки, абзацы, отступы и разрывы страниц.

Объединение, разделение и поворот

Объедините несколько Pdf-файлов в один, разбейте документ на отдельные страницы или диапазоны страниц, а также поворачивайте страницы на произвольное количество градусов — всё это с помощью pypdf в Python или qpdf/pdftk в командной строке.

OCR для сканированных PDF

Конвертирует сканированные Pdf на основе изображений в картинки с помощью pdf2image и запускает OCR pytesseract на каждой странице, восстанавливая машиночитаемый текст из документов, не содержащих встроенного текстового слоя.

Водяные знаки и защита паролем

Наложение страницы с водяным знаком на каждую страницу документа с помощью API merge_page из pypdf. Шифрование Pdf с отдельными паролями пользователя и владельца, а также расшифровка защищённых паролем файлов с помощью qpdf.

Обработка форм Pdf

Поддерживает программное заполнение форм с помощью pypdf или JavaScript-библиотеки pdf-lib (подробнее в файле forms.md навыка). Подходит для автоматизации рабочих процессов отправки, требующих заполнения стандартных форм Pdf.

Сценарии использования

Автоматическая генерация отчётов

Агент извлекает данные из API или базы данных, форматирует их с помощью reportlab и создаёт фирменный многостраничный Pdf-отчёт — без какого-либо участия человека в работе с текстовым редактором.

Массовое извлечение данных из счетов-фактур или контрактов в формате Pdf

Агент перебирает сотни счетов-фактур в формате Pdf, использует pdfplumber для извлечения таблиц с позициями и записывает структурированные результаты в таблицу или базу данных для бухгалтерской проверки или проверки соответствия требованиям.

Оцифровка отсканированных документов

Агент получает отсканированные Pdf-файлы (например, бумажные формы или устаревшие записи), преобразует каждую страницу в изображение, выполняет распознавание текста с помощью pytesseract и сохраняет извлечённый текст для поиска или дальнейшей обработки.

Автоматическое заполнение форм Pdf

Агент считывает определения полей формы из шаблона Pdf, заполняет их данными из CRM или электронной таблицы и выводит готовые, подготовленные к подписанию формы Pdf — следуя рабочему процессу, описанному в forms.md.

Требования

Среда выполнения Python — Обязательно. Используемые библиотеки: pypdf, pdfplumber, reportlab, pandas, pdf2image, pytesseract.
Бинарный файл Tesseract OCR (необязательно) — Требуется только для OCR на отсканированных Pdf. Должен быть установлен отдельно на хост-системе.
poppler-utils (необязательно) — Предоставляет инструменты командной строки pdftotext и pdfimages для извлечения текста и изображений.
qpdf (необязательно) — Инструмент командной строки для объединения, разделения, поворота и расшифровки Pdf.
pdftk (необязательно) — Альтернативный инструмент командной строки для объединения, разделения и поворота Pdf, если доступен на хосте.

Подключение к агенту...

npx clawhub@latest install pdf

55Звёзды

36.8kЗагрузки

195Текущие установки

755Всего установок

v1.0.0Версия

Просмотр исходного кода(ClawHub)

Часто задаваемые вопросы

Отзывы

0 отзывов

Войдите, чтобы написать отзыв

Отзывов пока нет. Будьте первым, кто поделится своим опытом!