Комплексный инструментарий Pdf для извлечения текста/таблиц, создания, объединения, разделения, добавления водяных знаков и заполнения форм в PDF-документах.
npx clawhub@latest install pdfНавык Pdf предоставляет вашему ИИ-агенту полный набор возможностей для работы с PDF, реализованных на основе библиотек Python (pypdf, pdfplumber, reportlab) и инструментов командной строки (qpdf, pdftotext, pdftk). Он охватывает всё: от чтения и извлечения структурированных данных до создания новых документов с нуля, объединения и разделения файлов, добавления водяных знаков, шифрования с помощью паролей и заполнения PDF-форм. Установите этот навык, когда вам нужно программно обрабатывать, создавать или анализировать PDF-документы в больших масштабах.
npx clawhub@latest install pdfНажмите кнопку Установить вверху страницы для настройки в один клик
forms.md навыка Pdf.pytesseract для восстановления машиночитаемого текста.reference.md рассматриваются JS-альтернативы, такие как pdf-lib).Использует pdfplumber для извлечения простого текста с сохранением макета и структурированных таблиц с любой страницы Pdf. Таблицы можно экспортировать напрямую в pandas DataFrames и сохранять в виде файлов Excel для дальнейшего анализа.
Создавайте новые Pdf-документы с нуля, используя canvas API библиотеки reportlab или высокоуровневый движок документов Platypus. Поддерживает многостраничные отчёты, заголовки, абзацы, отступы и разрывы страниц.
Объедините несколько Pdf-файлов в один, разбейте документ на отдельные страницы или диапазоны страниц, а также поворачивайте страницы на произвольное количество градусов — всё это с помощью pypdf в Python или qpdf/pdftk в командной строке.
Конвертирует сканированные Pdf на основе изображений в картинки с помощью pdf2image и запускает OCR pytesseract на каждой странице, восстанавливая машиночитаемый текст из документов, не содержащих встроенного текстового слоя.
Наложение страницы с водяным знаком на каждую страницу документа с помощью API merge_page из pypdf. Шифрование Pdf с отдельными паролями пользователя и владельца, а также расшифровка защищённых паролем файлов с помощью qpdf.
Поддерживает программное заполнение форм с помощью pypdf или JavaScript-библиотеки pdf-lib (подробнее в файле forms.md навыка). Подходит для автоматизации рабочих процессов отправки, требующих заполнения стандартных форм Pdf.
Агент извлекает данные из API или базы данных, форматирует их с помощью reportlab и создаёт фирменный многостраничный Pdf-отчёт — без какого-либо участия человека в работе с текстовым редактором.
Агент перебирает сотни счетов-фактур в формате Pdf, использует pdfplumber для извлечения таблиц с позициями и записывает структурированные результаты в таблицу или базу данных для бухгалтерской проверки или проверки соответствия требованиям.
Агент получает отсканированные Pdf-файлы (например, бумажные формы или устаревшие записи), преобразует каждую страницу в изображение, выполняет распознавание текста с помощью pytesseract и сохраняет извлечённый текст для поиска или дальнейшей обработки.
Агент считывает определения полей формы из шаблона Pdf, заполняет их данными из CRM или электронной таблицы и выводит готовые, подготовленные к подписанию формы Pdf — следуя рабочему процессу, описанному в forms.md.
pypdf, pdfplumber, reportlab, pandas, pdf2image, pytesseract.pdftotext и pdfimages для извлечения текста и изображений.npx clawhub@latest install pdfВойдите, чтобы написать отзыв
Отзывов пока нет. Будьте первым, кто поделится своим опытом!