Pdf

Name: Pdf
Author: awspace

Umfassendes Pdf-Toolkit zum Extrahieren von Text/Tabellen, Erstellen, Zusammenführen, Aufteilen, mit Wasserzeichen versehen und Ausfüllen von Formularfeldern in Pdf-Dokumenten.

awspacev1.0.0

Verbindung zum Agenten wird hergestellt...

npx clawhub@latest install pdf

55Sterne

36.8kDownloads

195Aktuelle Installationen

755Gesamte Installationen

v1.0.0Version

Quellcode ansehen(ClawHub)

Pdf Skill-Übersicht

Die Pdf-Skill gibt Ihrem KI-Agenten ein vollständiges Set an PDF-Manipulationsfähigkeiten, unterstützt durch Python-Bibliotheken (pypdf, pdfplumber, reportlab) und Kommandozeilenwerkzeuge (qpdf, pdftotext, pdftk). Er übernimmt alles vom Lesen und Extrahieren strukturierter Daten bis hin zum Erstellen neuer Dokumente von Grund auf, dem Zusammenführen oder Aufteilen von Dateien, dem Hinzufügen von Wasserzeichen, der Verschlüsselung mit Passwörtern und dem Ausfüllen von PDF-Formularen. Installieren Sie diesen Skill, wenn Sie PDF-Dokumente programmgesteuert und in großem Umfang verarbeiten, generieren oder analysieren müssen.

So verwenden Sie es

Step 1: Im Terminal ausführen oder auf AgentCellar installieren

npx clawhub@latest install pdf

oder

Klicke oben auf der Seite auf Installieren für die Ein-Klick-Einrichtung

When to Use Pdf

Best Fit

Datenextraktion in großem Maßstab — Sie müssen Text oder tabellarische Daten aus vielen Pdfs extrahieren und in eine Pipeline, Tabellenkalkulation oder Datenbank einspeisen.
Dokumentenerstellung — Sie müssen programmatisch formatierte, mehrseitige Pdf-Berichte mithilfe dynamischer Daten erstellen.
Dokumentenverwaltungs-Workflows — Sie müssen mehrere Pdfs zu einem zusammenführen, ein großes Dokument in einzelne Seiten oder Bereiche aufteilen oder Seiten drehen/neu anordnen.
Formularautomatisierung — Sie müssen Pdf-Formulare programmatisch statt manuell ausfüllen, wie in der forms.md-Referenz der Skill beschrieben.
Verarbeitung gescannter Dokumente — Sie benötigen OCR für bildbasierte Pdfs mithilfe von pytesseract, um maschinenlesbaren Text wiederherzustellen.

When Not to Use

Einfaches einmaliges Anzeigen — Wenn Sie eine PDF-Datei nur visuell lesen müssen, ist ein Standard-PDF-Viewer besser geeignet als diese Skill.
Komplexes layouterhaltendes Bearbeiten — Wenn Sie umfangreiches WYSIWYG-Bearbeiten benötigen (Redlining, Anmerkungen mit umfangreicher Formatierung), ist ein dedizierter Desktop-PDF-Editor besser geeignet.
Nicht-Python-Umgebungen — Wenn Ihr Stack ausschließlich JavaScript/Node.js ist, sind die Python-Bibliotheken der Skill nicht direkt anwendbar (obwohl die reference.md JS-Alternativen wie pdf-lib abdeckt).

Hauptfunktionen

Text- & Tabellenextraktion

Verwendet pdfplumber, um einfachen Text mit Layouterhaltung und strukturierte Tabellen aus beliebigen Seiten zu extrahieren. Tabellen können direkt in pandas DataFrames exportiert und als Excel-Dateien für weiterführende Analysen gespeichert werden.

PDF-Erstellung mit reportlab

Erstelle neue Pdf-Dokumente von Grund auf mit der Canvas-API von reportlab oder der übergeordneten Platypus-Document-Engine. Unterstützt mehrseitige Berichte, Überschriften, Absätze, Abstände und Seitenumbrüche.

Zusammenführen, Aufteilen & Drehen

Mehrere Pdfs zu einem einzigen Dokument zusammenführen, ein Dokument in einzelne Seiten oder Seitenbereiche aufteilen und Seiten um beliebige Grad drehen — alles über pypdf in Python oder qpdf/pdftk auf der Kommandozeile.

OCR für gescannte PDFs

Konvertiert gescannte, bildbasierte Pdfs mithilfe von pdf2image in Bilder und führt pytesseract OCR auf jeder Seite aus, um maschinenlesbaren Text aus Dokumenten wiederherzustellen, die keine eingebettete Textebene enthalten.

Wasserzeichen & Passwortschutz

Lege eine Wasserzeichenseite über jede Seite eines Dokuments mithilfe der merge_page-API von pypdf. Verschlüssele Pdf-Dateien mit separaten Benutzer- und Eigentümerpasswörtern oder entschlüssele passwortgeschützte Dateien mit qpdf.

Pdf Formularverarbeitung

Unterstützt das programmatische Ausfüllen von Formularen über pypdf oder die JavaScript-Bibliothek pdf-lib (detailliert beschrieben in der forms.md des Skills). Geeignet für die Automatisierung von Einreichungs-Workflows, bei denen standardmäßige Pdf-Formulare ausgefüllt werden müssen.

Anwendungsfälle

Automatisierte Berichterstellung

Ein Agent ruft Daten aus einer API oder Datenbank ab, formatiert sie mit reportlab und erstellt einen gebrandeten mehrseitigen Pdf-Bericht – ohne dass ein Mensch ein Textverarbeitungsprogramm anfassen muss.

Massenhafte Extraktion von Rechnungs- oder Vertragsdaten

Ein Agent iteriert über Hunderte von Pdf-Rechnungen, verwendet pdfplumber, um Positionstabellen zu extrahieren, und schreibt die strukturierten Ergebnisse in eine Tabellenkalkulation oder Datenbank zur Buchhaltungs- oder Compliance-Prüfung.

Digitalisierung gescannter Dokumente

Ein Agent empfängt gescannte Pdf-Dateien (z. B. Papierformulare oder Altakten), konvertiert jede Seite in ein Bild, führt OCR mit pytesseract durch und speichert den extrahierten Text für die Suche oder Weiterverarbeitung.

PDF-Formular-Ausfüll-Pipeline

Ein Agent liest Formularfelddefinitionen aus einer Pdf-Vorlage, befüllt sie mit Daten aus einem CRM oder einer Tabellenkalkulation und gibt ausgefüllte, unterschriftsreife Pdf-Formulare aus – gemäß dem in forms.md beschriebenen Workflow.

Voraussetzungen

Python-Laufzeitumgebung — Erforderlich. Verwendete Bibliotheken: pypdf, pdfplumber, reportlab, pandas, pdf2image, pytesseract.
Tesseract-OCR-Binärdatei (optional) — Nur für OCR bei gescannten PDFs erforderlich. Muss separat auf dem Hostsystem installiert werden.
poppler-utils (optional) — Stellt die Befehlszeilenwerkzeuge pdftotext und pdfimages für die Text- und Bildextraktion bereit.
qpdf (optional) — Befehlszeilenwerkzeug zum Zusammenführen, Aufteilen, Drehen und Entschlüsseln von PDFs.
pdftk (optional) — Alternatives Befehlszeilenwerkzeug zum Zusammenführen, Aufteilen und Drehen von PDFs, sofern auf dem Host verfügbar.

Verbindung zum Agenten wird hergestellt...

npx clawhub@latest install pdf

55Sterne

36.8kDownloads

195Aktuelle Installationen

755Gesamte Installationen

v1.0.0Version

Quellcode ansehen(ClawHub)

FAQ

Bewertungen

0 Bewertungen

Anmelden, um eine Bewertung zu schreiben

Noch keine Bewertungen. Sei der Erste, der seine Erfahrungen teilt!