Pdf

Name: Pdf
Author: awspace

Boîte à outils Pdf complète pour extraire du texte/des tableaux, créer, fusionner, diviser, filigraner et remplir des formulaires dans des documents Pdf.

awspacev1.0.0

Connexion à votre agent...

npx clawhub@latest install pdf

55Étoiles

36.8kTéléchargements

195Installations actuelles

755Installations totales

v1.0.0Version

Voir le code source(ClawHub)

Aperçu du skill Pdf

La compétence Pdf offre à votre agent IA une suite complète de fonctionnalités de manipulation de Pdf, alimentée par des bibliothèques Python (pypdf, pdfplumber, reportlab) et des outils en ligne de commande (qpdf, pdftotext, pdftk). Elle gère tout, de la lecture et de l'extraction de données structurées à la création de nouveaux documents from scratch, en passant par la fusion ou le fractionnement de fichiers, l'ajout de filigranes, le chiffrement par mot de passe et le remplissage de formulaires Pdf. Installez cette compétence lorsque vous avez besoin de traiter, générer ou analyser des documents Pdf par programmation à grande échelle.

Comment l’utiliser

Step 1: Exécutez dans votre terminal ou installez ce skill sur AgentCellar

npx clawhub@latest install pdf

Cliquez sur le bouton Installer en haut de cette page pour une configuration en un clic

When to Use Pdf

Best Fit

Extraction de données à grande échelle — Vous devez extraire du texte ou des données tabulaires de nombreux Pdf et les intégrer dans un pipeline, une feuille de calcul ou une base de données.
Génération de documents — Vous devez créer par programmation des rapports Pdf formatés et multi-pages à partir de données dynamiques.
Workflows de gestion documentaire — Vous devez fusionner plusieurs Pdf en un seul, diviser un document volumineux en pages individuelles ou en plages de pages, ou faire pivoter/réorganiser des pages.
Automatisation de formulaires — Vous devez remplir des formulaires Pdf par programmation plutôt que manuellement, comme décrit dans la référence forms.md de la compétence.
Traitement de documents numérisés — Vous devez effectuer une reconnaissance OCR sur des Pdf basés sur des images à l'aide de pytesseract pour récupérer un texte lisible par machine.

When Not to Use

Visualisation ponctuelle simple — Si vous avez seulement besoin de lire un PDF visuellement, un lecteur Pdf standard est plus approprié que cette compétence.
Édition complexe avec préservation de la mise en page — Si vous avez besoin d'une édition WYSIWYG riche (suivi des modifications, annotations avec mise en forme élaborée), un éditeur Pdf de bureau dédié sera plus adapté.
Environnements non Python — Si votre stack est exclusivement JavaScript/Node.js, les bibliothèques Python de la compétence ne s'appliqueront pas directement (bien que le fichier reference.md couvre des alternatives JS telles que pdf-lib).

Fonctionnalités clés

Extraction de texte et de tableaux

Utilise pdfplumber pour extraire du texte brut avec préservation de la mise en page et des tableaux structurés depuis n'importe quelle page. Les tableaux peuvent être exportés directement vers des pandas DataFrames et sauvegardés en fichiers Excel pour une analyse ultérieure.

Création de Pdf avec reportlab

Générez de nouveaux documents Pdf from scratch en utilisant l'API canvas de reportlab ou le moteur de document Platypus de niveau supérieur. Prend en charge les rapports multipages, les titres, les paragraphes, l'espacement et les sauts de page.

Fusionner, Diviser et Faire Pivoter

Combinez plusieurs Pdf en un seul, divisez un document en pages individuelles ou en plages de pages, et faites pivoter des pages selon des degrés arbitraires — le tout via pypdf en Python ou qpdf/pdftk en ligne de commande.

OCR pour les PDF numérisés

Convertit les Pdf numérisés et basés sur des images en images avec pdf2image et exécute l'OCR pytesseract sur chaque page, permettant de récupérer du texte lisible par machine à partir de documents ne contenant aucune couche de texte intégrée.

Protection par filigrane et mot de passe

Superposez une page de filigrane sur chaque page d'un document à l'aide de l'API merge_page de pypdf. Chiffrez des Pdf avec des mots de passe utilisateur et propriétaire distincts, ou déchiffrez des fichiers protégés par mot de passe avec qpdf.

Gestion des formulaires Pdf

Prend en charge le remplissage programmatique de formulaires via pypdf ou la bibliothèque JavaScript pdf-lib (détaillé dans le fichier forms.md de la compétence). Convient à l'automatisation des flux de soumission nécessitant le remplissage de formulaires Pdf standard.

Cas d'utilisation

Génération automatisée de rapports

Un agent extrait des données depuis une API ou une base de données, les met en forme à l'aide de reportlab, et produit un rapport Pdf multi-pages aux couleurs de la marque — sans qu'aucun humain n'ait à ouvrir un traitement de texte.

Extraction en masse de données de factures ou de contrats

Un agent itère sur des centaines de factures Pdf, utilise pdfplumber pour extraire les tableaux de lignes d'articles, et écrit les résultats structurés dans une feuille de calcul ou une base de données à des fins de comptabilité ou de contrôle de conformité.

Numérisation de documents scannés

Un agent reçoit des Pdf scannés (par exemple, des formulaires papier ou des archives anciennes), convertit chaque page en image, exécute l'OCR avec pytesseract, et stocke le texte extrait pour la recherche ou un traitement ultérieur.

Pipeline de remplissage automatique de formulaires Pdf

Un agent lit les définitions des champs de formulaire à partir d'un modèle Pdf, les remplit avec des données provenant d'un CRM ou d'une feuille de calcul, et génère des formulaires Pdf complétés, prêts à être signés — en suivant le flux de travail décrit dans forms.md.

Prérequis

Runtime Python — Requis. Bibliothèques utilisées : pypdf, pdfplumber, reportlab, pandas, pdf2image, pytesseract.
Binaire Tesseract OCR (optionnel) — Requis uniquement pour l'OCR sur les Pdf numérisés. Doit être installé séparément sur le système hôte.
poppler-utils (optionnel) — Fournit les outils en ligne de commande pdftotext et pdfimages pour l'extraction de texte et d'images.
qpdf (optionnel) — Outil en ligne de commande pour fusionner, diviser, faire pivoter et déchiffrer les Pdf.
pdftk (optionnel) — Outil en ligne de commande alternatif pour fusionner, diviser et faire pivoter les Pdf, s'il est disponible sur l'hôte.

Connexion à votre agent...

npx clawhub@latest install pdf

55Étoiles

36.8kTéléchargements

195Installations actuelles

755Installations totales

v1.0.0Version

Voir le code source(ClawHub)

FAQ

Avis

0 avis

Se connecter pour écrire un avis

Aucun avis pour l'instant. Soyez le premier à partager votre expérience !