Boîte à outils Pdf complète pour extraire du texte/des tableaux, créer, fusionner, diviser, filigraner et remplir des formulaires dans des documents Pdf.
npx clawhub@latest install pdfLa compétence Pdf offre à votre agent IA une suite complète de fonctionnalités de manipulation de Pdf, alimentée par des bibliothèques Python (pypdf, pdfplumber, reportlab) et des outils en ligne de commande (qpdf, pdftotext, pdftk). Elle gère tout, de la lecture et de l'extraction de données structurées à la création de nouveaux documents from scratch, en passant par la fusion ou le fractionnement de fichiers, l'ajout de filigranes, le chiffrement par mot de passe et le remplissage de formulaires Pdf. Installez cette compétence lorsque vous avez besoin de traiter, générer ou analyser des documents Pdf par programmation à grande échelle.
npx clawhub@latest install pdfCliquez sur le bouton Installer en haut de cette page pour une configuration en un clic
forms.md de la compétence.pytesseract pour récupérer un texte lisible par machine.reference.md couvre des alternatives JS telles que pdf-lib).Utilise pdfplumber pour extraire du texte brut avec préservation de la mise en page et des tableaux structurés depuis n'importe quelle page. Les tableaux peuvent être exportés directement vers des pandas DataFrames et sauvegardés en fichiers Excel pour une analyse ultérieure.
Générez de nouveaux documents Pdf from scratch en utilisant l'API canvas de reportlab ou le moteur de document Platypus de niveau supérieur. Prend en charge les rapports multipages, les titres, les paragraphes, l'espacement et les sauts de page.
Combinez plusieurs Pdf en un seul, divisez un document en pages individuelles ou en plages de pages, et faites pivoter des pages selon des degrés arbitraires — le tout via pypdf en Python ou qpdf/pdftk en ligne de commande.
Convertit les Pdf numérisés et basés sur des images en images avec pdf2image et exécute l'OCR pytesseract sur chaque page, permettant de récupérer du texte lisible par machine à partir de documents ne contenant aucune couche de texte intégrée.
Superposez une page de filigrane sur chaque page d'un document à l'aide de l'API merge_page de pypdf. Chiffrez des Pdf avec des mots de passe utilisateur et propriétaire distincts, ou déchiffrez des fichiers protégés par mot de passe avec qpdf.
Prend en charge le remplissage programmatique de formulaires via pypdf ou la bibliothèque JavaScript pdf-lib (détaillé dans le fichier forms.md de la compétence). Convient à l'automatisation des flux de soumission nécessitant le remplissage de formulaires Pdf standard.
Un agent extrait des données depuis une API ou une base de données, les met en forme à l'aide de reportlab, et produit un rapport Pdf multi-pages aux couleurs de la marque — sans qu'aucun humain n'ait à ouvrir un traitement de texte.
Un agent itère sur des centaines de factures Pdf, utilise pdfplumber pour extraire les tableaux de lignes d'articles, et écrit les résultats structurés dans une feuille de calcul ou une base de données à des fins de comptabilité ou de contrôle de conformité.
Un agent reçoit des Pdf scannés (par exemple, des formulaires papier ou des archives anciennes), convertit chaque page en image, exécute l'OCR avec pytesseract, et stocke le texte extrait pour la recherche ou un traitement ultérieur.
Un agent lit les définitions des champs de formulaire à partir d'un modèle Pdf, les remplit avec des données provenant d'un CRM ou d'une feuille de calcul, et génère des formulaires Pdf complétés, prêts à être signés — en suivant le flux de travail décrit dans forms.md.
pypdf, pdfplumber, reportlab, pandas, pdf2image, pytesseract.pdftotext et pdfimages pour l'extraction de texte et d'images.npx clawhub@latest install pdfSe connecter pour écrire un avis
Aucun avis pour l'instant. Soyez le premier à partager votre expérience !