Kit de herramientas Pdf completo para extraer texto/tablas, crear, combinar, dividir, añadir marcas de agua y rellenar formularios en documentos Pdf.
npx clawhub@latest install pdfLa habilidad Pdf le otorga a tu agente de IA un conjunto completo de capacidades de manipulación de Pdf impulsadas por bibliotecas de Python (pypdf, pdfplumber, reportlab) y herramientas de línea de comandos (qpdf, pdftotext, pdftk). Maneja todo, desde la lectura y extracción de datos estructurados hasta la creación de nuevos documentos desde cero, fusión o división de archivos, adición de marcas de agua, cifrado con contraseñas y llenado de formularios Pdf. Instala esta habilidad cuando necesites procesar, generar o analizar documentos Pdf de forma programática a gran escala.
npx clawhub@latest install pdfHaz clic en el botón Instalar en la parte superior de esta página para una configuración rápida
forms.md de la skill.pytesseract para recuperar texto legible por máquina.reference.md cubre alternativas en JS como pdf-lib).Utiliza pdfplumber para extraer texto sin formato con preservación del diseño y tablas estructuradas de cualquier página. Las tablas pueden exportarse directamente a DataFrames de pandas y guardarse como archivos Excel para análisis posteriores.
Genera nuevos documentos Pdf desde cero utilizando la API de canvas de reportlab o el motor de documentos Platypus de nivel superior. Compatible con informes de varias páginas, encabezados, párrafos, espaciado y saltos de página.
Combina múltiples Pdf en uno, divide un documento en páginas individuales o rangos de páginas, y rota páginas en grados arbitrarios — todo mediante pypdf en Python o qpdf/pdftk en la línea de comandos.
Convierte PDFs escaneados basados en imágenes a imágenes con pdf2image y ejecuta OCR con pytesseract en cada página, recuperando texto legible por máquina de documentos que no contienen una capa de texto incrustada.
Superpone una página de marca de agua en cada página de un documento utilizando la API merge_page de pypdf. Cifra Pdf con contraseñas separadas para usuario y propietario, o descifra archivos protegidos con contraseña usando qpdf.
Admite el llenado programático de formularios mediante pypdf o la biblioteca JavaScript pdf-lib (detallado en el archivo forms.md de la habilidad). Adecuado para automatizar flujos de trabajo de envío que requieren completar formularios Pdf estándar.
Un agente extrae datos de una API o base de datos, los formatea utilizando reportlab y produce un informe Pdf de varias páginas con imagen de marca, sin que ningún humano tenga que tocar un procesador de textos.
Un agente itera sobre cientos de facturas en Pdf, utiliza pdfplumber para extraer tablas de líneas de detalle y escribe los resultados estructurados en una hoja de cálculo o base de datos para revisión contable o de cumplimiento normativo.
Un agente recibe Pdf escaneados (por ejemplo, formularios en papel o registros heredados), convierte cada página en una imagen, ejecuta OCR con pytesseract y almacena el texto extraído para búsqueda o procesamiento posterior.
Un agente lee las definiciones de los campos de formulario de una plantilla Pdf, los completa con datos provenientes de un CRM o una hoja de cálculo, y genera formularios Pdf completados y listos para firmar, siguiendo el flujo de trabajo descrito en forms.md.
pypdf, pdfplumber, reportlab, pandas, pdf2image, pytesseract.pdftotext y pdfimages para la extracción de texto e imágenes.npx clawhub@latest install pdfInicia sesión para escribir una reseña
Aún no hay reseñas. ¡Sé el primero en compartir tu experiencia!