Pdf

Name: Pdf
Author: awspace

Kit de herramientas Pdf completo para extraer texto/tablas, crear, combinar, dividir, añadir marcas de agua y rellenar formularios en documentos Pdf.

awspacev1.0.0

Conectando a tu agente...

npx clawhub@latest install pdf

55Estrellas

36.8kDescargas

195Instalaciones actuales

755Instalaciones totales

v1.0.0Versión

Ver código fuente(ClawHub)

Descripción del skill Pdf

La habilidad Pdf le otorga a tu agente de IA un conjunto completo de capacidades de manipulación de Pdf impulsadas por bibliotecas de Python (pypdf, pdfplumber, reportlab) y herramientas de línea de comandos (qpdf, pdftotext, pdftk). Maneja todo, desde la lectura y extracción de datos estructurados hasta la creación de nuevos documentos desde cero, fusión o división de archivos, adición de marcas de agua, cifrado con contraseñas y llenado de formularios Pdf. Instala esta habilidad cuando necesites procesar, generar o analizar documentos Pdf de forma programática a gran escala.

Cómo usarlo

Step 1: Ejecuta en tu terminal o instala este skill en AgentCellar

npx clawhub@latest install pdf

Haz clic en el botón Instalar en la parte superior de esta página para una configuración rápida

When to Use Pdf

Best Fit

Extracción de datos a escala — Necesitas extraer texto o datos tabulares de muchos Pdf y enviarlos a una canalización, hoja de cálculo o base de datos.
Generación de documentos — Necesitas crear mediante programación informes Pdf formateados y de varias páginas utilizando datos dinámicos.
Flujos de trabajo de gestión de documentos — Necesitas combinar varios Pdf en uno, dividir un documento grande en páginas individuales o rangos, o rotar/reordenar páginas.
Automatización de formularios — Necesitas rellenar formularios Pdf mediante programación en lugar de manualmente, como se describe en la referencia forms.md de la skill.
Procesamiento de documentos escaneados — Necesitas OCR en Pdf basados en imágenes usando pytesseract para recuperar texto legible por máquina.

When Not to Use

Visualización simple de un solo uso — Si solo necesitas leer un PDF visualmente, un visor de PDF estándar es más apropiado que esta skill.
Edición compleja con preservación del diseño — Si necesitas una edición WYSIWYG enriquecida (marcado de revisiones, anotaciones con formato enriquecido), un editor de PDF de escritorio dedicado te servirá mejor.
Entornos que no sean Python — Si tu stack es exclusivamente JavaScript/Node.js, las bibliotecas de Python de la skill no se aplicarán directamente (aunque el reference.md cubre alternativas en JS como pdf-lib).

Características principales

Extracción de Texto y Tablas

Utiliza pdfplumber para extraer texto sin formato con preservación del diseño y tablas estructuradas de cualquier página. Las tablas pueden exportarse directamente a DataFrames de pandas y guardarse como archivos Excel para análisis posteriores.

Creación de Pdf con reportlab

Genera nuevos documentos Pdf desde cero utilizando la API de canvas de reportlab o el motor de documentos Platypus de nivel superior. Compatible con informes de varias páginas, encabezados, párrafos, espaciado y saltos de página.

Combinar, dividir y rotar

Combina múltiples Pdf en uno, divide un documento en páginas individuales o rangos de páginas, y rota páginas en grados arbitrarios — todo mediante pypdf en Python o qpdf/pdftk en la línea de comandos.

OCR para PDFs escaneados

Convierte PDFs escaneados basados en imágenes a imágenes con pdf2image y ejecuta OCR con pytesseract en cada página, recuperando texto legible por máquina de documentos que no contienen una capa de texto incrustada.

Marca de agua y protección con contraseña

Superpone una página de marca de agua en cada página de un documento utilizando la API merge_page de pypdf. Cifra Pdf con contraseñas separadas para usuario y propietario, o descifra archivos protegidos con contraseña usando qpdf.

Manejo de formularios Pdf

Admite el llenado programático de formularios mediante pypdf o la biblioteca JavaScript pdf-lib (detallado en el archivo forms.md de la habilidad). Adecuado para automatizar flujos de trabajo de envío que requieren completar formularios Pdf estándar.

Casos de uso

Generación automatizada de informes

Un agente extrae datos de una API o base de datos, los formatea utilizando reportlab y produce un informe Pdf de varias páginas con imagen de marca, sin que ningún humano tenga que tocar un procesador de textos.

Extracción masiva de datos de facturas o contratos

Un agente itera sobre cientos de facturas en Pdf, utiliza pdfplumber para extraer tablas de líneas de detalle y escribe los resultados estructurados en una hoja de cálculo o base de datos para revisión contable o de cumplimiento normativo.

Digitalización de documentos escaneados

Un agente recibe Pdf escaneados (por ejemplo, formularios en papel o registros heredados), convierte cada página en una imagen, ejecuta OCR con pytesseract y almacena el texto extraído para búsqueda o procesamiento posterior.

Proceso automatizado de llenado de formularios Pdf

Un agente lee las definiciones de los campos de formulario de una plantilla Pdf, los completa con datos provenientes de un CRM o una hoja de cálculo, y genera formularios Pdf completados y listos para firmar, siguiendo el flujo de trabajo descrito en forms.md.

Requisitos

Tiempo de ejecución de Python — Obligatorio. Bibliotecas utilizadas: pypdf, pdfplumber, reportlab, pandas, pdf2image, pytesseract.
Binario Tesseract OCR (opcional) — Necesario solo para OCR en Pdf escaneados. Debe instalarse por separado en el sistema anfitrión.
poppler-utils (opcional) — Proporciona las herramientas de línea de comandos pdftotext y pdfimages para la extracción de texto e imágenes.
qpdf (opcional) — Herramienta de línea de comandos para fusionar, dividir, rotar y descifrar Pdf.
pdftk (opcional) — Herramienta de línea de comandos alternativa para fusionar, dividir y rotar Pdf, si está disponible en el sistema anfitrión.

Conectando a tu agente...

npx clawhub@latest install pdf

55Estrellas

36.8kDescargas

195Instalaciones actuales

755Instalaciones totales

v1.0.0Versión

Ver código fuente(ClawHub)

Preguntas frecuentes

Reseñas

0 reseñas

Inicia sesión para escribir una reseña

Aún no hay reseñas. ¡Sé el primero en compartir tu experiencia!