Pdf

Name: Pdf
Author: awspace

Kit de ferramentas abrangente de Pdf para extração de texto/tabelas, criação, mesclagem, divisão, marca d'água e preenchimento de formulários em documentos Pdf.

awspacev1.0.0

Conectando ao seu agente...

npx clawhub@latest install pdf

55Estrelas

36.8kDownloads

195Instalações atuais

755Total de instalações

v1.0.0Versão

Ver código-fonte(ClawHub)

Visão geral do skill Pdf

A skill Pdf oferece ao seu agente de IA um conjunto completo de recursos de manipulação de PDF, com suporte de bibliotecas Python (pypdf, pdfplumber, reportlab) e ferramentas de linha de comando (qpdf, pdftotext, pdftk). Ela lida com tudo, desde a leitura e extração de dados estruturados até a criação de novos documentos do zero, mesclagem ou divisão de arquivos, adição de marcas d'água, criptografia com senhas e preenchimento de formulários PDF. Instale esta skill quando precisar processar, gerar ou analisar documentos PDF de forma programática em escala.

Como usar

Step 1: Execute no terminal ou instale este skill no AgentCellar

npx clawhub@latest install pdf

Clique no botão Instalar no topo desta página para configuração com um clique

When to Use Pdf

Best Fit

Extração de dados em escala — Você precisa extrair texto ou dados tabulares de muitos PDFs e alimentá-los em um pipeline, planilha ou banco de dados.
Geração de documentos — Você precisa criar programaticamente relatórios PDF formatados e de múltiplas páginas usando dados dinâmicos.
Fluxos de trabalho de gerenciamento de documentos — Você precisa mesclar vários PDFs em um só, dividir um documento grande em páginas individuais ou intervalos, ou girar/reordenar páginas.
Automação de formulários — Você precisa preencher formulários PDF programaticamente em vez de manualmente, conforme descrito na referência forms.md da skill.
Processamento de documentos digitalizados — Você precisa de OCR em PDFs baseados em imagem usando pytesseract para recuperar texto legível por máquina.

When Not to Use

Visualização simples e pontual — Se você só precisa ler um PDF visualmente, um visualizador de PDF padrão é mais apropriado do que esta skill.
Edição complexa com preservação de layout — Se você precisa de edição WYSIWYG avançada (marcações, anotações com formatação rica), um editor de PDF desktop dedicado atenderá melhor.
Ambientes não Python — Se sua stack é exclusivamente JavaScript/Node.js, as bibliotecas Python da skill não se aplicarão diretamente (embora o reference.md cubra alternativas JS como pdf-lib).

Principais funcionalidades

Extração de Texto e Tabelas

Utiliza pdfplumber para extrair texto simples com preservação de layout e tabelas estruturadas de qualquer página. As tabelas podem ser exportadas diretamente para DataFrames do pandas e salvas como arquivos Excel para análises posteriores.

Criação de Pdf com reportlab

Gere novos documentos Pdf do zero usando a API de canvas do reportlab ou o mecanismo de documentos Platypus de nível superior. Suporta relatórios de múltiplas páginas, títulos, parágrafos, espaçamento e quebras de página.

Mesclar, Dividir e Girar

Combine vários Pdfs em um só, divida um documento em páginas individuais ou intervalos de páginas, e gire páginas em graus arbitrários — tudo via pypdf em Python ou qpdf/pdftk na linha de comando.

OCR para PDFs Digitalizados

Converte PDFs digitalizados baseados em imagem para imagens com pdf2image e executa OCR com pytesseract em cada página, recuperando texto legível por máquina a partir de documentos que não contêm camada de texto incorporada.

Marca d'água e Proteção por Senha

Sobreponha uma página de marca d'água em cada página de um documento usando a API merge_page do pypdf. Criptografe Pdfs com senhas separadas para usuário e proprietário, ou descriptografe arquivos protegidos por senha com qpdf.

Manuseio de Formulários Pdf

Suporta o preenchimento programático de formulários por meio de pypdf ou da biblioteca JavaScript pdf-lib (detalhado no arquivo forms.md da skill). Adequado para automatizar fluxos de trabalho de envio que exigem o preenchimento de formulários Pdf padrão.

Casos de uso

Geração automatizada de relatórios

Um agente extrai dados de uma API ou banco de dados, formata-os usando reportlab e produz um relatório Pdf de várias páginas com identidade visual — sem que nenhum humano precise abrir um processador de texto.

Extração em massa de dados de faturas ou contratos

Um agente itera sobre centenas de faturas em Pdf, utiliza pdfplumber para extrair tabelas de itens de linha e grava os resultados estruturados em uma planilha ou banco de dados para revisão contábil ou de conformidade.

Digitalização de documentos digitalizados

Um agente recebe Pdfs digitalizados (por exemplo, formulários em papel ou registros legados), converte cada página em uma imagem, executa OCR com pytesseract e armazena o texto extraído para pesquisa ou processamento posterior.

Pipeline de preenchimento automático de formulários Pdf

Um agente lê as definições dos campos de formulário a partir de um modelo Pdf, preenche-os com dados de um CRM ou planilha e gera formulários Pdf completos e prontos para assinatura — seguindo o fluxo de trabalho descrito em forms.md.

Requisitos

Python runtime — Obrigatório. Bibliotecas utilizadas: pypdf, pdfplumber, reportlab, pandas, pdf2image, pytesseract.
Tesseract OCR binary (opcional) — Necessário apenas para OCR em Pdfs digitalizados. Deve ser instalado separadamente no sistema host.
poppler-utils (opcional) — Fornece as ferramentas de linha de comando pdftotext e pdfimages para extração de texto e imagens.
qpdf (opcional) — Ferramenta de linha de comando para mesclar, dividir, girar e descriptografar Pdfs.
pdftk (opcional) — Ferramenta de linha de comando alternativa para mesclar, dividir e girar Pdfs, caso esteja disponível no host.

Conectando ao seu agente...

npx clawhub@latest install pdf

55Estrelas

36.8kDownloads

195Instalações atuais

755Total de instalações

v1.0.0Versão

Ver código-fonte(ClawHub)

Perguntas frequentes

Avaliações

0 avaliações

Faça login para escrever uma avaliação

Nenhuma avaliação ainda. Seja o primeiro a compartilhar sua experiência!