Kit de ferramentas abrangente de Pdf para extração de texto/tabelas, criação, mesclagem, divisão, marca d'água e preenchimento de formulários em documentos Pdf.
npx clawhub@latest install pdfA skill Pdf oferece ao seu agente de IA um conjunto completo de recursos de manipulação de PDF, com suporte de bibliotecas Python (pypdf, pdfplumber, reportlab) e ferramentas de linha de comando (qpdf, pdftotext, pdftk). Ela lida com tudo, desde a leitura e extração de dados estruturados até a criação de novos documentos do zero, mesclagem ou divisão de arquivos, adição de marcas d'água, criptografia com senhas e preenchimento de formulários PDF. Instale esta skill quando precisar processar, gerar ou analisar documentos PDF de forma programática em escala.
npx clawhub@latest install pdfClique no botão Instalar no topo desta página para configuração com um clique
forms.md da skill.pytesseract para recuperar texto legível por máquina.reference.md cubra alternativas JS como pdf-lib).Utiliza pdfplumber para extrair texto simples com preservação de layout e tabelas estruturadas de qualquer página. As tabelas podem ser exportadas diretamente para DataFrames do pandas e salvas como arquivos Excel para análises posteriores.
Gere novos documentos Pdf do zero usando a API de canvas do reportlab ou o mecanismo de documentos Platypus de nível superior. Suporta relatórios de múltiplas páginas, títulos, parágrafos, espaçamento e quebras de página.
Combine vários Pdfs em um só, divida um documento em páginas individuais ou intervalos de páginas, e gire páginas em graus arbitrários — tudo via pypdf em Python ou qpdf/pdftk na linha de comando.
Converte PDFs digitalizados baseados em imagem para imagens com pdf2image e executa OCR com pytesseract em cada página, recuperando texto legível por máquina a partir de documentos que não contêm camada de texto incorporada.
Sobreponha uma página de marca d'água em cada página de um documento usando a API merge_page do pypdf. Criptografe Pdfs com senhas separadas para usuário e proprietário, ou descriptografe arquivos protegidos por senha com qpdf.
Suporta o preenchimento programático de formulários por meio de pypdf ou da biblioteca JavaScript pdf-lib (detalhado no arquivo forms.md da skill). Adequado para automatizar fluxos de trabalho de envio que exigem o preenchimento de formulários Pdf padrão.
Um agente extrai dados de uma API ou banco de dados, formata-os usando reportlab e produz um relatório Pdf de várias páginas com identidade visual — sem que nenhum humano precise abrir um processador de texto.
Um agente itera sobre centenas de faturas em Pdf, utiliza pdfplumber para extrair tabelas de itens de linha e grava os resultados estruturados em uma planilha ou banco de dados para revisão contábil ou de conformidade.
Um agente recebe Pdfs digitalizados (por exemplo, formulários em papel ou registros legados), converte cada página em uma imagem, executa OCR com pytesseract e armazena o texto extraído para pesquisa ou processamento posterior.
Um agente lê as definições dos campos de formulário a partir de um modelo Pdf, preenche-os com dados de um CRM ou planilha e gera formulários Pdf completos e prontos para assinatura — seguindo o fluxo de trabalho descrito em forms.md.
pypdf, pdfplumber, reportlab, pandas, pdf2image, pytesseract.pdftotext e pdfimages para extração de texto e imagens.npx clawhub@latest install pdfFaça login para escrever uma avaliação
Nenhuma avaliação ainda. Seja o primeiro a compartilhar sua experiência!