Pdf

Name: Pdf
Author: awspace

PDF 문서에서 텍스트/표 추출, 생성, 병합, 분할, 워터마크 추가 및 양식 작성을 위한 종합 Pdf 툴킷입니다.

awspacev1.0.0

에이전트에 연결 중...

npx clawhub@latest install pdf

55별점

36.8k다운로드

195현재 설치 수

755누적 설치 수

v1.0.0버전

소스 보기(ClawHub)

Pdf 스킬 개요

Pdf 스킬은 Python 라이브러리(pypdf, pdfplumber, reportlab)와 커맨드라인 도구(qpdf, pdftotext, pdftk)를 기반으로 AI 에이전트에게 PDF 조작 기능의 전체 모음을 제공합니다. 읽기 및 구조화된 데이터 추출부터 새 문서를 처음부터 생성하기, 파일 병합 또는 분할, 워터마크 추가, 비밀번호 암호화, PDF 양식 채우기까지 모든 것을 처리합니다. 프로그래밍 방식으로 PDF 문서를 대규모로 처리, 생성 또는 분석해야 할 때 이 스킬을 설치하세요.

사용 방법

Step 1: 터미널에서 실행하거나 AgentCellar에 설치

npx clawhub@latest install pdf

또는

이 페이지 상단의 설치 버튼을 클릭하면 원클릭으로 설정할 수 있습니다

When to Use Pdf

Best Fit

대규모 데이터 추출 — 여러 PDF에서 텍스트 또는 표 형식의 데이터를 추출하여 파이프라인, 스프레드시트 또는 데이터베이스에 공급해야 합니다.
문서 생성 — 동적 데이터를 사용하여 형식이 지정된 여러 페이지의 PDF 보고서를 프로그래밍 방식으로 생성해야 합니다.
문서 관리 워크플로 — 여러 PDF를 하나로 병합하거나, 큰 문서를 개별 페이지 또는 범위로 분할하거나, 페이지를 회전/재정렬해야 합니다.
양식 자동화 — Pdf 스킬의 forms.md 참조에 설명된 대로 PDF 양식을 수동이 아닌 프로그래밍 방식으로 작성해야 합니다.
스캔된 문서 처리 — pytesseract를 사용하여 이미지 기반 PDF에 OCR을 적용하고 기계가 읽을 수 있는 텍스트를 복원해야 합니다.

When Not to Use

간단한 일회성 보기 — PDF를 시각적으로만 읽어야 한다면, 이 스킬보다 표준 PDF 뷰어가 더 적합합니다.
복잡한 레이아웃 유지 편집 — 풍부한 WYSIWYG 편집(레드라이닝, 서식이 풍부한 주석)이 필요하다면, 전용 데스크톱 PDF 편집기가 더 나은 선택입니다.
Python 외 환경 — 스택이 JavaScript/Node.js로만 구성되어 있다면, 이 스킬의 Python 라이브러리는 직접 적용되지 않습니다(단, reference.md에는 pdf-lib 같은 JS 대안도 다루고 있습니다).

주요 기능

텍스트 및 표 추출

pdfplumber를 사용하여 레이아웃을 유지하면서 일반 텍스트를 추출하고, 모든 페이지에서 구조화된 표를 추출합니다. 표는 pandas DataFrame으로 직접 내보내거나 Excel 파일로 저장하여 후속 분석에 활용할 수 있습니다.

Pdf Creation with reportlab

reportlab의 캔버스 API 또는 고수준 Platypus 문서 엔진을 사용하여 처음부터 새로운 Pdf 문서를 생성합니다. 여러 페이지로 구성된 보고서, 제목, 단락, 간격 및 페이지 나누기를 지원합니다.

병합, 분할 및 회전

여러 Pdf를 하나로 합치거나, 문서를 개별 페이지 또는 페이지 범위로 분할하고, 페이지를 임의의 각도로 회전할 수 있습니다 — Python의 pypdf 또는 명령줄의 qpdf/pdftk를 통해 모두 가능합니다.

OCR for Scanned PDFs

스캔된 이미지 기반 Pdf를 pdf2image로 이미지로 변환하고, 각 페이지에 pytesseract OCR을 실행하여 내장된 텍스트 레이어가 없는 문서에서 기계 판독 가능한 텍스트를 복원합니다.

워터마킹 및 비밀번호 보호

pypdf의 merge_page API를 사용하여 문서의 모든 페이지에 워터마크 페이지를 오버레이합니다. 별도의 사용자 비밀번호와 소유자 비밀번호로 Pdf를 암호화하거나, qpdf를 사용하여 비밀번호로 보호된 파일을 복호화합니다.

Pdf 양식 처리

pypdf 또는 JavaScript pdf-lib 라이브러리를 통한 프로그래밍 방식의 양식 작성을 지원합니다 (스킬의 forms.md에 자세히 설명되어 있음). 표준 Pdf 양식을 채워야 하는 제출 워크플로우 자동화에 적합합니다.

활용 사례

자동화된 보고서 생성

에이전트가 API 또는 데이터베이스에서 데이터를 가져와 reportlab을 사용하여 형식을 지정하고, 사람이 워드 프로세서를 전혀 다루지 않아도 브랜드 스타일이 적용된 여러 페이지의 Pdf 보고서를 생성합니다.

대량 인보이스 또는 계약서 데이터 추출

에이전트가 수백 개의 Pdf 인보이스를 반복 처리하고, pdfplumber를 사용하여 항목별 테이블을 추출한 뒤, 회계 또는 컴플라이언스 검토를 위해 구조화된 결과를 스프레드시트나 데이터베이스에 저장합니다.

스캔된 문서 디지털화

에이전트는 스캔된 Pdf(예: 종이 양식 또는 레거시 기록)를 수신하고, 각 페이지를 이미지로 변환한 후, pytesseract를 사용하여 OCR을 실행하고, 추출된 텍스트를 검색 또는 추가 처리를 위해 저장합니다.

Pdf 양식 자동 입력 파이프라인

에이전트가 Pdf 템플릿에서 양식 필드 정의를 읽어 CRM 또는 스프레드시트의 데이터로 채운 후, forms.md에 설명된 워크플로를 따라 서명 준비가 완료된 Pdf 양식을 출력합니다.

요구 사항

Python 런타임 — 필수. 사용 라이브러리: pypdf, pdfplumber, reportlab, pandas, pdf2image, pytesseract.
Tesseract OCR 바이너리 (선택 사항) — 스캔된 Pdf에 대한 OCR에만 필요합니다. 호스트 시스템에 별도로 설치해야 합니다.
poppler-utils (선택 사항) — 텍스트 및 이미지 추출을 위한 pdftotext 및 pdfimages 명령줄 도구를 제공합니다.
qpdf (선택 사항) — Pdf 병합, 분할, 회전 및 복호화를 위한 명령줄 도구입니다.
pdftk (선택 사항) — 호스트에서 사용 가능한 경우 Pdf 병합, 분할 및 회전을 위한 대체 명령줄 도구입니다.

에이전트에 연결 중...

npx clawhub@latest install pdf

55별점

36.8k다운로드

195현재 설치 수

755누적 설치 수

v1.0.0버전

소스 보기(ClawHub)

자주 묻는 질문

리뷰

0개 리뷰

리뷰를 작성하려면 로그인

아직 리뷰가 없습니다. 첫 번째로 경험을 공유해 보세요!