pdf-processor — pdf-处理器

Name: pdf-processor — pdf-处理器
Rating: 1

v1.0.0

一站式 PDF 处理技能。支持 PDF 文本/图片/表格提取、格式转换（PDF↔Word/Excel）、合并拆分、OCR 识别、批量处理、水印添加、加密解密、压缩等。使用场景： (1) 从 PDF 提取文本内容进行数据分析 (2) 将 PDF 转换为 Word/Excel 方便编辑 (3) 合并或拆分 PDF 文件 (4) 对扫描件进行 OCR 识别提取文字 (5) 批量处理多个 PDF 文件 (6) 添加水印或加密保护 PDF (7) 压缩 PDF 减小文件体积

1· 440·0 当前·0 累计

by @pengsc1994·MIT-0

文件处理

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install free-pdf-processor

镜像加速npx clawhub@latest install free-pdf-processor --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

PDF 处理技能快速开始安装依赖 cd D:\PDF.技能\pdf-处理器 pip 安装 -r requirements.txt

核心功能功能命令说明提取文本 python scripts/提取_text.py 提取 PDF 文本内容提取图片 python scripts/提取_images.py <输出_dir> 提取 PDF 中的图片提取表格 python scripts/提取_tables.py 提取 PDF 中的表格 PDF 转 Word python scripts/pdf_to_word.py <输出_path> 转换为可编辑 Word PDF 转 Excel python scripts/pdf_to_excel.py <输出_path> 提取表格到 Excel 合并 PDF python scripts/merge_pdfs.py <输出_path> ... 合并多个 PDF 拆分 PDF python scripts/split_pdf.py <输出_dir> 按页拆分 PDF 添加水印 python scripts/添加_watermark.py <输出_path> 添加文字水印 OCR 识别 python scripts/ocr_pdf.py <输出_path> OCR 识别扫描件加密 PDF python scripts/加密_pdf.py <输入> <输出> AES-256 加密解密 PDF python scripts/解密_pdf.py <输入> <输出> 解密 PDF 压缩 PDF python scripts/压缩_pdf.py <输入> <输出> 压缩 PDF 文件批量处理 python scripts/batch_process.py <输入_dir> <输出_dir> --operation 批量处理功能详情提取_text.py

提取 PDF 文本内容，支持：

纯文本提取保留段落结构提取元数据（标题、作者、创建时间） python scripts/提取_text.py 输入.pdf -o 输出.txt --metadata

提取_tables.py

提取 PDF 表格数据：

自动检测表格边框支持合并单元格输出为 Excel 文件 pdf_to_word.py

PDF 转 Word 转换：

保留原始格式提取图片到 Word 表格转换为 Word 表格 pdf_to_excel.py

PDF 转 Excel：

提取表格到不同 Sheet 保留文本内容添加_watermark.py

水印功能：

支持文字水印可设置透明度、旋转角度、字体大小支持批量添加 ocr_pdf.py

OCR 识别（需要安装 Tesseract）：

使用 Tesseract 进行中文识别支持多种语言混合识别保留原有 PDF 格式加密_pdf.py / 解密_pdf.py

加密解密：

AES-256 加密支持用户密码和所有者密码压缩_pdf.py

压缩功能：

清理未使用对象压缩图片 5 个压缩级别可选 batch_process.py

批量处理：

支持所有单文件操作自动处理目录中所有 PDF 生成处理报告使用示例从 PDF 提取文本用户: 帮我提取这个合同的文本内容 AI: 使用提取_text.py 脚本提取文本

PDF 转 Word 用户: 把这个 PDF 转成 Word 文档 AI: 使用 pdf_to_word.py 进行转换

批量加水印用户: 给这个文件夹里所有 PDF 添加"内部资料"水印 AI: 使用 batch_process.py 批量处理

加密 PDF 用户: 这个文件需要加密 AI: 使用加密_pdf.py 进行 AES-256 加密

依赖安装基础依赖 pip 安装 pymupdf pdfplumber python-docx openpyxl pillow

OCR 支持（可选） # 安装 Tesseract OCR # Windows: https://github.com/UB-Mannheim/tesseract/wiki # macOS: brew 安装 tesseract # Linux: sudo apt 安装 tesseract-ocr

pip 安装 pytesseract

注意事项加密 PDF 需要提供密码 OCR 需要安装 Tesseract 引擎大文件处理可能需要较长时间转换效果取决于 PDF 原始质量

License

运行时依赖

安装命令

技能文档

相关技能推荐