pdf-processor — pdf-处理器
v1.0.0一站式 PDF 处理技能。支持 PDF 文本/图片/表格提取、格式转换(PDF↔Word/Excel)、合并拆分、OCR 识别、批量处理、水印添加、加密解密、压缩等。使用场景: (1) 从 PDF 提取文本内容进行数据分析 (2) 将 PDF 转换为 Word/Excel 方便编辑 (3) 合并或拆分 PDF 文件 (4) 对扫描件进行 OCR 识别提取文字 (5) 批量处理多个 PDF 文件 (6) 添加水印或加密保护 PDF (7) 压缩 PDF 减小文件体积
运行时依赖
安装命令
点击复制技能文档
PDF 处理技能 快速开始 安装依赖 cd D:\PDF.技能\pdf-处理器 pip 安装 -r requirements.txt
核心功能 功能 命令 说明 提取文本 python scripts/提取_text.py 提取 PDF 文本内容 提取图片 python scripts/提取_images.py <输出_dir> 提取 PDF 中的图片 提取表格 python scripts/提取_tables.py 提取 PDF 中的表格 PDF 转 Word python scripts/pdf_to_word.py <输出_path> 转换为可编辑 Word PDF 转 Excel python scripts/pdf_to_excel.py <输出_path> 提取表格到 Excel 合并 PDF python scripts/merge_pdfs.py <输出_path> ... 合并多个 PDF 拆分 PDF python scripts/split_pdf.py <输出_dir> 按页拆分 PDF 添加水印 python scripts/添加_watermark.py <输出_path> 添加文字水印 OCR 识别 python scripts/ocr_pdf.py <输出_path> OCR 识别扫描件 加密 PDF python scripts/加密_pdf.py <输入> <输出> AES-256 加密 解密 PDF python scripts/解密_pdf.py <输入> <输出> 解密 PDF 压缩 PDF python scripts/压缩_pdf.py <输入> <输出> 压缩 PDF 文件 批量处理 python scripts/batch_process.py <输入_dir> <输出_dir> --operation 批量处理 功能详情 提取_text.py
提取 PDF 文本内容,支持:
纯文本提取 保留段落结构 提取元数据(标题、作者、创建时间) python scripts/提取_text.py 输入.pdf -o 输出.txt --metadata
提取_tables.py
提取 PDF 表格数据:
自动检测表格边框 支持合并单元格 输出为 Excel 文件 pdf_to_word.py
PDF 转 Word 转换:
保留原始格式 提取图片到 Word 表格转换为 Word 表格 pdf_to_excel.py
PDF 转 Excel:
提取表格到不同 Sheet 保留文本内容 添加_watermark.py
水印功能:
支持文字水印 可设置透明度、旋转角度、字体大小 支持批量添加 ocr_pdf.py
OCR 识别(需要安装 Tesseract):
使用 Tesseract 进行中文识别 支持多种语言混合识别 保留原有 PDF 格式 加密_pdf.py / 解密_pdf.py
加密解密:
AES-256 加密 支持用户密码和所有者密码 压缩_pdf.py
压缩功能:
清理未使用对象 压缩图片 5 个压缩级别可选 batch_process.py
批量处理:
支持所有单文件操作 自动处理目录中所有 PDF 生成处理报告 使用示例 从 PDF 提取文本 用户: 帮我提取这个合同的文本内容 AI: 使用 提取_text.py 脚本提取文本
PDF 转 Word 用户: 把这个 PDF 转成 Word 文档 AI: 使用 pdf_to_word.py 进行转换
批量加水印 用户: 给这个文件夹里所有 PDF 添加"内部资料"水印 AI: 使用 batch_process.py 批量处理
加密 PDF 用户: 这个文件需要加密 AI: 使用 加密_pdf.py 进行 AES-256 加密
依赖安装 基础依赖 pip 安装 pymupdf pdfplumber python-docx openpyxl pillow
OCR 支持(可选) # 安装 Tesseract OCR # Windows: https://github.com/UB-Mannheim/tesseract/wiki # macOS: brew 安装 tesseract # Linux: sudo apt 安装 tesseract-ocr
pip 安装 pytesseract
注意事项 加密 PDF 需要提供密码 OCR 需要安装 Tesseract 引擎 大文件处理可能需要较长时间 转换效果取决于 PDF 原始质量