PDF Extractor — PDF 提取器

PDF 字段提取器 —— 基于 AI 的 PDF 结构化数据提取。从 PDF 中提取关键字段到 Excel/JSON。支持：发票、合同、收据、银行对账单、许可证、身份证、快递运单、通用文档。触发器：PDF 提取、PDF 字段提取、PDF 到 Excel、PDF 到 JSON、发票提取、合同提取、文档识别、批量 PDF 处理、字段提取。

0· 77·0 当前·0 累计

by @billjamno58 (YK-Global)·MIT-0

文档工具数据分析数据可视化文件处理 AI模型访问

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install pdf-extractor

镜像加速npx clawhub@latest install pdf-extractor --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

PDF 字段提取器 AI驱动的PDF结构化数据提取 —— 将PDF关键字段转换为Excel/JSON。端到端流程用户上传PDF → 文档类型识别 → AI字段提取 → 结构化输出（Excel/JSON）从 scripts.pdf_extractor 导入 extract_pdf_text 从 scripts.field_extractor 导入 extract_fields 从 scripts.output_generator 导入 generate_excel, generate_json # 步骤 1：提取PDF文本（PyMuPDF + pdfplumber） text, tables, images = extract_pdf_text("invoice.pdf") # 步骤 2：AI字段提取（用户提供自己的API密钥，OpenAI兼容） fields = extract_fields( text=text, doc_type="invoice", api_key="sk-xxx", api_base="https://api.openai.com/v1", model="gpt-4o", ) 支持的文档类型类型描述发票增值税发票、收据发票、电子发票合同合同、协议收据收据、票据银行对账单银行对账单许可证商业许可证身份证身份证、护照运单运单、货运标签通用用户定义的自定义提取检测模式模式描述自动 AI自动识别文档类型手动用户指定文档类型分层功能功能免费版专业版每月页面数 10 不限文档类型只有发票所有类型输出格式文本 Excel + JSON + 文本 OCR语言英语英语 + 中文 + 9种语言批处理 1页不限自定义字段 —— 是价格免费 $0.01/次技术实现 PDF解析：PyMuPDF（fitz）+ pdfplumber用于文本和表格提取 OCR：EasyOCR / Tesseract用于扫描文档（多语言支持） AI提取：OpenAI兼容API，模型无关（GPT-4o、DeepSeek、GLM等）输出：Excel（.xlsx）带格式化工作表，JSON带结构化层次输出格式 Excel 输出每个文档类型一个工作表带字段名称的标题行带提取值的数据行按置信度着色 JSON 输出 { "doc_type": "invoice", "fields": { "invoice_number": "...", "date": "...", "amount": "...", "buyer": "...", "seller": "..." }, "confidence": 0.95 } 安全说明 AI API调用：使用requests.post到OpenAI兼容端点，带用户提供的API密钥（不存储）数据存储：使用/tmp/pdf-extractor/进行临时处理文件（无主目录写入） OCR：通过EasyOCR/Tesseract进行本地处理（无外部数据传输）计费数据：FEISHU_USER_ID传输到skillpay.me/api/v1/billing进行每次调用计费计费通过skillpay.me/api/v1/billing/charge进行计费用户数据传输到SkillPay进行计费识别每次提取调用$0.01美元（专业版）所需环境变量变量描述 FEISHU_USER_ID 用户open_id用于计费 SKILL_BILLING_API_KEY SkillPay Builder API密钥 SKILL_BILLING_SKILL_ID SkillPay Skill ID（默认：pdf-extractor）常见错误错误原因解决方案 NO_TEXT_EXTRACTED 扫描PDF无OCR 启用OCR或使用数字PDF UNSUPPORTED_DOC_TYPE 文档类型不识别手动指定类型 API_ERROR AI API密钥无效或超出配额检查API密钥

License

运行时依赖

安装命令

技能文档

相关技能推荐