PDF Extractor — PDF 提取器
v1PDF 字段提取器 —— 基于 AI 的 PDF 结构化数据提取。从 PDF 中提取关键字段到 Excel/JSON。支持:发票、合同、收据、银行对账单、许可证、身份证、快递运单、通用文档。触发器:PDF 提取、PDF 字段提取、PDF 到 Excel、PDF 到 JSON、发票提取、合同提取、文档识别、批量 PDF 处理、字段提取。
运行时依赖
安装命令
点击复制技能文档
PDF 字段提取器 AI驱动的PDF结构化数据提取 —— 将PDF关键字段转换为Excel/JSON。 端到端流程 用户上传PDF → 文档类型识别 → AI字段提取 → 结构化输出(Excel/JSON) 从 scripts.pdf_extractor 导入 extract_pdf_text 从 scripts.field_extractor 导入 extract_fields 从 scripts.output_generator 导入 generate_excel, generate_json # 步骤 1:提取PDF文本(PyMuPDF + pdfplumber) text, tables, images = extract_pdf_text("invoice.pdf") # 步骤 2:AI字段提取(用户提供自己的API密钥,OpenAI兼容) fields = extract_fields( text=text, doc_type="invoice", api_key="sk-xxx", api_base="https://api.openai.com/v1", model="gpt-4o", ) 支持的文档类型 类型 描述 发票 增值税发票、收据发票、电子发票 合同 合同、协议 收据 收据、票据 银行对账单 银行对账单 许可证 商业许可证 身份证 身份证、护照 运单 运单、货运标签 通用 用户定义的自定义提取 检测模式 模式 描述 自动 AI自动识别文档类型 手动 用户指定文档类型 分层功能 功能 免费版 专业版 每月页面数 10 不限 文档类型 只有发票 所有类型 输出格式 文本 Excel + JSON + 文本 OCR语言 英语 英语 + 中文 + 9种语言 批处理 1页 不限 自定义字段 —— 是 价格 免费 $0.01/次 技术实现 PDF解析:PyMuPDF(fitz)+ pdfplumber用于文本和表格提取 OCR:EasyOCR / Tesseract用于扫描文档(多语言支持) AI提取:OpenAI兼容API,模型无关(GPT-4o、DeepSeek、GLM等) 输出:Excel(.xlsx)带格式化工作表,JSON带结构化层次 输出格式 Excel 输出 每个文档类型一个工作表 带字段名称的标题行 带提取值的数据行 按置信度着色 JSON 输出 { "doc_type": "invoice", "fields": { "invoice_number": "...", "date": "...", "amount": "...", "buyer": "...", "seller": "..." }, "confidence": 0.95 } 安全说明 AI API调用:使用requests.post到OpenAI兼容端点,带用户提供的API密钥(不存储) 数据存储:使用/tmp/pdf-extractor/进行临时处理文件(无主目录写入) OCR:通过EasyOCR/Tesseract进行本地处理(无外部数据传输) 计费数据:FEISHU_USER_ID传输到skillpay.me/api/v1/billing进行每次调用计费 计费 通过skillpay.me/api/v1/billing/charge进行计费 用户数据传输到SkillPay进行计费识别 每次提取调用$0.01美元(专业版) 所需环境变量 变量 描述 FEISHU_USER_ID 用户open_id用于计费 SKILL_BILLING_API_KEY SkillPay Builder API密钥 SKILL_BILLING_SKILL_ID SkillPay Skill ID(默认:pdf-extractor) 常见错误 错误 原因 解决方案 NO_TEXT_EXTRACTED 扫描PDF无OCR 启用OCR或使用数字PDF UNSUPPORTED_DOC_TYPE 文档类型不识别 手动指定类型 API_ERROR AI API密钥无效或超出配额 检查API密钥