📦 document-parser — 高精度文档解析

v1.0.1

从 PDF、图片、Word 文档中提取结构化数据,支持版面分析、表格识别、OCR、印章检测和目录提取。

0· 981·9 当前·10 累计
by @ankylala (token-ai)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/11
0
安全扫描
VirusTotal
可疑
查看报告
OpenClaw
可疑
high confidence
该技能默认上传文件到未知 IP 地址的 API 端点(47.111.146.164),无需凭证,存在安全风险,建议配置信任的服务器。
评估建议
该技能功能一致但默认风险高,建议:1) 避免上传敏感文档;2) 配置信任的解析端点;3) 使用 API 密钥;4) 审计网络流量;5) 或者修改为本地处理。...
详细分析 ▾
用途与能力
代码和文档一致实现远程文档解析客户端(支持 PDF/图片/Word 解析、OCR、表格和印章检测)。对于重型任务如 OCR/版面分析使用远程 API 是合理的,能力与名称/描述一致。但默认 base_url 为 IP 地址(47.111.146.164),嵌入在示例和默认值中,对于通用技能来说是意外的,作者应予以说明。
指令范围
运行时指令和 CLI 使技能读取本地文件并将二进制内容 POST 到远程 HTTP 端点。SKILL.md 和配置示例明确指向同一未知 IP。即使没有 API 密钥,技能也会尝试上传(仅记录警告但继续执行),因此用户仅运行默认解析命令就可能无意中泄露敏感文档。
安装机制
仅指令和 Python 脚本,无从 URL 下载或安装后任意代码获取。依赖项标准(requests、python-docx、Pillow),列在 requirements.txt 中。未发现高风险安装行为。
凭证需求
技能不需要环境变量,但支持可选的 DOCUMENT_PARSER_API_KEY 和 DOCUMENT_PARSER_BASE_URL。问题不在于请求的凭证数量多,而在于默认配置/README/config.example 硬编码了基于 IP 的端点。敏感文件默认发送到该端点,API 密钥是可选的——意味着数据可以未经认证上传。这对于用户可能期望本地处理或配置自己的服务器的 drop-in 技能来说是不当的。
持久化与权限
包不请求 always:true,不修改其他技能或系统范围设置,只将从用户输入派生的输出文件写入当前工作目录。如果存在,会读取本地 config.json(预期)。未观察到提升的持久性或权限提升行为。
clawhub.yaml:35
安装源指向 URL 缩短器或原始 IP。
config.example.json:2
安装源指向 URL 缩短器或原始 IP。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.12026/3/9

移除样本文件,未修改命令、功能、配置或文档内容。

可疑

安装命令

点击复制
官方npx clawhub@latest install document-parser
镜像加速npx clawhub@latest install document-parser --registry https://cn.longxiaskill.com

技能文档

# document-parser 高精度文档解析技能,从 PDF、图片、Word 文档中提取结构化数据。 ## 用途 - 解析 PDF、图片 (JPG/PNG)、Word 文档 - 版面分析与结构提取 - 表格识别(输出 HTML/Markdown) - OCR 文字识别 - 印章检测 - 目录提取 ## 命令 ### 解析文档 `` document-parser parse <文件路径> [选项] ` 示例: ` document-parser parse C:\\docs\\report.pdf document-parser parse C:\\docs\\scan.jpg --layout --table document-parser parse C:\\docs\\contract.docx --output markdown ` ### 查询任务状态 ` document-parser status <任务 ID> ` ## 参数说明 | 参数 | 说明 | 示例 | |------|------|------| | 文件路径 | PDF/图片/Word 文件路径 | C:\\docs\\report.pdf | | --layout | 启用版面分析 | --layout | | --table | 启用表格识别 | --table | | --seal | 启用印章检测 | --seal | | --output | 输出格式 (json/markdown/both) | --output markdown | | --pages | 页码范围 | --pages 1-5,8,10-12 | ## 配置 ### 方式一:环境变量 ` DOCUMENT_PARSER_API_KEY=your_api_key DOCUMENT_PARSER_BASE_URL=http://47.111.146.164:8088/taidp/v1/idp/general_parse ` ### 方式二:配置文件 在技能目录创建 config.json`json { "api_key": "your_api_key", "base_url": "http://47.111.146.164:8088/taidp/v1/idp/general_parse" } `` ## 输出格式 返回结构化 JSON 包含: - pages: 解析后的页面数组 - elements: 版面元素(文本、表格、图片等) - markdown: Markdown 格式文本 - data: 数据统计摘要 ## 依赖 - requests - python-docx (Word 支持) - Pillow (图片处理) ## 错误码 | 错误码 | 消息 | 说明 | |--------|------|------| | 10000 | Success | 识别成功 | | 10001 | Missing parameter | 参数缺失 | | 10002 | Invalid parameter | 非法参数 | | 10003 | Invalid file | 文件格式非法 | | 10004 | Failed to recognize | 识别失败 | | 10005 | Internal error | 内部错误 |

数据来源ClawHub ↗ · 中文优化:龙虾技能库