📦 Docs LiteParse — 本地文档解析
v1.0.0本地解析 PDF、DOCX、PPTX、XLSX 及图片,提取文本、输出带坐标 JSON、批量处理、截屏,无需联网或 LLM。
0· 59·0 当前·0 累计
安全扫描
OpenClaw
安全
medium confidence指令与本地文档解析 CLI 内部一致:所需辅助工具(LibreOffice、ImageMagick)及 CLI 用法与声明目的相符,但技能未提供源码/主页,引导用户安装第三方 Homebrew 包,需先验证来源。
评估建议
该技能用于本地文档解析逻辑通顺,但引用安装第三方 Homebrew 包('llamaindex-liteparse')且注册元数据无源码或主页。安装前请:1) 查阅对应 Homebrew formula 及其上游仓库,确认维护者;2) 优先使用官方或知名源;3) 不确定时于隔离环境(本地 VM/容器)安装;4) 如可能审阅 formula 内容,防止意外网络或系统修改。若无法验证包来源,请勿安装。...详细分析 ▾
✓ 用途与能力
名称/描述(本地解析 PDF、Office 文件、图片)与 SKILL.md 所述操作一致。列出的依赖(LibreOffice 处理 Office 文档,ImageMagick 处理图片)与声明任务匹配。所需功能(文本提取、带边界框 JSON、截图、批量处理)与所示 CLI 命令相符。
✓ 指令范围
运行时指令范围限定于安装并运行本地 CLI(brew install、lit parse、batch-parse、截图选项、配置文件)。SKILL.md 未指示读取无关系统文件、导出环境变量或向外部端点发送数据,仅通过 Homebrew 安装工具。
ℹ 安装机制
技能仅为指令式(注册表无安装规范),但 README 要求用户运行 'brew install llamaindex-liteparse' 并通过 Homebrew 安装 LibreOffice/ImageMagick。通过 Homebrew 安装属常见做法,但注册表未提供源码或主页以验证所引 formula。因包名含 'llamaindex' 而技能声明“无需云依赖或 LLM”,安装前应确认该 Homebrew formula 及其上游仓库。
✓ 凭证需求
未请求环境变量、凭证或配置路径。所示配置文件为本地文件,且与工具用途相符。
✓ 持久化与权限
技能非常驻,由用户调用。未指示修改其他技能或全局代理配置。
安全有层次,运行前请审查代码。
运行时依赖
无特殊依赖
版本
latestv1.0.02026/4/8
从 clawd-liteparse 重命名
● 无害
安装命令
点击复制官方npx clawhub@latest install docsliteparse
镜像加速npx clawhub@latest install docsliteparse --registry https://cn.longxiaskill.com
技能文档
使用 LiteParse 在本地解析非结构化文档(PDF、DOCX、PPTX、XLSX、图片等):快速、轻量,无需云端依赖,也无需 LLM。
安装
已通过 Homebrew 安装: ``bash
brew install llamaindex-liteparse
`
验证:
`bash
lit --version
` 支持的格式
| 类别 | 格式 |
|------------|-------------------------------------------|
| PDF | .pdf |
| Word | .doc, .docx, .docm, .odt, .rtf |
| PowerPoint | .ppt, .pptx, .pptm, .odp |
| 电子表格 | .xls, .xlsx, .xlsm, .ods, .csv, .tsv |
| 图片 | .jpg, .jpeg, .png, .gif, .bmp, .tiff, .webp, .svg | 依赖:
Office 文档 → LibreOffice(brew install --cask libreoffice)图片 → ImageMagick(brew install imagemagick)
用法
解析单个文件
`bash
# 基本文本提取
lit parse document.pdf # 带边界框的 JSON 输出
lit parse document.pdf --format json -o output.json
# 指定页码范围
lit parse document.pdf --target-pages "1-5,10,15-20"
# 禁用 OCR(更快,仅适用于文本 PDF)
lit parse document.pdf --no-ocr
# 更高的 DPI 以获得更好质量
lit parse document.pdf --dpi 300
`
批量解析目录
`bash
lit batch-parse ./input-directory ./output-directory # 仅 PDF,递归处理
lit batch-parse ./input ./output --extension .pdf --recursive
`
生成页面截图
`bash
# 所有页面
lit screenshot document.pdf -o ./screenshots # 指定页面
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
# 高 DPI PNG
lit screenshot document.pdf --dpi 300 --format png -o ./screenshots
`
关键选项
| 选项 | 说明 |
|-------------------------|----------------------------------|
| --format json | 带边界框的结构化 JSON |
| --format text | 纯文本(默认) |
| --target-pages "1-5,10" | 解析指定页码 |
| --dpi 300 | 更高的渲染质量 |
| --no-ocr | 禁用 OCR(文本 PDF 更快) |
| --ocr-language fra | 设置 OCR 语言 |
| -o output.json | 保存到文件 | 配置文件
如需重复使用,可创建 liteparse.config.json:
`json
{
"ocrLanguage": "en",
"ocrEnabled": true,
"maxPages": 1000,
"dpi": 150,
"outputFormat": "json",
"preciseBoundingBox": true
}
`
使用方式:
`bash
lit parse document.pdf --config liteparse.config.json
`` 何时使用
- PDF 文本提取 — 快速本地解析
- 文档转换 — Office 文档转文本/JSON
- 截图生成 — 供 LLM 视觉分析
- 批量处理 — 一次处理多个文件
- 离线/隔离环境 — 无需云端