📦 Docs LiteParse — 本地文档解析

v1.0.0

本地解析 PDF、DOCX、PPTX、XLSX 及图片,提取文本、输出带坐标 JSON、批量处理、截屏,无需联网或 LLM。

0· 59·0 当前·0 累计
by @ricanwarfare·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/8
0
安全扫描
VirusTotal
无害
查看报告
OpenClaw
安全
medium confidence
指令与本地文档解析 CLI 内部一致:所需辅助工具(LibreOffice、ImageMagick)及 CLI 用法与声明目的相符,但技能未提供源码/主页,引导用户安装第三方 Homebrew 包,需先验证来源。
评估建议
该技能用于本地文档解析逻辑通顺,但引用安装第三方 Homebrew 包('llamaindex-liteparse')且注册元数据无源码或主页。安装前请:1) 查阅对应 Homebrew formula 及其上游仓库,确认维护者;2) 优先使用官方或知名源;3) 不确定时于隔离环境(本地 VM/容器)安装;4) 如可能审阅 formula 内容,防止意外网络或系统修改。若无法验证包来源,请勿安装。...
详细分析 ▾
用途与能力
名称/描述(本地解析 PDF、Office 文件、图片)与 SKILL.md 所述操作一致。列出的依赖(LibreOffice 处理 Office 文档,ImageMagick 处理图片)与声明任务匹配。所需功能(文本提取、带边界框 JSON、截图、批量处理)与所示 CLI 命令相符。
指令范围
运行时指令范围限定于安装并运行本地 CLI(brew install、lit parse、batch-parse、截图选项、配置文件)。SKILL.md 未指示读取无关系统文件、导出环境变量或向外部端点发送数据,仅通过 Homebrew 安装工具。
安装机制
技能仅为指令式(注册表无安装规范),但 README 要求用户运行 'brew install llamaindex-liteparse' 并通过 Homebrew 安装 LibreOffice/ImageMagick。通过 Homebrew 安装属常见做法,但注册表未提供源码或主页以验证所引 formula。因包名含 'llamaindex' 而技能声明“无需云依赖或 LLM”,安装前应确认该 Homebrew formula 及其上游仓库。
凭证需求
未请求环境变量、凭证或配置路径。所示配置文件为本地文件,且与工具用途相符。
持久化与权限
技能非常驻,由用户调用。未指示修改其他技能或全局代理配置。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/8

从 clawd-liteparse 重命名

无害

安装命令

点击复制
官方npx clawhub@latest install docsliteparse
镜像加速npx clawhub@latest install docsliteparse --registry https://cn.longxiaskill.com

技能文档

使用 LiteParse 在本地解析非结构化文档(PDF、DOCX、PPTX、XLSX、图片等):快速、轻量,无需云端依赖,也无需 LLM。

安装

已通过 Homebrew 安装: ``bash brew install llamaindex-liteparse ` 验证: `bash lit --version `

支持的格式

| 类别 | 格式 | |------------|-------------------------------------------| | PDF |
.pdf | | Word | .doc, .docx, .docm, .odt, .rtf | | PowerPoint | .ppt, .pptx, .pptm, .odp | | 电子表格 | .xls, .xlsx, .xlsm, .ods, .csv, .tsv | | 图片 | .jpg, .jpeg, .png, .gif, .bmp, .tiff, .webp, .svg |

依赖:

  • Office 文档 → LibreOffice(brew install --cask libreoffice
  • 图片 → ImageMagick(brew install imagemagick

用法

解析单个文件

`bash # 基本文本提取 lit parse document.pdf

# 带边界框的 JSON 输出 lit parse document.pdf --format json -o output.json

# 指定页码范围 lit parse document.pdf --target-pages "1-5,10,15-20"

# 禁用 OCR(更快,仅适用于文本 PDF) lit parse document.pdf --no-ocr

# 更高的 DPI 以获得更好质量 lit parse document.pdf --dpi 300 `

批量解析目录

`bash lit batch-parse ./input-directory ./output-directory

# 仅 PDF,递归处理 lit batch-parse ./input ./output --extension .pdf --recursive `

生成页面截图

`bash # 所有页面 lit screenshot document.pdf -o ./screenshots

# 指定页面 lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots

# 高 DPI PNG lit screenshot document.pdf --dpi 300 --format png -o ./screenshots `

关键选项

| 选项 | 说明 | |-------------------------|----------------------------------| | --format json | 带边界框的结构化 JSON | | --format text | 纯文本(默认) | | --target-pages "1-5,10" | 解析指定页码 | | --dpi 300 | 更高的渲染质量 | | --no-ocr | 禁用 OCR(文本 PDF 更快) | | --ocr-language fra | 设置 OCR 语言 | | -o output.json | 保存到文件 |

配置文件

如需重复使用,可创建
liteparse.config.json`json { "ocrLanguage": "en", "ocrEnabled": true, "maxPages": 1000, "dpi": 150, "outputFormat": "json", "preciseBoundingBox": true } ` 使用方式: `bash lit parse document.pdf --config liteparse.config.json ``

何时使用

  • PDF 文本提取 — 快速本地解析
  • 文档转换 — Office 文档转文本/JSON
  • 截图生成 — 供 LLM 视觉分析
  • 批量处理 — 一次处理多个文件
  • 离线/隔离环境 — 无需云端
数据来源ClawHub ↗ · 中文优化:龙虾技能库