Docs LiteParse — 本地文档解析

v1.0.0

本地解析 PDF、DOCX、PPTX、XLSX 及图片，提取文本、输出带坐标 JSON、批量处理、截屏，无需联网或 LLM。

0· 59·0 当前·0 累计

by @ricanwarfare·MIT-0

文件处理数据处理生产力工具开发工具文档工具

下载技能包

License

MIT-0

最后更新

2026/4/8

安全扫描

VirusTotal

无害

查看报告

OpenClaw

安全

medium confidence

指令与本地文档解析 CLI 内部一致：所需辅助工具（LibreOffice、ImageMagick）及 CLI 用法与声明目的相符，但技能未提供源码/主页，引导用户安装第三方 Homebrew 包，需先验证来源。

评估建议

该技能用于本地文档解析逻辑通顺，但引用安装第三方 Homebrew 包（'llamaindex-liteparse'）且注册元数据无源码或主页。安装前请：1) 查阅对应 Homebrew formula 及其上游仓库，确认维护者；2) 优先使用官方或知名源；3) 不确定时于隔离环境（本地 VM/容器）安装；4) 如可能审阅 formula 内容，防止意外网络或系统修改。若无法验证包来源，请勿安装。...

详细分析 ▾

✓ 用途与能力

名称/描述（本地解析 PDF、Office 文件、图片）与 SKILL.md 所述操作一致。列出的依赖（LibreOffice 处理 Office 文档，ImageMagick 处理图片）与声明任务匹配。所需功能（文本提取、带边界框 JSON、截图、批量处理）与所示 CLI 命令相符。

✓ 指令范围

运行时指令范围限定于安装并运行本地 CLI（brew install、lit parse、batch-parse、截图选项、配置文件）。SKILL.md 未指示读取无关系统文件、导出环境变量或向外部端点发送数据，仅通过 Homebrew 安装工具。

ℹ 安装机制

技能仅为指令式（注册表无安装规范），但 README 要求用户运行 'brew install llamaindex-liteparse' 并通过 Homebrew 安装 LibreOffice/ImageMagick。通过 Homebrew 安装属常见做法，但注册表未提供源码或主页以验证所引 formula。因包名含 'llamaindex' 而技能声明“无需云依赖或 LLM”，安装前应确认该 Homebrew formula 及其上游仓库。

✓ 凭证需求

未请求环境变量、凭证或配置路径。所示配置文件为本地文件，且与工具用途相符。

✓ 持久化与权限

技能非常驻，由用户调用。未指示修改其他技能或全局代理配置。

安全有层次，运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

版本

latestv1.0.02026/4/8

从 clawd-liteparse 重命名

● 无害

安装命令

点击复制

官方npx clawhub@latest install docsliteparse

镜像加速npx clawhub@latest install docsliteparse --registry https://cn.longxiaskill.com镜像同步中

需要定制？告诉我你的需求 →

技能文档

使用 LiteParse 在本地解析非结构化文档（PDF、DOCX、PPTX、XLSX、图片等）：快速、轻量，无需云端依赖，也无需 LLM。

安装

已通过 Homebrew 安装： ``

bash  
brew install llamaindex-liteparse

  
验证：

bash  
lit --version

  
支持的格式  
| 类别       | 格式                                      |  
|------------|-------------------------------------------|  
| PDF        |

.pdf

                                    |  
| Word       |

.doc, .docx, .docm, .odt, .rtf

  |  
| PowerPoint |

.ppt, .pptx, .pptm, .odp

          |  
| 电子表格   |

.xls, .xlsx, .xlsm, .ods, .csv, .tsv

 |  
| 图片       |

.jpg, .jpeg, .png, .gif, .bmp, .tiff, .webp, .svg

 |  
依赖：

Office 文档 → LibreOffice（brew install --cask libreoffice）

图片 → ImageMagick（brew install imagemagick）

`用法`

`解析单个文件`

bash  
# 基本文本提取  
lit parse document.pdf  
# 带边界框的 JSON 输出  
lit parse document.pdf --format json -o output.json  
# 指定页码范围  
lit parse document.pdf --target-pages "1-5,10,15-20"  
# 禁用 OCR（更快，仅适用于文本 PDF）  
lit parse document.pdf --no-ocr

# 更高的 DPI 以获得更好质量 lit parse document.pdf --dpi 300`

`批量解析目录`

bash  
lit batch-parse ./input-directory ./output-directory

# 仅 PDF，递归处理 lit batch-parse ./input ./output --extension .pdf --recursive`

`生成页面截图`

bash  
# 所有页面  
lit screenshot document.pdf -o ./screenshots  
# 指定页面  
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots

# 高 DPI PNG lit screenshot document.pdf --dpi 300 --format png -o ./screenshots`

`关键选项`


| 选项                    | 说明                             |  
|-------------------------|----------------------------------|  
|

--format json

         | 带边界框的结构化 JSON            |  
|

--format text

         | 纯文本（默认）                   |  
|

--target-pages "1-5,10"

 | 解析指定页码                     |  
|

--dpi 300

             | 更高的渲染质量                   |  
|

--no-ocr

              | 禁用 OCR（文本 PDF 更快）        |  
|

--ocr-language fra

    | 设置 OCR 语言                    |  
|

-o output.json

        | 保存到文件                       |  
配置文件  
如需重复使用，可创建

liteparse.config.json

：

json  
{  
  "ocrLanguage": "en",  
  "ocrEnabled": true,  
  "maxPages": 1000,  
  "dpi": 150,  
  "outputFormat": "json",  
  "preciseBoundingBox": true  
}

  
使用方式：

bash  
lit parse document.pdf --config liteparse.config.json

何时使用

PDF 文本提取 — 快速本地解析
文档转换 — Office 文档转文本/JSON
截图生成 — 供 LLM 视觉分析
批量处理 — 一次处理多个文件
离线/隔离环境 — 无需云端

License

运行时依赖

版本

安装命令

技能文档

安装

支持的格式

用法

解析单个文件

批量解析目录

生成页面截图

关键选项

配置文件

何时使用

相关技能推荐

`用法`

`解析单个文件`

`批量解析目录`

`生成页面截图`

`关键选项`