代码插件

LLM Knowledge Bases — LLM 知识库 — 基于 LLM 的多模态知识管理系统

v0.4.3

LLM 知识库是一套基于大语言模型（LLM）的多模态知识管理系统，支持文本、PDF、图像和结构化数据的集成，通过命令行界面（CLI）或MCP服务器与智能体（如Claude Code、Codex等）交互，实现从原始数据到活跃的Markdown知识图谱的自动构建和管理。

0· 3·0 当前0

by @harrylabsj

开发工具 API工具智能体 MCP工具知识图谱

下载插件包项目主页

最后更新

2026/4/6

版本

latestv0.4.32026/4/3

安装命令

点击复制

官方npx clawhub@latest install llm-knowledge-bases-plugin

镜像加速npx clawhub@latest install llm-knowledge-bases-plugin --registry https://cn.clawhub-mirror.com

插件文档

LLM 知识库

受Andrej Karpathy (@karpathy)公开工作流的启发，从原始文本、PDF、图像和结构化数据到动态Markdown知识图谱，随每个问题而增长。

@harrylabs/llm-knowledge-bases是该工作流背后的确定性运行时，作为：

直接运行kb_工作流的独立CLI
为Claude Code、Codex、Cursor、Gemini CLI等提供的stdio MCP服务器
为不同客户端配置MCP服务器的配置生成器
兼容OpenClaw的主机条目（适用于也使用OpenClaw的团队）

如果您想要工作流优先的入口点，请从伴侣技能开始。当您想要将底层运行时作为可安装的CLI/MCP工具链使用时，请使用此包。

0.4.1 实现内容

本版本使运行时面向表示（representation）并显式支持多模态：

运行时拥有的结构与智能体拥有的合成的原始/wiki/模式操作模型
支持的原始类型：文本（.md、.txt）、PDF、图像（.png、.jpg、.jpeg、.webp、.gif、.svg）、结构化数据（.csv、.tsv、.json、.html)
清单模式版本2，包括raw_kind、mime_type、size_bytes、asset_refs和存储的representations
通过kb_repair_source_ids修复源ID：可以修复过时的源文档ID、源笔记路径和原始哈希而无需丢弃可读的现有ID
稳定的非ASCII源ID及确定性修复工作流：遗留的src-untitled-记录将被迁移而非保留在过时的清单状态中
通过kb_get_raw_asset安全检查原始资产：包括确定性元数据和本地查看器的安全绝对路径
通过kb_prepare_source_bundle获取完整编译上下文：包括资产引用、存储的表示和compile_readiness
通过kb_prepare_representation、kb_upsert_representation和kb_read_representations在.llm-kb/representations/下管理表示存储
使用ready、partial和needs_representation跟踪编译就绪状态
源笔记验证：保持raw_kind、mime_type和asset_paths与实际审查资产一致
存档的output笔记及一流concept、entity和synthesis笔记支持
通过kb_map_gaps和kb_promote_gap实现确定性缺口映射和提升
生成的wiki/index.md、wiki/log.md和集合索引，现在带有原始类型标签的源页面
确定性lint工具：用于模式和知识库健康检查，包括警告缺失表示追踪、过时表示、不一致的asset_paths、孤立页面、过时源覆盖、不支持的声明、矛盾候选项和缺失高价值页面
CLI和MCP包装器围绕相同的运行时合同

多模态摄取模型

运行时现在支持两种摄取路径：

文本和结构化数据仍可以通过kb_prepare_source和kb_read_raw直接从raw/编译。
PDF和图像使用表示优先的路径：

使用kb_get_raw_asset检查资产
使用kb_prepare_source_bundle检查编译就绪性
在.llm-kb/representations/下存储中间OCR、视觉、页面笔记、元数据或配置文件
仅在表示追踪存在时编译最终源笔记

运行时故意不执行OCR或视觉处理。相反，它为智能体提供了一个规范的地方来存储这些中间工件，然后验证最终的wiki页面基于这些工件。

默认知识库结构

<vault>/  raw/  wiki/  sources/  outputs/  concepts/  entities/  syntheses/  _indexes/  index.md  log.md  .llm-kb/  manifest.json  runs.jsonl  representations/

CLI 命令

独立CLI直接暴露运行时接口：

[...]

MCP 工具

MCP服务器暴露：

[...]

运行时哲学

运行时拥有：

规范路径
规范ID
验证
确定性写入
清单支持的表示追踪
生成的wiki导航

智能体拥有：

总结
在运行时外部执行的OCR、视觉或配置文件工作
合成
决定结果是否属于output、concept、entity或synthesis
改进wiki而非将价值困在聊天中

kb_prepare_source_bundle是非文本资产之间的层之间的桥梁：它返回智能体在编译源笔记之前需要的确切原始元数据、审查资产引用、存储表示和就绪状态。 kb_map_gaps和kb_promote_gap仍然覆盖基于该摄取层的持久知识增长。 kb_lint保持确定性，但现在也检查多模态源笔记是否在wiki开始依赖它们之前具有可信的审查追踪。

仍不在范围内

此包仍未实现：

嵌入式或向量搜索
数据库支持的索引
重命名追踪
运行时内置的OCR、视觉或PDF解析
包内的自治后台智能体

数据来源：ClawHub ↗ · 中文优化：龙虾技能库