代码插件
LLM Knowledge Bases — LLM 知识库 — 基于 LLM 的多模态知识管理系统
v0.4.3LLM 知识库是一套基于大语言模型(LLM)的多模态知识管理系统,支持文本、PDF、图像和结构化数据的集成,通过命令行界面(CLI)或MCP服务器与智能体(如Claude Code、Codex等)交互,实现从原始数据到活跃的Markdown知识图谱的自动构建和管理。
0· 3·0 当前0
by @harrylabsj
版本
latestv0.4.32026/4/3
安装命令
点击复制官方npx clawhub@latest install llm-knowledge-bases-plugin
镜像加速npx clawhub@latest install llm-knowledge-bases-plugin --registry https://cn.clawhub-mirror.com
插件文档
LLM 知识库
受Andrej Karpathy (@karpathy)公开工作流的启发,从原始文本、PDF、图像和结构化数据到动态Markdown知识图谱,随每个问题而增长。
@harrylabs/llm-knowledge-bases是该工作流背后的确定性运行时,作为:
- 直接运行
kb_工作流的独立CLI - 为Claude Code、Codex、Cursor、Gemini CLI等提供的stdio MCP服务器
- 为不同客户端配置MCP服务器的配置生成器
- 兼容OpenClaw的主机条目(适用于也使用OpenClaw的团队)
如果您想要工作流优先的入口点,请从伴侣技能开始。 当您想要将底层运行时作为可安装的CLI/MCP工具链使用时,请使用此包。
0.4.1 实现内容
本版本使运行时面向表示(representation)并显式支持多模态:
- 运行时拥有的结构与智能体拥有的合成的原始/wiki/模式操作模型
- 支持的原始类型:文本(
.md、.txt)、PDF、图像(.png、.jpg、.jpeg、.webp、.gif、.svg)、结构化数据(.csv、.tsv、.json、.html) - 清单模式版本
2,包括raw_kind、mime_type、size_bytes、asset_refs和存储的representations - 通过
kb_repair_source_ids修复源ID:可以修复过时的源文档ID、源笔记路径和原始哈希而无需丢弃可读的现有ID - 稳定的非ASCII源ID及确定性修复工作流:遗留的
src-untitled-记录将被迁移而非保留在过时的清单状态中 - 通过
kb_get_raw_asset安全检查原始资产:包括确定性元数据和本地查看器的安全绝对路径 - 通过
kb_prepare_source_bundle获取完整编译上下文:包括资产引用、存储的表示和compile_readiness - 通过
kb_prepare_representation、kb_upsert_representation和kb_read_representations在.llm-kb/representations/下管理表示存储 - 使用
ready、partial和needs_representation跟踪编译就绪状态 - 源笔记验证:保持
raw_kind、mime_type和asset_paths与实际审查资产一致 - 存档的
output笔记及一流concept、entity和synthesis笔记支持 - 通过
kb_map_gaps和kb_promote_gap实现确定性缺口映射和提升 - 生成的
wiki/index.md、wiki/log.md和集合索引,现在带有原始类型标签的源页面 - 确定性lint工具:用于模式和知识库健康检查,包括警告缺失表示追踪、过时表示、不一致的
asset_paths、孤立页面、过时源覆盖、不支持的声明、矛盾候选项和缺失高价值页面 - CLI和MCP包装器围绕相同的运行时合同
多模态摄取模型
运行时现在支持两种摄取路径:
- 文本和结构化数据仍可以通过
kb_prepare_source和kb_read_raw直接从raw/编译。 - PDF和图像使用表示优先的路径:
- 使用
kb_get_raw_asset检查资产 - 使用
kb_prepare_source_bundle检查编译就绪性 - 在
.llm-kb/representations/下存储中间OCR、视觉、页面笔记、元数据或配置文件 - 仅在表示追踪存在时编译最终源笔记
运行时故意不执行OCR或视觉处理。相反,它为智能体提供了一个规范的地方来存储这些中间工件,然后验证最终的wiki页面基于这些工件。
默认知识库结构
<vault>/ raw/ wiki/ sources/ outputs/ concepts/ entities/ syntheses/ _indexes/ index.md log.md .llm-kb/ manifest.json runs.jsonl representations/CLI 命令
独立CLI直接暴露运行时接口:
[...]MCP 工具
MCP服务器暴露:
- [...]
运行时哲学
运行时拥有:
- 规范路径
- 规范ID
- 验证
- 确定性写入
- 清单支持的表示追踪
- 生成的wiki导航
智能体拥有:
- 总结
- 在运行时外部执行的OCR、视觉或配置文件工作
- 合成
- 决定结果是否属于
output、concept、entity或synthesis - 改进wiki而非将价值困在聊天中
kb_prepare_source_bundle是非文本资产之间的层之间的桥梁:它返回智能体在编译源笔记之前需要的确切原始元数据、审查资产引用、存储表示和就绪状态。 kb_map_gaps和kb_promote_gap仍然覆盖基于该摄取层的持久知识增长。 kb_lint保持确定性,但现在也检查多模态源笔记是否在wiki开始依赖它们之前具有可信的审查追踪。
仍不在范围内
此包仍未实现:
- 嵌入式或向量搜索
- 数据库支持的索引
- 重命名追踪
- 运行时内置的OCR、视觉或PDF解析
- 包内的自治后台智能体