运行时依赖
安装命令
点击复制技能文档
Deep Token Saver — 综合 Token 节省方案 6层叠加,从根源省 token,不止压缩一句话。
层1:输出压缩(Caveman Mode) 规则 说明 去冠词/废话/客套 a/an/the/just/really/basically/当然/没问题 短句碎片 结论先行,不铺垫 技术内容保持 代码块/路径/数字/名称 原样 切换开关 回复走碎片模式。说正常说话恢复 省:↓75% 输出 token
层2:输入压缩(启动文件 + 记忆) 文件 处理方式 省 AGENTS.md 压缩为 caveman 版 ↓61% SOUL.md 保持轻量 — memory 条目 定期合并、去重 ↓20-30% memory-sync 每日自动归档到 workspace/memory/ 防膨胀
层3:L0/L1/L2 分层笔记(概念笔记用) 每条概念笔记 frontmatter 加 abstract: 字段。我只加载 L0,按需展开: 层级 内容 长度 加载策略 L0 abstract: 一句话定义 ~50 chars 永远加载 L1 核心规则 ~200 chars 按需 L2 全文笔记 ~500+ chars 点开才读 省:↓90% 笔记读取 token
层4:跨会话记忆持久化(Remnic + QMD) 已装组件: @remnic/cli + @remnic/server remnic-hermes Python MemoryProvider QMD 混合搜索(BM25 + 向量 + 重排序) 开机自启:计划任务 RemnicServer 省:↓全量记忆重复加载
层5:记忆去重与合并 定期扫描记忆条目: 语义相似条目 → 合并 过期/无用条目 → 删除 长条目 → 压缩 通过 Remnic API 执行: curl -s -H "Authorization: Bearer $TOKEN" http://127.0.0.1:4318/engram/v1/consolidate 省:↓20-30% 记忆空间
层6:Token 节省审计 每次回复末尾显示本轮的 token 节省: ⚡省: 原本~X 实际~Y 省Z% | 累计省~W 数据来源:回复字符数 × 4(1 token ≈ 4 chars)估算。 省:不直接省,但可视化降本效果
总省效果 层 省多少 类型 输出压缩 ↓75% 每轮 输入压缩 ↓61% 每会话 L0/L1/L2 ↓90% 笔记读取 Remnic/QMD 全量→按需 跨会话 记忆去重 ↓20-30% 维护 合计 预估↓80-90% 全链路
维护命令 # 查看 Remnic 状态 curl -s -H "Authorization: Bearer $TOKEN" http://127.0.0.1:4318/engram/v1/health # 手动记忆合并 curl -s -X POST -H "Authorization: Bearer $TOKEN" http://127.0.0.1:4318/engram/v1/consolidate # 查看 token 节省统计 curl -s -H "Authorization: Bearer $TOKEN" http://127.0.0.1:4318/engram/v1/stats # 手动记忆同步 cd /c/Users/Administrator/workspace && python hermes-memory-sync.py backfill today
故障排除 问题 解决 Remnic 未运行 执行 start-remnic.bat 或重启电脑自动启 记忆条目满了 手动执行记忆合并命令 想正常说话 说正常说话