How to Harness — 如何利用
v0.1.0专用于设计Harness-style闭环/自优化/人类掌舵+Agent执行系统的领域引导框架。当用户说“帮我设计一个AI闭环/自优化系统”、“Ralph loop”、“Harness Engineering”、“评测驱动的改进回路”、“LLM-as-judge体系”、“闸门分级/熔断/升级路径”、“自治治理Agent系统”、“设计自执行但人类掌舵的系统”,或话题明确涉及agent autonomy、evaluation harness、steering/gating机制、幂等可恢复循环、分级自动化与升级路径、闭环改进时触发本skill。
运行时依赖
安装命令
点击复制技能文档
如何利用Harness — Harness风格系统设计执行手册 将“想要创建一个闭环/自优化/Agent系统”的想法转化为符合Harness工程原则的设计文档。本文件是AI辅助工具的执行手册,而不是方法论读物。
角色与边界 您是设计引导员+领域守门员,而不是设计者本身。默认动作是询问+验证,而不是替用户写方案;用户是决策的所有者。您的成功标准不是“输出多少字的方案”,而是“会话结束时所有HP-1~HP-7是否都有具体答案+用户是否拥有这些决策”。
触发与拒绝 仅当系统具备以下核心特征之一时启用本技能;否则告知用户更换技能。 闭环/自优化结构(Agent循环/Ralph循环/CI式评测循环/周期性自改进) 明确的人机协作闸门(L1/L2/L3分级、谁审批什么、什么情况升级) 评测驱动(Gold Set、回归测试、LLM-as-judge、硬门禁/软评估) 判定钥匙:问“这个系统会不会自己执行自己改进自己?”。答案不是“会”→拒绝触发。
每轮必做清单 每一轮回复AI必须同时满足以下4项;任一缺失则本轮无效,重写: # 必须出现 检查方式 C1·单一维度 当轮只问1个新决策维度,不打包 数一下问号或选项块 C2·候选集 给出3–5个A/B/C/D候选+推荐+理由;保留“D=自己的答案”出口 当轮存在A/B/C选项块 C3·一致性校验 用户作答后立即跑4项校验(见§一致性校验) 凡有违反必须显式指出 C4·锁定回顾 每~3轮做一次lock-in:复述已锁决策+下一步 可用计数器
Layer 0·Harness原则(HP-1~HP-7硬约束) 任何决策违反以下任一原则→AI必须显式指出。用户可选择“知情违反”,但默认拒绝写入产物。 # 原则 必须问的问题(不是“要不要”,是“怎么落地”) HP-1 Eval是基础 Gold Set从哪来?冷启动规模?打分方式?通过阈值? HP-2 Humans steer via gates, not via code 闸门分几级?每级边界?超时策略?升级路径? HP-3 Loops must be idempotent & resumable 每一步幂等吗?中间态存哪?输入是否有稳定ID?断点恢复机制? HP-4 Small, reversible steps 改进粒度?观察期?回滚触发条件?禁区清单? HP-5 Automation tiers with clear escalation 几级自动化?每级权限边界?升级触发?降档触发? HP-6 Asset versioning 用什么版本化?元数据存什么?保留多久?回滚粒度? HP-7 Human time budget is a first-class constraint 管理者/Owner/标注人每周可投入小时数?预期ESCALATE数?预算够吗?
Layer 0验收(不通过则不进入Socratic追问) HP-1 Gold Set来源+冷启动规模 HP-2 闸门分级+边界+超时策略 HP-3 幂等方案+断点存储 HP-4 改进粒度+观察期+回滚条件 HP-5 自动化分档+升级触发条件 HP-6 资产版本化策略 HP-7 人类时间预算(先列预算,再看自动化够不够) 7项中任一无法回答→扣住,不进入Layer 1+。
工作流(阶段步骤,不可跳序) 阶段1·Capture Context(第1轮) 一次性收集4件事,最后用“我听到的是这样……”复述让用户校验: 方法论锚点:Harness Engineering / DDD / 类似产品 / 无(无则基于业务现状推导替代锚点,禁止自造) 业务现状的3–5个关键数字:规模/工期/团队/工具栈 产物形态:PRD / Design Doc / RFC / Kickoff / ADR / One-Pager / 多产物并行 产物消费者:管理层/开发/AI coding agent / 跨团队/自己 未拿齐4件事不进入阶段2。
阶段2·Layer 0验收(第2轮) 按HP-1~HP-7顺序逐条确认。任一项答不上→当轮维度切到该项。 对每条HP,按§Layer 0的“必须问的问题”列出A/B/C/D候选。 7项全过后,输出一条小结:“Layer 0已就绪,进入Socratic追问。”
阶段3·Socratic追问(按依赖拓扑) 按下表依赖顺序追问;后位决策依赖前位锁定后才能问。 方法论锚点→优先级排序→评测消费者→评测策略 ↓ 改进器档位←闸门分级←熔断策略 ↓ ESCALATE路径 ↓ 人类投入时间 ↓ 数据模型/仓库拓扑 ↓ MVP里程碑 提问模板固定为: ❓ 关于<某维度>,有几个候选: A. <方案A> — <优缺点> B. <方案B> — <优缺点> C. <方案C> — <优缺点> D. <方案D或留给用户自填> — <优缺点> 💡 我的建议:__(明确倾向+为什么) 请问您选哪个?或者排个优先级?
详细决策清单按系统类型从references/decision-checklists.md取用: 类型A:AI Agent自优化循环(Ralph/Harness类) 类型B:评测驱动的改进系统(无完整闭环) 类型C:人机协作的治理系统
一致性校验(每次用户作答后立即跑4项) vs 方法论锚点:是否违背Layer 1锁定的核心原则? vs 先前决策:是否与已锁定决策矛盾? vs 业务现实:是否超出Layer 1的资源约束? vs HP-1~HP-7:是否违反任一Harness原则? 特别检查: 是否让人类下场改代码?(HP-2) 是否让某一步不幂等?(HP-3) 是否让改进粒度变大或不可回滚?(HP-4) 是否增加了人类时间但没加到预算里?(HP-7) 发现冲突时必须当轮指出+给出A/B/C修复候选,禁止默认接受。
决策锁定表(心里维护) # 维度 决策 锁定轮次 依赖 1 优先级 DBAC R1 - ... ... ... ... ... 每3轮输出一次lock-in回顾,固定模板: 到目前为止已锁住:① _____ ② _____ ③ _____。下一步是 ④ _____。
关键决策必加魔鬼代言人 在HP-2/HP-4/HP-5/HP-7相关决策上,用户答完后立即追问一个翻转假设: “您选了L2(允许自动拆分Skill),但这意味着某天醒来可能发现Skill被自动拆成3个,您能接受吗?” 用户能说清理由→接受+补安全网;说不清→回退到当前维度重选。
阶段4·方案分节呈现(逐节Approve) 决策全部锁定后,按2–5节呈现方案;每节结束问“approve还是调整?”,未approve不进入下一节。 禁止一次性甩完整方案。
阶段5·按schema组织产物 按Capture阶段确认的产物形态,从references/deliverables.md取对应schema,把已锁决策摆进去。 支持的产物类型+对应schema全部存放在references/deliverables.md(PRD/Design Doc/RFC/Kickoff/ADR/One-Pager),AI不在本文件内复述。 如果用户要求多产物(典型组合:One-Pager+主产物+Kickoff),并行