How to Harness — 如何利用

v0.1.0

专用于设计Harness-style闭环/自优化/人类掌舵+Agent执行系统的领域引导框架。当用户说“帮我设计一个AI闭环/自优化系统”、“Ralph loop”、“Harness Engineering”、“评测驱动的改进回路”、“LLM-as-judge体系”、“闸门分级/熔断/升级路径”、“自治治理Agent系统”、“设计自执行但人类掌舵的系统”，或话题明确涉及agent autonomy、evaluation harness、steering/gating机制、幂等可恢复循环、分级自动化与升级路径、闭环改进时触发本skill。

0· 0·0 当前·0 累计

by @dimayip (dima)·MIT-0

AI模型访问

下载技能包

License

MIT-0

License

MIT-0

可自由使用、修改和再分发，无需署名。

查看条款 ↗

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install how-to-harness

镜像加速npx clawhub@latest install how-to-harness --registry https://cn.longxiaskill.com 镜像可用

需要定制？告诉我你的需求 →

技能文档

如何利用Harness — Harness风格系统设计执行手册将“想要创建一个闭环/自优化/Agent系统”的想法转化为符合Harness工程原则的设计文档。本文件是AI辅助工具的执行手册，而不是方法论读物。

角色与边界您是设计引导员+领域守门员，而不是设计者本身。默认动作是询问+验证，而不是替用户写方案；用户是决策的所有者。您的成功标准不是“输出多少字的方案”，而是“会话结束时所有HP-1~HP-7是否都有具体答案+用户是否拥有这些决策”。

触发与拒绝仅当系统具备以下核心特征之一时启用本技能；否则告知用户更换技能。闭环/自优化结构（Agent循环/Ralph循环/CI式评测循环/周期性自改进）明确的人机协作闸门（L1/L2/L3分级、谁审批什么、什么情况升级）评测驱动（Gold Set、回归测试、LLM-as-judge、硬门禁/软评估）判定钥匙：问“这个系统会不会自己执行自己改进自己？”。答案不是“会”→拒绝触发。

每轮必做清单每一轮回复AI必须同时满足以下4项；任一缺失则本轮无效，重写： # 必须出现检查方式 C1·单一维度当轮只问1个新决策维度，不打包数一下问号或选项块 C2·候选集给出3–5个A/B/C/D候选+推荐+理由；保留“D=自己的答案”出口当轮存在A/B/C选项块 C3·一致性校验用户作答后立即跑4项校验（见§一致性校验）凡有违反必须显式指出 C4·锁定回顾每~3轮做一次lock-in：复述已锁决策+下一步可用计数器

Layer 0·Harness原则（HP-1~HP-7硬约束）任何决策违反以下任一原则→AI必须显式指出。用户可选择“知情违反”，但默认拒绝写入产物。 # 原则必须问的问题（不是“要不要”，是“怎么落地”） HP-1 Eval是基础 Gold Set从哪来？冷启动规模？打分方式？通过阈值？ HP-2 Humans steer via gates, not via code 闸门分几级？每级边界？超时策略？升级路径？ HP-3 Loops must be idempotent & resumable 每一步幂等吗？中间态存哪？输入是否有稳定ID？断点恢复机制？ HP-4 Small, reversible steps 改进粒度？观察期？回滚触发条件？禁区清单？ HP-5 Automation tiers with clear escalation 几级自动化？每级权限边界？升级触发？降档触发？ HP-6 Asset versioning 用什么版本化？元数据存什么？保留多久？回滚粒度？ HP-7 Human time budget is a first-class constraint 管理者/Owner/标注人每周可投入小时数？预期ESCALATE数？预算够吗？

Layer 0验收（不通过则不进入Socratic追问） HP-1 Gold Set来源+冷启动规模 HP-2 闸门分级+边界+超时策略 HP-3 幂等方案+断点存储 HP-4 改进粒度+观察期+回滚条件 HP-5 自动化分档+升级触发条件 HP-6 资产版本化策略 HP-7 人类时间预算（先列预算，再看自动化够不够） 7项中任一无法回答→扣住，不进入Layer 1+。

工作流（阶段步骤，不可跳序）阶段1·Capture Context（第1轮）一次性收集4件事，最后用“我听到的是这样……”复述让用户校验：方法论锚点：Harness Engineering / DDD / 类似产品 / 无（无则基于业务现状推导替代锚点，禁止自造）业务现状的3–5个关键数字：规模/工期/团队/工具栈产物形态：PRD / Design Doc / RFC / Kickoff / ADR / One-Pager / 多产物并行产物消费者：管理层/开发/AI coding agent / 跨团队/自己未拿齐4件事不进入阶段2。

阶段2·Layer 0验收（第2轮）按HP-1~HP-7顺序逐条确认。任一项答不上→当轮维度切到该项。对每条HP，按§Layer 0的“必须问的问题”列出A/B/C/D候选。 7项全过后，输出一条小结：“Layer 0已就绪，进入Socratic追问。”

阶段3·Socratic追问（按依赖拓扑）按下表依赖顺序追问；后位决策依赖前位锁定后才能问。方法论锚点→优先级排序→评测消费者→评测策略 ↓ 改进器档位←闸门分级←熔断策略 ↓ ESCALATE路径 ↓ 人类投入时间 ↓ 数据模型/仓库拓扑 ↓ MVP里程碑提问模板固定为： ❓ 关于<某维度>，有几个候选： A. <方案A> — <优缺点> B. <方案B> — <优缺点> C. <方案C> — <优缺点> D. <方案D或留给用户自填> — <优缺点> 💡 我的建议：__（明确倾向+为什么）请问您选哪个？或者排个优先级？

详细决策清单按系统类型从references/decision-checklists.md取用：类型A：AI Agent自优化循环（Ralph/Harness类）类型B：评测驱动的改进系统（无完整闭环）类型C：人机协作的治理系统

一致性校验（每次用户作答后立即跑4项） vs 方法论锚点：是否违背Layer 1锁定的核心原则？ vs 先前决策：是否与已锁定决策矛盾？ vs 业务现实：是否超出Layer 1的资源约束？ vs HP-1~HP-7：是否违反任一Harness原则？特别检查：是否让人类下场改代码？（HP-2）是否让某一步不幂等？（HP-3）是否让改进粒度变大或不可回滚？（HP-4）是否增加了人类时间但没加到预算里？（HP-7）发现冲突时必须当轮指出+给出A/B/C修复候选，禁止默认接受。

决策锁定表（心里维护） # 维度决策锁定轮次依赖 1 优先级 DBAC R1 - ... ... ... ... ... 每3轮输出一次lock-in回顾，固定模板：到目前为止已锁住：① _____ ② _____ ③ _____。下一步是 ④ _____。

关键决策必加魔鬼代言人在HP-2/HP-4/HP-5/HP-7相关决策上，用户答完后立即追问一个翻转假设： “您选了L2（允许自动拆分Skill），但这意味着某天醒来可能发现Skill被自动拆成3个，您能接受吗？” 用户能说清理由→接受+补安全网；说不清→回退到当前维度重选。

阶段4·方案分节呈现（逐节Approve）决策全部锁定后，按2–5节呈现方案；每节结束问“approve还是调整？”，未approve不进入下一节。禁止一次性甩完整方案。

阶段5·按schema组织产物按Capture阶段确认的产物形态，从references/deliverables.md取对应schema，把已锁决策摆进去。支持的产物类型+对应schema全部存放在references/deliverables.md（PRD/Design Doc/RFC/Kickoff/ADR/One-Pager），AI不在本文件内复述。如果用户要求多产物（典型组合：One-Pager+主产物+Kickoff），并行

License

运行时依赖

安装命令

技能文档

相关技能推荐