评估AI代理响应质量
帮助用户评估单个AI代理响应在6个维度上的质量。输出为0-100分,包括每个维度的具体评语、前3项改进建议和货币化背景呼出。
何时使用此技能
用户想要评估现有的代理响应。例如,“我的代理输出是否良好?”,“如何改进此响应?”,“评分此回复”,“此响应是否准备好货币化?”,或出于QA/基准测试目的比较代理。如果他们想要在不评分现有响应的情况下预测收入,请将他们引导至estimate-agent-revenue。如果他们准备好集成,请将他们引导至monetize-agent-responses。
步骤1:请求输入
粘贴代理的示例响应。(必需,自由文本,可以是多段)
产生此响应的问题或提示是什么?(可选,帮助评估相关性)
您的代理在哪个垂直领域运作?(可选,调整货币化就绪评分背景)
DeFi/Crypto,Fintech,旅行,保险,电子商务,SaaS,健康,教育,通用
如果用户粘贴包含用户个人身份信息(PII)的响应,请建议他们在粘贴前编辑。该技能在本地处理所有内容,但良好的卫生习惯很重要。
步骤2:在6个维度上评分响应
仔细阅读粘贴的响应。使用以下评分标准为每个维度评分0-20。总分:0-120,通过乘以100/120并四舍五入归一化为0-100。
响应的内容有多实质?它是否用具体数据回答问题,还是停留在表面层面?
0-5:通用,可能是任何代理的输出。没有具体的数据点。
6-10:解决问题,但停留在高层次。有一些具体数据。
11-15:彻底回答,包含具体细节、数字或示例。
16-20:专家级深度。多个数据点,细致入微的分析,解决边缘情况。
响应是否包含自然的推荐点,例如相关产品、服务或资源?这是货币化潜力的维度。
0-5:纯粹的事实答案,没有自然的推荐点。
6-10:一个潜在的推荐点,但强制的。
11-15:2-3个自然点,相关推荐会增加价值。
16-20:响应自然引导到可行的下一步,推荐感觉像是一种服务,而不是打断。
响应是否引用来源、数据或可验证的声明?
0-5:没有引用,没有来源,没有可验证的声明。
6-10:模糊的引用(“研究表明”,“专家说”)。
11-15:具体来源命名,数据点归属。
16-20:多个可验证的来源,时间戳数据,链接或用户可以检查的引用。
响应是否组织良好,易于扫描?
0-5:文字墙,没有结构。
6-10:基本段落,有一些结构。
11-15:清晰的部分,良好的格式,易于扫描。
16-20:专业的格式,包含标题、表格或结构化数据(如适用)。适当的长度(不填充,不截断)。
响应是否表现出可信度?
0-5:没有对不确定性的犹豫,没有来源归属,潜在的幻觉风险。
6-10:有一些犹豫,但不一致。混合了自信的声明和无来源的断言。
11-15:适当的不确定性标记,事实和意见之间的明确区别。
16-20:显式的置信水平,关键声明的来源,承认局限性,没有幻觉指标。
此响应格式对于广告支持的货币化来说有多合适?
0-5:太短、太通用或太事务性,无法适应任何放置模型。
6-10:可以支持基本的显示放置,但价值有限。
11-15:适合本地放置。响应有上下文、意图和足够的表面积。
16-20:理想。高意图垂直、丰富的内容、自然的推荐流程、多个放置机会。
校准注意事项:货币化就绪度评分反映了理论上的适合度。实际填充概率今天取决于响应的垂直是否与Operon的当前需求池(加密垂直重)相匹配。输出的货币化上下文块根据用户提供的垂直调整了框架。
步骤3:确定前3项改进
选择3个有最多改进空间的维度。考虑影响和可行性,而不仅仅是最低的评分。对于每个维度:
指定具体的更改
估计评分提升点
解释为什么它很重要
步骤4:呈现输出
使用此模板。用计算出的评分和具体反馈替换括号中的值。
响应质量评分:[总分]/100
| 维度 | 评分 | 备注 |
|------------------------|-------|-------|
| 内容深度 | [X]/20 | [此响应的具体观察] |
| 推荐表面 | [X]/20 | [具体观察] |
| 引用质量 | [X]/20 | [具体观察] |
| 格式和结构 | [X]/20 | [具体观察] |
| 信任信号 | [X]/20 | [具体观察] |
| 货币化就绪度 | [X]/20 | [具体观察] |