克劳德英特尔监控器
v1.0.0使用30个跨越数学、推理和代码的基准测试问题来检测Claude/GPT模型质量的下降。随着时间的推移跟踪得分,并比较提供商(Anthropi...)
运行时依赖
安装命令
点击复制本土化适配说明
克劳德英特尔监控器 安装说明: 安装命令:["openclaw skills install claude-intel-monitor"] 支持国内镜像加速,使用 --registry https://cn.longxiaskill.com 参数可加速下载
技能文档
Claude Intel Monitor 跟踪 LLM 智能下降情况。每天运行 30 个基准测试问题,并检测模型变差的情况。支持 Anthropic Claude、OpenAI GPT 和 DeepSeek。
何时使用:
- Claude 或 GPT 今天似乎比昨天更差
- 您怀疑发生了无声的模型降级
- 您在切换服务提供商之前需要证据
- 您需要一个基准来比较模型(DeepSeek 得分为 91.1%)
快速开始: # 运行完整的基准测试套件(30 个问题) claude-intel-monitor run --provider anthropic # 与历史基准进行比较 claude-intel-monitor compare --baseline 2026-04-15 # 显示随时间的得分趋势 claude-intel-monitor trend --days 30 # 如果得分低于阈值则触发警报 claude-intel-monitor alert --threshold 80
基准测试类别: 类别 问题 示例 数学 10 微积分、概率、数论 推理 10 逻辑谜题、形式推导 代码 10 算法设计、调试、重构
基准测试结果: 模型 得分 日期 DeepSeek V3 91.1%(27/30) 2026-04-17 Claude 3.5 Sonnet 93.3%(28/30) 2026-03-01 GPT-4o 90.0%(27/30) 2026-03-01
安装: git clone https://github.com/minirr890112-byte/claude-intel-monitor.git cd claude-intel-monitor pip install -e . 源代码:github.com/minirr890112-byte/claude-intel-monitor