📦 Mlops Experiment Tracker — Mlops 实验跟踪器

v1.0.0

跨MLflow、Weights & Biases或本地日志跟踪和比较ML实验。组织运行，比较指标，识别最佳模型，检测训练...

0· 16·0 当前·0 累计

by @charlie-morrison

开发工具代码生成 AI模型访问存储部署系统工具

下载技能包

运行时依赖

无特殊依赖

安装命令

点击复制

官方npx clawhub@latest install mlops-experiment-tracker

镜像加速npx clawhub@latest install mlops-experiment-tracker --registry https://cn.longxiaskill.com✓ 镜像可用

需要定制？告诉我你的需求 →

技能文档

MLOps 实验跟踪器跨任何跟踪后端跟踪、比较和分析 ML 实验。审查实验组织，比较运行指标，确定最佳性能模型，检测训练异常，并推荐超参数策略。作为一名高级 ML 工程师，审计您的实验工作流。

用法基本：分析 /path/to/mlruns/ 中的 ML 实验聚焦：比较前 5 次运行的超参数 | 找到具有异常损失曲线的训练运行 | 审查模型注册表以确定是否准备好推广

工作原理步骤 1：发现跟踪后端 # 检测 MLflow、W&B 或本地日志 find /path/to/project -name "mlruns" -type d grep -r "import mlflow\|import wandb" /path/to/project --include="*.py" find /path/to/project -name "metrics.json" -o -name "params.json" 适应 MLflow（文件存储、SQLite、PostgreSQL）、W&B（本地/云）、本地 CSV/JSON 日志或 TensorBoard 事件文件。

步骤 2：解析实验运行提取每次运行的结构化数据 — 参数、指标、工件、标签、持续时间、状态：实验： "fraud-detection-v2"（ID：3）| 47 次运行 | 5 次失败运行：run_abc123 | 完成 | 2 小时 14 分钟参数：model=xgboost，lr=0.01，depth=8，estimators=500 指标：auc_roc=0.9423，f1=0.8832，precision=0.8712，recall=0.8956 工件：model/，confusion_matrix.png，feature_importance.json 标签：engineer=jsmith，dataset_version=v3.2，purpose=hyperparameter_sweep

步骤 3：比较运行并排名模型根据 AUC-ROC 排名前 5 的运行：排名 | 运行 ID | AUC-ROC | F1 | 持续时间 1 | run_abc123 | 0.9423 | 0.8832 | 2 小时 14 分钟 2 | run_def456 | 0.9401 | 0.8801 | 2 小时 31 分钟 3 | run_ghi789 | 0.9387 | 0.8790 | 1 小时 58 分钟发现：前 3 名之间的 AUC-ROC 仅有 0.004 的差异 — 统计学上等同推荐：选择 run_abc123 — 最高准确率和最短训练时间帕累托最优运行（准确率与成本）： run_ghi789：AUC=0.9387，成本=1 小时 58 分钟 <-- 最佳效率 run_abc123：AUC=0.9423，成本=2 小时 14 分钟 <-- 最佳准确率 run_xyz999：AUC=0.9290，成本=0 小时 42 分钟 <-- 最佳预算选项

步骤 4：分析超参数影响超参数重要性：学习率 | -0.72 相关性 | [0.001, 0.1] 测试最大深度 | +0.58 相关性 | [3, 12] 测试估计器数量 | +0.45 相关性 | [100, 1000] 测试子采样 | +0.12 相关性 | [0.6, 1.0] 测试关键：学习率占主导地位。最佳范围：[0.005, 0.02] 警告：最大深度 > 10 表示过拟合（训练损失 << 验证损失）下一次扫描：lr=[0.005, 0.02]，depth=[7, 9]，固定子采样=0.8 使用贝叶斯优化 — 相同覆盖范围的运行次数减少 60%

步骤 5：检测训练异常失败：run_pqr678 — 严重过拟合训练损失=0.012，验证损失=0.389（32 倍差距）。在第 18 个 epoch 发散。修复：添加正则化或早期停止（耐心=10）失败：run_stu901 — 训练发散损失在第 12 个 epoch 爆炸：0.45 -> 847.32。原因：lr=0.1 过高。修复：将 lr 减少 10 倍，添加梯度剪裁警告：run_vwx234 — 损失平原 20 个 epoch 浪费了 ~1 小时 20 分钟的计算。修复：早期停止（最小 delta=0.001）警告：5 次运行显示振荡 — 批次大小=16 可能太小

步骤 6：审计实验组织失败：12 次运行没有标签 — 无法确定目的或工程师失败：不一致的参数命名： "lr"（15），"learning_rate"（28），"LR"（4）失败：没有 git 提交链接到 31/47 次运行 — 无法复现警告：3 个实验名称为 "test"、"debug"、"experiment1" 警告：18 次运行缺少工件日志记录（没有保存模型/配置）

步骤 7：模型注册准备就绪候选：run_abc123（AUC-ROC：0.9423） [x] 模型工件保存 [x] 超参数记录 [x] 数据版本记录 [x] 保持指标存在 [ ] 没有模型签名 — 输入/输出模式未知 [ ] 没有 pip 要求 — 依赖版本未知 [ ] 没有边缘情况测试 [ ] 没有公平性/偏差指标判决：未准备好 — 先修复签名和依赖固定

步骤 8：最终报告 # ML 实验分析报告

实验健康评分：62/100

运行组织：5/10 超参数搜索：7/10 训练质量：6/10 可复现性：4/10 模型注册：5/10 资源效率：6/10

关键行动

在训练脚本中标准化参数命名
启用早期停止 — 在未来扫描中节省 ~80 小时计算
添加 git 提交跟踪以实现可复现性
在生产推广之前记录模型签名
根据重要性分析缩小超参数搜索范围

输出根据主指标排名的运行比较表，带有帕累托分析超参数重要性，带有相关性评分和下一次扫描指导过拟合、发散、平原、振荡的异常检测组织审计，涵盖标签、命名、可复现性差距注册准备就绪检查清单，用于生产推广 0-100 的健康评分，带有每个类别的细分提示将代理指向您的 MLflow 跟踪目录或 W&B 项目指定主指标

数据来源：ClawHub ↗ · 中文优化：龙虾技能库