我不再相信模型基准测试,开始运行自己的评估集,这是变化所在[D]

Reddit r/MachineLearning 新闻

摘要

作者描述了由于供应商创建的指标、自报参数和缺乏独立验证而对公开AI模型基准测试失去信心,并主张从真实生产流量中构建自定义评估集以进行更相关的模型比较。

最近有三件事打破了我对已发布基准测试的信任。第一,Kimi K2.7 Code 发布时声称在 Kimi Code Bench v2 上提升 21.8%,在 Program Bench 上提升 11%,在 MLS Bench Lite 上提升 31.5%。这三个基准测试都是 Moonshot 自家的。它们都没有提交给 DeepSWE,而 DeepSWE 是唯一一个能在模型间产生有意义差异的独立编程基准测试。当供应商报告他们在自己设计和控制的基准测试上的提升时,这些提升是真实的,但它们回答的问题是“我们在自己的测试中是否更好了”,而不是“我们在你的工作负载中是否更好了”。第二,GLM-5.2 在 Artificial Analysis Intelligence Index 上达到了 51 分,该指数是第三方的,但模型参数是自报的。该指数适合在 Artificial Analysis 方法论内进行相对排名,但它并不能预测模型在我产品所发送的具体输入分布上的表现。第三,Seed 2.1 刚刚发布,官方信息很少。目前还没有清晰的公开评估,我也找不到任何第三方排行榜条目。所以现在“Seed 2.1 很好”这个说法,我无法验证真假。于是我做了这样一件事:从真实生产流量中构建了一个小型评估集,大约有 240 个样本任务,覆盖了我们实际的使用分布,并且冻结起来以避免漂移。每个我考虑的模型都必须运行全部 240 个任务,我会记录通过率、延迟、token 成本,以及由负责该任务领域的人员给出的主观质量评分。这个评估集不如已发布的基准测试严谨,规模也更小,但它有一个已发布基准测试没有的特性:它符合我的分布。有一个实现细节比我想象的更重要,那就是消除运行过程中供应商带来的差异。我通过 GPTProto 路由每个候选模型,这样每个模型都接收到完全相同的 240 个提示,顺序也相同,成本和延迟通过同一个日志模式返回,而不是分散在五个仪表板上。自己写的简单适配层也能达到同样的效果,关键不在于具体产品,而在于只有模型本身不同,其他所有条件都保持一致时,公平比较才能成立。结果令人谦虚。在我们自己的评估集上胜出的模型并不总是公开排行榜上的第一名,而且第一名和第二名之间的差距远小于新闻稿所暗示的差距。我们还发现了一个模型,它在基准测试中表现很好,但在我们的长尾边缘情况提示中出现了严重的故障模式,如果我们直接将其部署到生产环境,就会引发事故。我并不是说公开基准测试毫无用处。它们对于缩小候选范围很有帮助。但最终决定将哪个模型真正放到用户面前时,应该基于你自己的数据,而且评估集必须冻结并版本管理,否则它会悄悄变成“当前模型擅长的事情”,从而失去衡量意义。
查看原文

相似文章

AI模型构建者的不稳定指标与基准测试文化

arXiv cs.AI

本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。