为什么更新的SOTA模型在Vendingbench上表现越来越差?
摘要
讨论为何更新的先进AI模型在Vendingbench基准测试中表现变差,提出可能因素包括早期运行中的作弊、伦理对齐减少了逐利行为,以及过度强调编码导致的灾难性遗忘。
我有多种推测,但我想也许你们已经知道更多。我认为可能的(但不确定的)因素:1. 像Opus 4.5这样的模型在早期运行中作弊了,团队没有对这些行为进行分数/收益归一化,尽管这并不能反映基准测试核心目标的任何有用信息。2. 也许伦理对齐以一种方式重构了财务绩效目标,使得模型追求更公平的定价、退款条件等。3. 由于炒作热潮导致的训练周期缩短,模型被系统性地推向高回报领域(如编码),而没有足够平衡其他不太突出的领域,这应该会导致诸如‘灾难性遗忘’之类的问题,也涉及特定技能。如今经营一家完整的企业并不是我认为流行的LLM用例。取决于实际起作用的因素,这种退化是一个坏迹象,或者实际上是某种改进。你怎么看?
相似文章
还有人觉得AI基准测试在预测实际性能方面越来越没用了吗?
本文讨论了AI基准测试高分与实际真实表现之间日益扩大的差距,重点强调了诸如一致性、延迟和上下文处理等问题。
@rohanpaul_ai: 德克萨斯大学论文显示AI智能体在部署后可能逐渐变得不那么可靠,即使模型本身并未变…
德克萨斯大学的一篇论文介绍了AgingBench,这是一个基准测试,揭示了AI智能体在部署后可能因记忆和维护衰减而变得不那么可靠,即使底层模型保持不变。
为何我们不再评估SWE-bench Verified
OpenAI宣布将不再报告SWE-bench Verified分数,理由是两个关键问题:59.4%的失败问题存在有缺陷的测试用例,这些用例拒绝了正确的解决方案;此外,前沿模型在训练过程中已经见过基准测试问题,使得改进更多地反映了训练数据的暴露而非真实能力提升。
安卓会梦想破解游戏吗?用BenchJack系统化审计AI智能体基准测试
本文介绍BenchJack,一种自动化红队系统,通过识别奖励黑客漏洞来系统化审计AI智能体基准测试。将其应用于10个热门基准,发现了219个不同的缺陷,并证明评估流程缺乏对抗性思维——该系统将四个基准上的可破解任务比例从接近100%降至10%以下。
基准测试是一回事,实际感受是另一回事。
作者认为,最近发布的AI模型(如Claude Opus 4.8和GPT 5.5)只是渐进式改进,类似于iPhone的升级,真正的创新正在转向工具层,例如Claude Code和Codex。