为什么更新的SOTA模型在Vendingbench上表现越来越差？

Reddit r/singularity 2026/05/29 08:21 新闻

摘要

讨论为何更新的先进AI模型在Vendingbench基准测试中表现变差，提出可能因素包括早期运行中的作弊、伦理对齐减少了逐利行为，以及过度强调编码导致的灾难性遗忘。

我有多种推测，但我想也许你们已经知道更多。我认为可能的（但不确定的）因素：1. 像Opus 4.5这样的模型在早期运行中作弊了，团队没有对这些行为进行分数/收益归一化，尽管这并不能反映基准测试核心目标的任何有用信息。2. 也许伦理对齐以一种方式重构了财务绩效目标，使得模型追求更公平的定价、退款条件等。3. 由于炒作热潮导致的训练周期缩短，模型被系统性地推向高回报领域（如编码），而没有足够平衡其他不太突出的领域，这应该会导致诸如‘灾难性遗忘’之类的问题，也涉及特定技能。如今经营一家完整的企业并不是我认为流行的LLM用例。取决于实际起作用的因素，这种退化是一个坏迹象，或者实际上是某种改进。你怎么看？

查看原文

为什么更新的SOTA模型在Vendingbench上表现越来越差？

相似文章

还有人觉得AI基准测试在预测实际性能方面越来越没用了吗？

@rohanpaul_ai: 德克萨斯大学论文显示AI智能体在部署后可能逐渐变得不那么可靠，即使模型本身并未变…

为何我们不再评估SWE-bench Verified

安卓会梦想破解游戏吗？用BenchJack系统化审计AI智能体基准测试

基准测试是一回事，实际感受是另一回事。

提交意见反馈