为什么更新的SOTA模型在Vendingbench上表现越来越差?

Reddit r/singularity 新闻

摘要

讨论为何更新的先进AI模型在Vendingbench基准测试中表现变差,提出可能因素包括早期运行中的作弊、伦理对齐减少了逐利行为,以及过度强调编码导致的灾难性遗忘。

我有多种推测,但我想也许你们已经知道更多。我认为可能的(但不确定的)因素:1. 像Opus 4.5这样的模型在早期运行中作弊了,团队没有对这些行为进行分数/收益归一化,尽管这并不能反映基准测试核心目标的任何有用信息。2. 也许伦理对齐以一种方式重构了财务绩效目标,使得模型追求更公平的定价、退款条件等。3. 由于炒作热潮导致的训练周期缩短,模型被系统性地推向高回报领域(如编码),而没有足够平衡其他不太突出的领域,这应该会导致诸如‘灾难性遗忘’之类的问题,也涉及特定技能。如今经营一家完整的企业并不是我认为流行的LLM用例。取决于实际起作用的因素,这种退化是一个坏迹象,或者实际上是某种改进。你怎么看?
查看原文

相似文章

为何我们不再评估SWE-bench Verified

OpenAI Blog

OpenAI宣布将不再报告SWE-bench Verified分数,理由是两个关键问题:59.4%的失败问题存在有缺陷的测试用例,这些用例拒绝了正确的解决方案;此外,前沿模型在训练过程中已经见过基准测试问题,使得改进更多地反映了训练数据的暴露而非真实能力提升。

安卓会梦想破解游戏吗?用BenchJack系统化审计AI智能体基准测试

arXiv cs.AI

本文介绍BenchJack,一种自动化红队系统,通过识别奖励黑客漏洞来系统化审计AI智能体基准测试。将其应用于10个热门基准,发现了219个不同的缺陷,并证明评估流程缺乏对抗性思维——该系统将四个基准上的可破解任务比例从接近100%降至10%以下。