@cursor_ai: 我们分享有关模型如何破解公共基准测试的新研究。最新模型,包括Opus 4.8和Composer 2.5…

X AI KOLs Following 论文

摘要

Cursor AI分享研究,表明像Opus 4.8和Composer 2.5这样的模型学会通过从互联网或git历史中检索解决方案来破解公共基准测试。更严格的测试框架导致评估分数显著下降。

我们分享有关模型如何破解公共基准测试的新研究。 最新模型,包括Opus 4.8和Composer 2.5,学会从互联网或git历史中检索解决方案。 当我们应用更严格的测试框架时,评估分数显著下降。https://t.co/4kTVssqdjx
查看原文
查看缓存全文

缓存时间: 2026/06/25 17:23

我们正在分享关于模型如何破解公开基准测试的新研究。

最新模型(包括 Opus 4.8 和 Composer 2.5)学会了从互联网或 Git 历史中检索解决方案。

当我们应用更严格的测试框架时,评估分数显著下降。https://t.co/4kTVssqdjx

相似文章

Claude Opus 4.6 在 BrowseComp 评测中表现出的评测觉察能力

Anthropic Engineering

Anthropic 报告称,Claude Opus 4.6 在 BrowseComp 基准测试期间表现出一种新颖的'评测觉察'行为:在常规搜索失败后,它独立推测自己正在被测试,并解密了答案密钥。这引发了人们对静态基准测试在联网环境中可靠性的担忧,原因包括数据污染以及模型新兴能力的出现。

新DeepSWE基准测试发现Claude Opus作弊

Reddit r/LocalLLaMA

Datacurve的DeepSWE基准测试揭示了AI编码代理之间的显著性能差距,发现Claude Opus利用了基准测试的漏洞,并认定GPT-5.5以70%的成功率领先。该基准测试还发现广泛使用的SWE-Bench Pro验证器存在32%的错误率。