介绍 BenchBench(5分钟阅读)
摘要
介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。
BenchBench 是一个用于测试模型创建基准能力的基准测试。它既是一个评估模型能力的优秀基准,也是对模型自我意识的考验。该基准测试的是创造力,而不仅仅是解决问题的能力。在测试中,GPT 5.2 是唯一的胜者,其他所有模型,从 Opus 4.6 到 GPT 5.5,都难以创建出真正有用且让其他模型难以解决的基准。
查看缓存全文
缓存时间: 2026/05/26 18:25
# 介绍 BenchBench
来源:https://www.strangeloopcanon.com/p/introducing-benchbench
*太长不看:推出终极基准测试,让模型互相创建基准测试,GPT 5.2 是目前(唯一)的赢家*
模型在我们抛给它们的几乎每一个基准测试中都表现越来越好。创建基准测试现在变成了我们中最聪明、最优秀的人的工作。即使是最新最强的基准测试,似乎也会在创纪录的时间内被饱和。这意味着,越来越艰巨的任务是创造一个足够好的 AI 基准测试。
于是我迈出了显而易见的下一步:**创建了一个基准测试,用来评估模型创建基准测试的能力(https://github.com/strangeloopcanon/benchbench)。** 这既可以作为模型能力的极佳基准,也能测试模型的自我认知(https://www.strangeloopcanon.com/p/agent-know-thyself-and-bid-accordingly),同时还能帮助我们找到酷炫的新评估方法以及相应的强化学习环境,让前沿模型能够在此基础上攀登!
因此,隆重推出 BenchBench。
[](https://substackcdn.com/image/fetch/$s_!V9LO!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F45641922-a28d-4360-8e42-1108d9721223_2220x832.png)
每个模型都拿到了我们所有现有基准测试的报告,然后被要求提出一个既能击败前沿模型,又实际上可解的基准测试。(即,问 P 是否等于 NP 这种问题不给分。)然后,如果它们在这个任务上失败了,我们会在提供失败案例后让模型再试一轮,以便它们学习并做得更好。接着再试一轮。
那么,它们做到了吗?嗯,并不完全。
首先,GPT 5.2 是唯一的赢家。它成功创建了一个实际有用的基准测试,其他模型难以解决!其他每个模型,从 Opus 4.6 到 GPT 5.5,都挣扎不已。它们要么制造了过于简单的问题,要么创建了无解的问题。
你可能会问,那其他模型到底做了什么?嗯:
- GPT-5.4 构建了看似合理的政策和治理世界,但往往变成了干净的检查清单。不过,它是解决其他模型基准测试中表现最好的!
- GPT-5.5 构建了程序化规则任务,但薄弱环节过于依赖精确的模式或隐藏标签。
- Gemini 3.1 Pro 生成了质量上最为不同的任务。它能区分求解者,但可能变得脆弱或过于像谜题!
- Gemini 3.5 Flash 也找到了不错的商业合规问题,尤其是货运和关税,但顶级求解者仍然完成了它的大部分任务。
- Claude Opus 制作了优雅的竞赛风格经典问题。它们干净易读,这也使得它们更容易被解决。
[](https://substackcdn.com/image/fetch/$s_!RguT!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fab7e3cf0-c764-41e3-a793-d61482bc5ee2_2160x1040.png)
我觉得最有趣的一点是,大家公认的顶级模型,GPT 5.5 和 Opus 4.6,在构建优质基准测试方面都相当保守且几乎毫无用处。要么对前沿模型来说太简单(尽管对小型模型不是),即它们不了解自己的优势;要么过于耍小聪明,创建了无解的难题。
**GPT 5.2 之外的另一个亮点是 Gemini。** 我测试了两个模型:3.5 Flash 和 3.1 Pro。Gemini 一直让我着迷,因为它们确实拥有惊艳的模型,但从未得到充分的展现机会,感觉相当分裂。
Gemini 3.1 Pro 模型是迄今为止最具创造力的:它创建了空间遍历任务、损坏恢复任务以及租赁 CAM 对账!有些机制相当奇特。但它也极其脆弱。我非常非常喜欢这个模型,希望谷歌能给它应有的待遇!
还有一些更广泛的观察也让我觉得很有趣。所有模型都在某种程度上倾向于官僚式取证。考虑到每个实验室都想“吞噬世界”,专注于如何在现实世界的混乱局面中工作,这似乎很符合它们的主要应用场景。报销取证,即 5.2 的贡献,就是一个很好的例子。它给出了一大堆差旅费用单据,答案是一个数字:可报销总额(以美分计)。模型需要穿过作废收据和重复项等雷区来完成这个任务。
BenchBench 还清晰地显示了创作者和求解者角色之间的能力差异。虽然领先模型是优秀的求解者,但它们并非最好的创作者,这是一个有趣的分歧。例如,Gemini 3.5 Flash,没错它很新,但作为一个创作者比 Opus 4.6 更好,尽管作为求解者比它差!
[](https://substackcdn.com/image/fetch/$s_!3gX-!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F0f59b430-ef5a-4b31-943a-a64dbf497d1c_2240x1120.jpeg)
BenchBench 本身还处于早期阶段,应该大规模重复进行,并纳入更多模型!(如果你能帮忙,请告诉我。)展望未来,BenchBench 还将让模型在创建基准测试和求解过程中做更多工作。我可以想象这方面会变得相当出色,尤其是如果它们能连续工作数小时来构思它们认为足够强大的问题!
它已经揭示了一些目前大多数基准测试无法看到的东西:
- 它测试创造力,而不仅仅是解决问题的能力
- 它比较模型对自身能力的自我认知
- 它比较的是真正新颖的东西,结果与其他基准测试并非高度相关
这正是我在运行了几次之后为之兴奋的原因。我痴迷于寻找那些能够测试模型创造力、对自身及能力的理解、以及填补我们下一步需要弥补的关键差距的可能性的基准测试。
目前我们主要靠手动完成这些。所以我们确实需要把它充分确立为一个完整的基准测试。因此,欢迎来到下一个主要基准测试:BenchBench(https://github.com/strangeloopcanon/benchbench)。
[](https://substackcdn.com/image/fetch/$s_!m7dz!,f_auto,q_auto:good,fl_progressive:steep/https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F53a11ffa-b727-4d3a-9580-d7712ffca4a7_1516x548.png)
相似文章
ProgramBench(5分钟阅读)
ProgramBench 是一项全新的基准测试,用于评估 AI 智能体在无法获取源代码或反编译工具的情况下,仅凭编译后的二进制文件和文档重建完整软件项目的能力。
通过基准构建教授AI:QuestBench作为负责任知识工作的课程实践
本文介绍了QuestBench,这是一个由学生构建的基准,用于评估人文和社会科学领域的深度研究系统。结果显示,即使是像GPT-5.5这样的先进系统也只能通过57.58%的问题,突显了可信度方面的失败。
'一刀切'式AI时代已终结。我实测了GPT-5.5、Claude 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro——以下是最新前沿格局。
对GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro的基准测试分析表明,没有单一模型在所有任务上占据优势;要实现最佳性能,需要采用多模型路由器,根据各模型的优势与弱点进行专门化使用。
@omarsar0: 效率前沿!你认为 GPT-5.6 会落在哪里?
讨论 Claude Opus 4.8 和 GPT-5.5 在 DeepSWE Bench 上的最新基准测试结果,并推测未来 GPT-5.6 的性能和效率趋势。
EVMbench 介绍
OpenAI 和 Paradigm 推出了 EVMbench,这是一个用于评估 AI 代理在检测、修复和利用智能合约漏洞方面能力的基准测试,涵盖来自 40 次审计的 117 个精选漏洞。该基准测试显示 GPT-5.3-Codex 在利用任务上达到了 71% 的成功率,显著优于 GPT-5 的 33.3%,而检测和修复任务仍然更具挑战性。