@dair_ai: 值得一读的新论文。GPT-5.4 nano 加上 critic-comparator 编排循环在 SWE-bench Verified 上达到 76.4%,匹配…
摘要
一篇新论文表明,使用一个弱模型,通过 k=8 个提议和 critic-comparator 选择循环,可以在 SWE-bench Verified 上匹配前沿模型的性能,达到 76.4% 的准确率。关键见解是,正确的补丁通常已经存在于弱模型的前 k 个候选补丁中,挑战在于如何利用执行验证进行有效选择。
查看缓存全文
缓存时间: 2026/05/18 22:38
一篇值得阅读的新论文。GPT-5.4 nano 结合一个评论者-比较器编排循环,在 SWE-bench Verified 上达到 76.4% 的成绩,与独立的 Gemini 3 Pro 和 Claude Opus 4.5 Thinking 相当。技巧在于利用执行和证明信号从 k=8 个弱模型提案中进行选择。这意味着什么?很多你期望从前沿模型获得的补丁,其实已经存在于弱模型的前 8 个候选方案中。当你从一个弱模型获得 8 个候选补丁时,不要问哪个模型最好。直接运行它们并验证。这样就足以匹敌前沿模型的准确率。对 AI 开发者的启示是:弱模型的 top-k 通常已经包含了正确答案。限制你的是选择器的质量,而不是模型的能力。论文:https://arxiv.org/abs/2605.14163 在我们的学院学习构建有效的 AI 智能体:https://academy.dair.ai
智能体系统:弱推理模型的助推机制
来源:https://arxiv.org/html/2605.14163
Varun Sunkaraneni 德州农工大学 & Pierfrancesco Beneventano∗ MIT & Riccardo Neumarker MIT & Tomaso Poggio MIT & Tomer Galanti 德州农工大学
∗ 同等贡献。通过随机掷硬币决定前两位作者的排序。通讯作者:[email protected]。
摘要
一组弱推理模型调用能否达到强模型的性能?我们研究验证器支持的委员会搜索,将其作为推理语言模型在推理时间上的助推机制。其机制不仅仅是“更多智能体有帮助”:样本揭示了潜在的正确答案,而批评者和比较者需要在无法访问隐藏验证器的情况下恢复它们。我们通过分离提案覆盖率、局部可识别性、进展和多样性来形式化这一观点。我们证明覆盖率可以通过重复采样来放大,但本身无法构建有用的批评者或比较器;可靠的放大需要额外的局部可靠性信号,例如执行、证明检查、类型检查、测试或约束求解。我们给出了基于排序的界限,展示了局部选择错误何时会组合成可靠的轨迹,并刻画了提案者侧的上限:Oracle最佳-of-k 只会收敛到提案系统分配非零有用概率的任务片段的集合。在 SWE-bench Verified 上,单个 GPT-5.4 nano 提案解决了 67.0% 的任务。使用相同的 nano 模型,我们的批评者-比较器编排在 k=8 个提案下达到了 76.4%,与独立的 Gemini 3 Pro 和 Claude Opus 4.5 Thinking 相当,并接近 79.0% 的 oracle 最佳-of-8 上限。因此,许多正确的补丁已经存在于弱模型的提案池中;主要挑战在于如何选择它们。其余的失败大多是提案覆盖率失败,表明存在共同的盲点,仅靠更强的选择器无法解决。
1 引言
助推通过反复组合不完美但有用的信号,将弱预测器转变为强预测器[45, 17, 18]。现代语言模型系统在推理时间使用了类似的想法:它们对多个候选进行采样、检查或比较、在部分状态上进行搜索,并选择最终输出[52, 34, 3, 6, 25, 60]。然而,推理并非普通的监督式助推。在监督预测中,每个弱学习器返回一个标签,可以与训练样本进行评估。在推理中,系统必须生成一个中间步骤,决定该步骤是否有用,并避免让小的局部错误累积成错误的最终答案。我们针对验证器支持的推理任务(如代码修复、定理证明和程序合成)研究了这种机制。这些领域提供了测试、证明检查器、类型检查器、执行或约束求解器,可以提供局部可靠性信号[13, 38, 28, 59, 63, 57]。我们将智能体系统建模为推理语言模型的推理时间助推:重复的弱提议增加了产生有用下一步的机会,批评者或比较者帮助识别该步骤,而验证器支持的进展使得有用的步骤可以链接成一个最终解决方案。分析分离开四个量:提案覆盖率、局部选择信号或可识别性、进展和多样性。覆盖率询问是否出现了好的步骤;可识别性询问系统能否识别它;进展使局部选择可以组合;多样性决定更多调用是否会避开不同的失败模式。
参考标题图1:一组GPT-5.4 nano调用达到了更强的模型。增加提案者的多样性将nano编排的结果远远高于nano基线,并达到Gemini 3 Pro和Claude Opus 4.5 Thinking的水平。Oracle最佳-of-n曲线显示正确的解决方案通常已经在提案池中;剩下的差距在于选择。虚线表示单模型解决率。
这种分离至关重要。对更多候选进行采样可以增加有用步骤出现的几率,但仅凭采样无法解释系统如何识别该步骤。最终答案的验证也不够:对于多步骤任务,系统需要中间状态,在这些状态中可以生成进展、检查并安全组合。在提案方,更多调用减少了普通的采样噪声,但无法修复共同的盲点。如果所有提案者对特定类型实例所需的有用步骤分配了接近零的概率,那么即使理想的批评者也无法从样本池中恢复这些步骤。因此,使用oracle批评者的最佳-of-k 衡量了推理时间选择能从提议的候选中恢复什么的上限,而不是理想推理者的完整能力。这种观点也改变了此类系统应如何评估。Pass@1衡量一次生成。Oracle最佳-of-k衡量正确解决方案是否出现在采样候选池的任何位置。已实现系统的成功率衡量有限批评者、比较者、验证器或搜索框架恢复了多少这个oracle差距。预算化成功率曲线衡量随着调用、检查或搜索步骤数量的增加,框架多快接近其最佳可实现性能。
运行示例。考虑SWE-bench Verified[28]。系统接收一个代码仓库、一个问题描述和可见的测试,但成功与否由隐藏测试衡量。单个补丁可能会选择错误的设计、错过跨文件依赖或过度适应可见测试。一个多样化的nano池可能已经包含了一个通过隐藏测试的补丁,但这种潜在能力只有在框架能够恢复它时才起作用。图1显示了这种效果:GPT-5.4 nano 初始为67.0%,而我们的审查者-比较者框架达到了76.4%,与Gemini 3 Pro和Claude Opus 4.5 Thinking相当,并超过了GPT-5.4 mini。Oracle最佳-of-k曲线达到79.0%,表明正确的补丁通常已经在nano提案池中。因此,框架-oracle差距诊断了选择问题,而oracle-强模型差距反映了剩余的生成和共享盲点限制。
贡献。本文做出五项贡献。1. (i) 推理语言模型的推理时间助推。我们将验证器支持的采样-识别-推进系统形式化为LLM的推理时间助推,涉及部分推理状态。我们分离出四个放大量:提案覆盖率、局部可识别性、进展深度和多样性。2. (ii) 覆盖率不意味着可识别性。我们证明了一个黑盒分离:生成进展可靠步骤的非平凡概率本身并不能产生有用的批评者或比较者。可靠的放大需要额外的局部可识别性信号,例如执行、证明检查、类型检查、约束、测试或学到的审查者。3. (iii) 局部到全局的oracle-可识别性界限。我们将失败分解为一个oracle遗漏项,询问k个提案中是否有任何一个包含进展可靠的步骤,以及一个可识别性遗漏项,询问有限批评者/比较者是否恢复了一个。沿着排序有界的轨迹,这些误差相加:Pr(失败) ≤ L(ε_orc(k) + ε_id(k,m,r)),其中 ε_id(k,m,r) ≲ k^2 e^{-β m - 2r σ^2}。4. (iv) 盲点上界和可助推能力。我们基于潜在子群体模型将oracle遗漏项刻画为 ε_orc(k) = B + o(k),其中B是盲点质量,o(k)是有限采样残差。因此,oracle最佳-of-k收敛到 1-B,给出了提案系统正式的可助推能力上限。5. (v) 弱到前沿的经验放大。在SWE-bench Verified上,批评者-比较者编排将GPT-5.4 nano从弱的一次性性能提升到显著更强的独立模型的水平。消融实验展示了其机制:多样性暴露了潜在的正确答案,批评者过滤了有缺陷的候选,比较者对可行的候选项进行排序,而剩余的失败主要是提案覆盖率失败。
2 相关工作
助推与推理时间放大。经典助推在监督反馈下将弱的预测优势转化为强的预测器[45, 17, 18]。这种类比对于验证器支持的推理来说有用但不完整:系统必须生成一个有用的局部步骤,识别它,并重复这个过程而不失去进展。先前的工作研究了作为弱学习器的LLM、弱到强泛化以及语言模型的助推式使用[41, 5, 10]。我们则研究黑盒推理时间范式,其中模型权重固定,问题在于重复调用加上局部选择是否能够放大推理能力。
采样与测试时间缩放。许多推理时间方法通过对更多候选进行采样来提高性能。自一致性、推理集成、通用自一致性、多智能体投票和大规模重复采样都利用了一个事实:有用的答案可能出现在贪婪路径之外[52, 53, 9, 34, 3]。近期的工作研究了更多LM调用的缩放定律、最佳-of-N选择以及更广泛的测试时间缩放[6, 25, 62]。我们的贡献是结构性的:采样只在它暴露有用候选时才有帮助,其上限由共享盲点决定。
选择、验证者与判断器。第二条研究线关注如何从生成候选中进行选择。学习型验证器、过程奖励模型、成对排序器、多验证器系统、奖励模型基准和工具支持的检查表明选择可能与生成同样重要[13, 39, 51, 27, 37, 43, 64, 31, 19, 14]。这些工作推动了我们的覆盖率-可识别性分离。样本池中的正确答案只有在其框架拥有足够强的批评者、比较者、验证者或测试信号来恢复它时才有用。
搜索、智能体与复合系统。推理时间推理通常在部分状态上进行,而不是扁平答案。从易到难提示、思想树、RAP、LATS、ReAct、Reflexion和Self-Refine使用分解、搜索、反馈、规划或工具交互[66, 60, 22, 65, 61, 48, 40]。多智能体和复合系统框架如CAMEL、AutoGen、MetaGPT、Mixture-of-Agents、Archon和Smoothie探索了更大的编排空间[33, 56, 23, 50, 44, 21]。我们在这个设计空间中隔离出一种机制:在有界深度轨迹上进行验证器支持的委员会搜索。
验证器支持的基准与监督。代码和形式推理基准使这种机制具体化,因为候选者通常可以通过测试、执行、类型检查、证明检查器或其他局部信号来检查。AlphaCode、Codex、SWE-bench、SWE-agent、AutoCodeRover和Agentless都使用了采样、定位、修复、验证和工具支持选择的某种组合[35, 7, 28, 59, 63, 57]。辩论、证明者-验证者游戏和可扩展监督也将困难判断分解为更简单的检查或比较,但通常研究论证评估、监督或策略交互,而不是验证器支持的局部行动[26, 12, 16, 36, 4, 1, 30, 29]。我们的设定更狭窄且更机制化:局部行动、局部信号、有界进展以及可测量的盲点。
3 验证器支持的委员会搜索
我们将验证器支持的智能体系统建模为对部分对象进行有界深度搜索,并伴随局部进展。设 X 表示任务族,例如 SWE-bench,并固定一个任务实例 x ∈ X,比如一个特定的 SWE-bench 问题。我们的设定受到强化学习的启发,包含状态和动作。我们将一个智能体工作流
相似文章
介绍 BenchBench(5分钟阅读)
介绍 BenchBench,这是一个评估 AI 模型为其他模型创建有效基准能力的基准测试。目前 GPT 5.2 是唯一成功的胜者,而 GPT 5.5 和 Opus 4.6 等前沿模型则表现不佳。
@berryxia: 小块有大智慧?这下真成真了! 7B小模型现在直接当上了GPT-5、Claude Sonnet 4、Gemini 2.5 Pro这些顶级大模型的老板。 一篇最新论文里,一个用强化学习训练的7B模型学会了写自然语言子任务、分配给不同大模型、精…
一篇最新论文提出通过强化学习训练7B小模型作为任务调度器,自动分解子任务并分配给GPT-5、Claude等顶级大模型,在多项硬核基准上超越单一前沿模型,证明端到端奖励学习可有效替代人工Prompt工程与多智能体流水线设计。
@omarsar0: 效率前沿!你认为 GPT-5.6 会落在哪里?
讨论 Claude Opus 4.8 和 GPT-5.5 在 DeepSWE Bench 上的最新基准测试结果,并推测未来 GPT-5.6 的性能和效率趋势。
为开发者推出 GPT-5
OpenAI 在其 API 平台发布 GPT-5,这是一款最先进的模型,在 SWE-bench Verified 上达到 74.9% 的成绩,在编码、智能体任务和长上下文推理方面表现卓越。此次发布包含三个模型规格(gpt-5、gpt-5-mini、gpt-5-nano)以及新的 API 功能,如详细程度控制、最小推理模式和自定义工具。
面向开发者推出GPT-5.1
OpenAI发布了GPT-5.1,这是GPT-5系列中的一个新模型,它可以基于任务复杂度动态调整思考时间,在保持前沿智能的同时,性能比GPT-5快2-3倍。此次发布包括扩展的提示缓存(24小时保留)、新的编码工具(apply_patch和shell),以及针对延迟敏感应用的“无推理”模式。