作为弱推理模型助推器的智能体系统

arXiv cs.AI 论文

摘要

本文研究了以验证器为后盾的委员会搜索作为推理语言模型的推理时增强方法,表明在像 SWE-bench Verified 这样的代码修复任务上,弱推理模型委员会可以匹配强得多的模型的性能。

arXiv:2605.14163v1 公告类型:新 摘要:一个弱推理模型调用委员会能否达到强得多的模型的性能?我们研究了以验证器为后盾的委员会搜索作为推理语言模型的推理时增强方法。这一机制并非简单在于“更多智能体有帮助”:样本暴露了隐藏的正确解,而批评者和比较器需要在不访问隐藏验证器的情况下恢复这些解。我们通过分离提议覆盖、局部可识别性、进展和多样性来形式化这一观点。我们证明,覆盖可以通过重复采样放大,但单靠它无法创建有用的批评者或比较器;可靠的放大需要额外的局部正确性信号,例如执行、证明检查、类型检查、测试或约束求解。我们给出了基于秩的界限,展示了局部选择错误何时会组合成可靠的轨迹,并刻画了提议方上限:oracle best-of-\(k\) 仅收敛到提议系统赋予非零有用概率的任务片段的整体质量。在 SWE-bench Verified 上的实验表明,单个 \texttt{GPT-5.4 nano} 提议解决了 \(67.0\%\) 的任务。使用相同的 nano 模型,我们的批评者-比较者编排在 \(k=8\) 个提议下达到 \(76.4\%\),与 \texttt{Gemini 3 Pro} 和 \texttt{Claude Opus 4.5} Thinking 的独立性能相当,并接近 \(79.0\%\) 的 oracle best-of-\(8\) 上限。因此,许多正确的补丁已经存在于弱模型提议池中;主要挑战在于选择它们。剩余的失败主要是提议覆盖失败,表明存在共享盲点,仅靠更强的选择无法弥补。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:21

# 代理系统作为弱推理模型提升方法

来源:https://arxiv.org/html/2605.14163

Varun Sunkaraneni 德克萨斯农工大学 & Pierfrancesco Beneventano∗ 麻省理工学院 & Riccardo Neumarker 麻省理工学院 & Tomaso Poggio 麻省理工学院 & Tomer Galanti 德克萨斯农工大学

∗ 同等贡献。作者顺序由随机抛硬币决定前两位作者。通讯作者:[email protected]。

###### 摘要

一个由弱推理模型调用组成的委员会能否达到远比自身强大模型的表现?我们研究基于验证器的委员会搜索作为推理语言模型的推理时提升方法。其机制不仅是“更多智能体有帮助”:样本暴露了潜在的正确答案,而批评者和比较者必须在无法访问隐藏验证器的情况下恢复它们。我们通过分离提案覆盖、局部可识别性、进展和多样性来形式化这一观点。我们证明覆盖可以通过重复采样放大,但仅凭其自身无法创建有用的批评者或比较者;可靠的放大需要额外的局部正确性信号,例如执行、证明检查、类型检查、测试或约束求解。我们给出了基于排序的界限,展示了局部选择错误何时组合成可靠轨迹,并刻画了提案方的上限:oracle best-of-k 仅收敛于提案系统分配非零有用概率的任务片段的质量。经验上,在 SWE-bench Verified 上,单个 GPT-5.4 nano 提案解决了 67.0% 的任务。使用相同的 nano 模型,我们的批评者-比较者编排在 k=8 个提案时达到了 76.4%,与 Gemini 3 Pro 和 Claude Opus 4.5 Thinking 的独立表现相当,并接近 79.0% 的 oracle best-of-8 上限。因此,许多正确的补丁已经存在于弱模型的提案池中;主要挑战在于选择它们。剩余的失败主要是提案覆盖失败,表明存在共同盲点,仅靠更强的选择无法弥补。

## 1 引言

提升方法通过反复组合不完美但有用的信号,将弱预测器转化为强预测器 [45, 17, 18]。现代语言模型系统在推理时使用了类似的想法:它们采样多个候选方案,进行检查或比较,搜索部分状态,并选择最终输出 [52, 34, 3, 6, 25, 60]。然而,推理并非普通的监督式提升。在监督预测中,每个弱学习器返回一个标签,可以对照训练样本进行评估。在推理中,系统必须生成一个中间步骤,判断该步骤是否有用,并避免让微小的局部错误累积成最终错误答案。我们研究这种机制在基于验证器的推理任务,如代码修复、定理证明和程序合成中的应用。这些领域提供了测试、证明检查器、类型检查器、执行或约束求解器,可以提供局部正确性信号 [13, 38, 28, 59, 63, 57]。我们将代理系统建模为推理语言模型的*推理时提升*:重复的弱提案增加了产生有用下一步的机会,批评者或比较者帮助识别该步骤,而基于验证器的进展使得有用步骤可以链接成最终解决方案。分析分离了四个量:提案覆盖、局部选择信号或可识别性、进展和多样性。覆盖询问是否出现了好的步骤;可识别性询问系统能否识别它;进展使得局部选择可以组合;多样性决定更多调用是否能够逃脱不同的失败模式。

参考图标题

图 1:由 GPT-5.4 nano 调用组成的委员会达到了强大得多的模型的表现。增加提案者多样性将 nano 编排大幅提升至 nano 基线之上,达到 Gemini 3 Pro 和 Claude Opus 4.5 Thinking 的水平。oracle best-of-k 曲线显示,正确的解决方案往往已经在提案池中;剩余的差距在于选择。虚线表示单模型解决率。

这种分离至关重要。采样更多候选方案可以增加有用步骤出现的几率,但仅凭采样无法解释系统如何识别该步骤。最终答案验证也不够:对于多步骤任务,系统需要中间状态,在这些状态下可以生成、检查进展,并安全地组合。在提案方,更多调用减少了普通采样噪声,但无法修复共同的盲点。如果所有提案者对于特定类型实例所需的有用步骤分配了接近零的概率,那么即使理想的批评者也无法从样本池中恢复这些步骤。因此,带有 oracle 批评者的 best-of-k 衡量了推理时选择可以从提案候选中恢复的上限,而不是理想推理者的全部能力。这种观点也改变了评估此类系统的方式。Pass@1 衡量一次生成。Oracle best-of-k 衡量正确的解决方案是否出现在采样的候选池中任意位置。已实现系统的成功率衡量通过有限批评者、比较者、验证器或搜索框架弥补了多少 oracle 差距。预算成功率曲线衡量随着调用、检查或搜索步骤数量的增加,框架接近其最佳可实现性能的速度。

运行示例。考虑 SWE-bench Verified [28]。系统接收一个仓库、一个问题描述和可见的测试,但成功由隐藏测试衡量。单个补丁可能选择了错误的设计、遗漏了跨文件依赖或过拟合了可见测试。一个多样化的 nano 池可能已经包含一个能通过隐藏测试的补丁,但这种潜在能力只有在框架能够恢复它时才重要。图 1 显示了这种效果:GPT-5.4 nano 从 67.0% 开始,而我们的审阅者-比较者框架达到了 76.4%,与 Gemini 3 Pro 和 Claude Opus 4.5 Thinking 相当,并超过了 GPT-5.4 mini。oracle best-of-k 曲线达到了 79.0%,表明正确的补丁往往已经在 nano 提案池中。因此,框架与 oracle 之间的差距诊断了选择问题,而 oracle 与更强模型之间的差距则反映了剩余的生成和共同盲点限制。

#### 贡献。本文做出五项贡献。
1. (i) **用于推理语言模型的推理时提升**。我们将部分推理状态上基于验证器的采样-识别-推进系统形式化为 LLM 的推理时提升。我们分离了四个放大量:提案覆盖、局部可识别性、进展深度和多样性。
2. (ii) **覆盖并不意味着可识别性**。我们证明了一个黑盒分离:生成进展正确步骤的非平凡概率本身并不能产生有用的批评者或比较者。可靠的放大需要额外的局部可识别性信号,例如执行、证明检查、类型检查、约束、测试或经过学习的审阅者。
3. (iii) **从局部到全局的 oracle 可识别性界限**。我们将失败分解为一个 oracle 遗漏项(询问 k 个提案中是否包含进展正确的步骤)和一个可识别性遗漏项(询问有限批评者/比较者能否恢复一个)。沿着有界排名轨迹,这些误差相加:$\Pr(\mathrm{failure}) \leq L(\varepsilon_{\mathrm{orc}}(k) + \varepsilon_{\mathrm{id}}(k,m,r))$,其中 $\varepsilon_{\mathrm{id}}(k,m,r) \lesssim k^2 e^{-\beta m - 2r\sigma^2}$。
4. (iv) **盲点天花板和可提升能力**。我们在潜在子群体模型下将 oracle 遗漏项刻画为 $\varepsilon_{\mathrm{orc}}(k) = B + o(k)$,其中 $B$ 是盲点质量,$o(k)$ 是有限采样残差。因此,oracle best-of-k 收敛于 $1-B$,给出了提案系统正式的可提升能力上限。
5. (v) **从弱到前沿的实证放大**。在 SWE-bench Verified 上,批评者-比较者编排将 GPT-5.4 nano 从弱的一次性表现提升到了强大得多的独立模型水平。消融研究揭示了机制:多样性暴露了潜在的正确补丁,批评者过滤了有缺陷的候选方案,比较者对可行的替代方案进行排名,剩余的失败主要是提案覆盖失败。

## 2 相关工作

**提升和推理时放大**。经典的提升算法在监督反馈下将弱预测优势转化为强预测器 [45, 17, 18]。这种类比对于基于验证器的推理是有用但不完整的:系统必须生成有用的局部步骤,识别它,并重复这一过程而不丢失进展。先前的工作研究了 LLM 作为弱学习器、从弱到强的泛化以及提升风格的语言模型使用 [41, 5, 10]。我们则研究黑盒推理时机制,其中模型权重固定,问题是重复调用加上局部选择何时能够放大推理能力。

**采样和测试时缩放**。许多推理时方法通过采样更多候选方案来提高性能。自一致性、推理链集成、通用自一致性、多智能体投票和大规模重复采样都利用了有用答案可能出现在贪婪路径之外这一事实 [52, 53, 9, 34, 3]。最近的工作研究了更多 LM 调用的缩放定律、best-of-N 选择以及更广泛的测试时缩放 [6, 25, 62]。我们的贡献是结构性的:采样仅在能够暴露有用候选方案时才有帮助,其上限由共同盲点设定。

**选择、验证器和评判者**。第二条研究线探讨如何从生成的候选方案中进行选择。学习型验证器、过程奖励模型、成对排序器、多验证器系统、奖励模型基准和工具支持检查表明,选择可能与生成同样重要 [13, 39, 51, 27, 37, 43, 64, 31, 19, 14]。这些工作激发了我们提出的覆盖-可识别性分离。样本池中的正确候选方案只有在框架拥有足够强大的批评者、比较者、验证器或测试信号才能恢复时才有用。

**搜索、智能体和复合系统**。推理时推理通常通过部分状态而非平面答案进行。从少到更多提示、思维树、RAP、LATS、ReAct、反思和自我修正使用了分解、搜索、反馈、规划或工具交互 [66, 60, 22, 65, 61, 48, 40]。多智能体和复合系统框架,如 CAMEL、AutoGen、MetaGPT、Mixture-of-Agents、Archon 和 Smoothie,探索了更大的编排空间 [33, 56, 23, 50, 44, 21]。我们在这个设计空间中隔离了一个机制:基于验证器的委员会搜索,作用于有界深度轨迹。

**基于验证器的基准和监督**。代码和形式推理基准使得这一机制具体化,因为候选方案通常可以通过测试、执行、类型、证明检查器或其他局部信号进行检查。AlphaCode、Codex、SWE-bench、SWE-agent、AutoCodeRover 和 Agentless 都使用了某种采样、定位、修复、验证和工具支持选择的组合 [35, 7, 28, 59, 63, 57]。辩论、证明者-验证者游戏和可扩展监督也将困难的判断分解为更简单的检查或比较,但通常研究论证评估、监督或战略交互,而非基于验证器的局部行动 [26, 12, 16, 36, 4, 1, 30, 29]。我们的设置更窄、更机械:局部步骤、局部信号、有界进展和可测量的盲点。

## 3 基于验证器的委员会搜索

我们将基于验证器的代理系统建模为对局部对象进行的有界深度搜索,伴随局部进展。令 $\mathcal{X}$ 表示任务族,例如 SWE-bench,并固定一个任务实例 $x \in \mathcal{X}$,例如某个特定的 SWE-bench 问题。我们的设置受强化学习启发,包含状态和动作。我们通过代理工作流所诱导的状态序列来观察它,系统在达到终止状态时停止。一个状态表示一个部分推理对象,例如中间证明状态或部分编写的程序及其当前规范。令 $\mathcal{S}_{x}$ 为可数状态空间。令 $\mathrm{Valid}_{x} \subseteq \mathcal{S}_{x}$ 为有效状态集,其中有效性意味着某种正确完成仍然可能。令 $s_{0}(x) \in \mathrm{Valid}_{x}$ 为初始状态。令 $R_{x} : \mathcal{S}_{x} \to \{0, 1\}$ 为状态上的验证器,并令 $\mathrm{Term}_{x} \subseteq \mathrm{Valid}_{x}$ 为终止状态集。终止状态被验证器接受,即对于所有 $s \in \mathrm{Term}_{x}$ 有 $R_{x}(s) = 1$。

相似文章

通过纠正少数决策令牌即可恢复推理能力

arXiv cs.AI

本文表明,基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法,仅用推理模型的输出替换这些关键令牌,即可使基础模型的表现几乎与推理模型持平。

解码大型推理模型中的批判机制

Hugging Face Daily Papers

本文研究大型推理模型如何在内部检测并纠正自身错误,识别出一个高度可解释的批判向量,该向量无需额外训练即可增强错误检测能力,并提升测试时扩展性能。

大型学习模型中增强且高效的推理

arXiv cs.AI

本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。