MARS: 面向并行LLM测试时扩展的边际对抗风险控制停止策略
摘要
本文提出MARS,一种用于并行LLM测试时扩展的停止规则,通过探测部分轨迹来提前停止而不牺牲准确性,在竞赛数学基准测试上为推理模型节省25-47%的令牌。
arXiv:2606.12935v1 公告类型: 新论文
摘要: 并行测试时扩展通过对多个推理轨迹进行采样并对其答案进行多数投票,提高了LLM的准确性,但要求轨迹运行到结束,导致大量的计算开销。我们观察到,在中间检查点探测部分轨迹可以在不中断生成的情况下提取当前答案,揭示出不断演化的聚合投票。基于这一观察,我们提出了MARS,一种边际对抗停止规则,它估计哪些活跃轨迹可能改变其答案,并在未来投票移动的保守边界下,一旦领先者保持安全就停止。该规则分离了两种不确定性来源。它学习轨迹级别的切换概率,这些概率决定了当前边际有多少可能被保留,同时通过对抗性边界处理一个更难的问题,即切换轨迹落在何处,该边界由预热轨迹校准。在真实切换概率下,MARS高概率保证提前停止的答案与全预算投票结果一致。在实践中,一个五特征逻辑模型与oracle切换行为非常接近。在三个推理模型和三个竞赛数学基准测试上,MARS节省了25-47%的自一致性令牌,并在强置信加权基线DeepConf Online(该基线已过滤和截断弱轨迹)基础上额外节省14-29%,同时保持与相应全预算基线相当的准确性。
查看缓存全文
缓存时间: 2026/06/12 08:54
# 边际对抗风险控制停止:并行LLM测试时扩展的早期停止策略 来源:https://arxiv.org/html/2606.12935 陈文博¹¹††,♠ Puheng Li¹¹††,★ 刘梦阳,♠ 苏伟杰◇ 谢天培♠ ♠亚马逊 ★斯坦福大学 ◇宾夕法尼亚大学 同等贡献。通信作者:[email protected]。工作完成于作者在亚马逊角色之外。 ###### 摘要 并行测试时扩展会采样大量推理轨迹并对其答案进行多数投票,从而提高LLM的准确性,但需要轨迹运行至完成,造成大量计算开销。我们观察到,在中间检查点探测部分轨迹可以提取当前答案而不中断生成过程,从而揭示不断演化的聚合投票。基于此观察,我们提出MARS(边际对抗风险控制停止),一种估计哪些活跃轨迹可能改变其答案,并在保守的未来投票变动界限下,当领先者保持安全时停止的策略。该规则分离了两种不确定性来源。它学习决定当前边际有多大可能保留下来的轨迹级切换概率,同时通过从预热轨迹中校准的对抗性界限处理切换轨迹最终落在何处这一更困难的问题。在真实切换概率下,MARS以高概率保证早期停止的答案与完整预算投票结果一致。实践中,一个五特征逻辑模型与真实的切换行为高度吻合。在三个推理模型和三个竞赛数学基准上,MARS节省了25–47%的自一致性令牌,并在已过滤并截断弱轨迹的强大置信加权基线DeepConf Online之上额外节省14–29%,同时保持了相应完整预算基线的准确性。 参考图注 图1:左图:MARS在三个模型(DeepSeek-R1-8B、Qwen3-32B、Qwen3-next-80B)和三个竞赛数学基准上,在自一致性(SC)和DeepConf Online(Fu等人,2025)投票下实现的令牌节省,同时保持准确性。误差线显示跨问题的95%置信区间。右图:MARS在HMMT Q22(DeepSeek-R1-8B)上的实际表现。上图:探测过程中的投票份额演变。下图:最小余量(绑定挑战者边际减去对抗阈值);当余量越过零时MARS停止,保留正确答案并节省59%的令牌。 ## 1 引言 并行测试时扩展,即采样许多推理轨迹并通过多数投票聚合其答案,是提高LLM在难题上准确性最可靠的方法之一(Wang等人,2023;Brown等人,2024;Snell等人,2024)。但可靠性是有代价的:一个单一竞赛数学问题的512轨迹运行会产生数百万个令牌。在大多数问题上,获胜答案在所有轨迹完成之前很久就已确定。剩余的计算完全是浪费。一个关键的促进因素是,现代推理模型会暴露长思考轨迹(Yang等人,2025a),而近期的探测工作表明,在并行思考过程中可以从部分轨迹中引出中间答案(Zheng等人,2026)。这使得*探测*成为可能:在不中断推理过程的情况下,从正在生成的部分轨迹中提取中间答案。探测将并行解码从不可见变为可观察。在每个检查点,我们了解谁在投票支持什么,多数意见如何变化,以及还有多少轨迹尚未决定。尽管探测能力强大,但其用于早期停止在很大程度上尚未被探索,仅有一种并发方法(Zheng等人,2026)在并行投票设置中利用它。 参考图注 图2:共识停止在难题上失败。在HMMT Q6(DeepSeek-8B)上,89%的轨迹最初投票给错误答案,并且错误答案一直领先至生成过程的中期。共识停止过早触发,锁定错误。MARS等待正确答案超越并认证它。 但可观察性并不等同于停止准则。有了投票的实时视图,何时停止是安全的?天真的答案是,当多数答案在多个检查点稳定时停止,这是一种共识启发式方法。而共识启发式方法恰恰在最需要的时候失败:在难题上。图2说明了一个典型的失败模式。在早期检查点,多数轨迹汇聚到一个*错误*的初步答案。基于共识的规则看到稳定性后停止,锁定了错误答案。如果进行更多计算,一小部分轨迹会切换到正确答案并最终超越早期领先者。并行的Parallel-Probe方法(Zheng等人,2026)恰好体现了这种失败:在HMMT上使用DeepSeek-8B时,共识停止将准确率从70%降至35%,性能减半,而表面上“节省了令牌”。这种失败并非偶然。难题正是那些正确答案出现较晚、许多轨迹修正其初始推理后的问题。任何将*稳定性*等同于*安全性*的规则,都会在最需要谨慎早期停止的问题上系统性地过早停止。这揭示了核心研究问题:*我们能否在并行生成过程中早期停止,同时可证明地保留最终投票结果,并节省大量令牌?*关键洞察在于,正确的关注点不是投票是否已经改变,而是它*是否可能*仍会改变。如果剩余的未确定轨迹不可能协同向某个挑战者进行150次切换,那么领先300票是安全的。如果大多数支持领先者的轨迹仍在推理中且很可能修正,那么同样的领先优势是脆弱的。安全性是一个*边际*问题:当前领先优势减去未来切换可能造成的最坏情况损害,必须对每个挑战者同时保持为正。 我们提出MARS(边际对抗风险控制停止),一种原则性的并行LLM解码早期停止规则。在每个检查点,MARS (i) 探测每个活跃轨迹的当前答案,(ii) 估计每个轨迹在完整预算终点之前切换的概率,以及 (iii) 计算未来切换可能对每个挑战者造成的最大对抗性边际损失。仅当每个挑战者都得到认证时生成停止:领先者的边际超过对抗性切换损害。在真实切换概率下,这提供了高概率保证,即早期停止的答案与完整预算投票结果一致。建模问题清晰地分为两部分。*是否*切换是可学习的,基于轨迹自身历史(检查点位置、探测置信度、答案翻转次数、稳定性连续次数),使用在每问题少量预热轨迹上训练的轻量级逻辑模型。*切换轨迹最终落在何处*本质上更难:目标是开放式的答案字符串,取决于未来的推理。MARS不学习完整的目的地分布,而是对抗性地处理目的地,并从预热证据中校准每个问题的收缩参数,以捕获实际中不确定的切换质量有多少具有对抗性行为。 在AIME 2025、HMMT和BRUMO 2025上,跨DeepSeek-R1-8B、Qwen3-32B和Qwen3-next,MARS节省了25–47%的自一致性令牌,并在DeepConf Online(Fu等人,2025)之上额外节省14–29%,同时在所有18个设置中匹配完整预算基线(在准确率变化的地方在0.6个百分点内,在多个设置中提升高达0.8个百分点;图1)。在直接比较中,Parallel-Probe(Zheng等人,2026)通过牺牲9–35个百分点的准确率才达到相当的节省;当调整以保持准确率时,其节省降至≤4%。结果证实,原则性的边际认证,而非共识检测,是并行推理中安全早期停止的正确基础。 ### 1.1 问题设定 我们为单个提示形式化停止问题。系统并行启动N个推理轨迹。每个轨迹通常会运行到完整预算终点T。我们在检查点t₁ < t₂ < … < t_C观察轨迹。在每个检查点t,我们记录: - 活跃轨迹集合A_t ⊆ [N]:那些尚未完成且未被丢弃的轨迹。 - 当前答案a_j(t):从轨迹j的部分推理中探测到的答案(如果轨迹已完成则为最终答案)。 - 权重w_j:对多数投票的贡献(通常w_j = 1用于统一权重,或根据置信度;我们使用w_j = 1)。 - 当前领先者L(t):具有最大当前V_k(t)的答案,其中V_k(t) = Σ_{j: a_j(t)=k} w_j。 - 对每个非领先者挑战者k:M_k(t) = V_L(t) - V_k(t),领先者超过该挑战者的边际。 如果M_k(T) > 0对每个挑战者k在完整预算终点T成立,那么当前检查点领先者幸存。相反,完整预算获胜者不同仅当某个挑战者实现M_k(T) ≤ 0。停止问题简化为同时认证每个挑战者,即其边际无法被未来的投票变化所缩小。 检查的挑战者集合K(t)包含每个当前投票为正的非领先者答案,加上一个合成的未见挑战者⊥,其V_⊥(t)=0。⊥挑战者涵盖了在检查点t时不存在但后续可能出现的答案字符串:它悲观地假设所有未决定的质量会协调到一个新答案上。 ### 2.2 停止规则 在检查点t和完整预算T之间,一些活跃轨迹会改变其答案。令X_j = 1{a_j(T) ≠ a_j(t)}指示轨迹j是否切换,并令q_j(t) = P(X_j = 1 | F_t)为其条件切换概率,从轨迹的可观测特征(位置、置信度、翻转历史、连续长度)估计。已完成的轨迹和被丢弃的轨迹有q_j=0。当轨迹j切换时,它对针对挑战者k的边际造成的损害取决于其当前投票。我们通过考虑最坏情况目的地来对抗性地限制这种损害: ###### 定义2.1(对抗性切换成本) c_j^k = \begin{cases} 2w_j, & a_j(t) = L, \\ -w_j, & a_j(t) = k, \\ w_j, & a_j(t) \notin \{L, k\}. \end{cases} (1) 这是最坏情况场景,因为:1)一个领先者选民离开会从领先者中移除w_j,并且最坏情况下会向挑战者k增加w_j,总损害为2w_j;2)一个挑战者选民离开无论目的地如何都*帮助*领先者,产生-w_j;3)一个中立选民最坏情况会加入k,代价为w_j。直觉很简单:一个支持者不稳定的挑战者比其票数所显示的威胁更小。对挑战者k的预期对抗性损害为 Γ_k(t) = Σ_{j∈A_t} q_j c_j^k. (2) MARS在当当前边际超过此预期损害加上每个挑战者的浓度修正时停止: M_k(t) ≥ Γ_k(t) + ε(N, δ) 对所有 k ∈ K(t). (3) ###### 假设2.2(有界权重)。对所有轨迹,0 ≤ w_j ≤ w_max。 ###### 假设2.3(条件独立性)。在给定F_t的条件下,切换指示器{X_j}_{j∈A_t}是独立的。 ###### 定理2.4(每个挑战者安全性)。在假设2.2-2.3下,使用真实切换概率q_j(t),P(M_k(T) ≤ 0 | F_t) ≤ exp( - (M_k(t) - Γ_k(t))_+^2 / (2 w_max^2 N_active) ), (4) 其中N_active = max{1, |A_t|}。 ###### 推论2.5(风险控制停止)。设定 ε(N, δ) = w_max √(2 N_active log(N/δ)). (5) 如果等式(3)对每个k ∈ K(t)成立,则P(L(T) ≠ L(t) | F_t) ≤ δ。证明对Σ_j X_j c_j^k应用Hoeffding不等式,并对挑战者取联合界;细节见附录A。从预热轨迹估计q_j的轻量级逻辑模型在第3节中描述。 ### 2.3 通过γ校准的保守性 完全对抗性成本c_j^k假设*所有*切换质量协调针对同一个挑战者。实践中,切换轨迹分散到多个答案中,有些甚至加入领先者。这使得规则过于谨慎。我们用收缩参数γ ∈ [1/2, 1]来放松对抗性成本: c_j^k(γ) = \begin{cases} 2γ w_j, & a_j(t) = L, \\ -w_j, & a_j(t) = k, \\ γ w_j, & a_j(t) \notin \{L, k\}. \end{cases} (6) 下界γ ≥ 1/2保留了不可约成本:当领先者选民切换时,无论目的地如何,至少从领先者中损失w_j。只有“哪个挑战者受益”部分被收缩。校准后的停止判据变为 M_k(t) ≥ Σ_{j∈A_t} q_j c_j^k(γ) 对所有 k ∈ K(t). (7) 带有γ<1或估计的q̂_j的等式(7)是一种经验松弛;推论2.5仅适用于带有γ=1和真实切换概率的认证变体。我们根据运行至完成的预热轨迹来为每个问题校准γ。令γ_warmup是最小的γ,它本可以在预热集上正确停止(即不改变预热完整预算获胜者)。我们添加一个上置信修正: γ_out = min(1, γ_warmup + z/√n_elig), (8) 其中n_elig是符合条件的预热检查点数量,在所有实验中z=1.0。 ### 2.4 实际实现 停止规则(等式(7))每问题需要两个学习量:切换概率q_j(t)和收缩γ。两者都从主样本停止前运行至完成的一小组16个预热轨迹中估计。我们在(轨迹,检查点)对上拟合每个问题的逻辑回归,由轨迹的最终答案是否与其检查点答案不同来标记,使用五个F_t可测特征:检查点位置、探测置信度、答案翻转次数、连续长度和置信度趋势。这给出了每个检查点每个活跃轨迹的q̂_j(t)(细节见附录C)。同样的预热轨迹通过等式(8)校准γ。在每个检查点,K(t)包含当前投票为正的每个非领先者答案,加上⊥。
相似文章
用 LLM 优化 LLM:面向测试时扩展的智能体发现方法
本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。
基于边际自校正的大规模快速遗忘
介绍了MASC(边际自校正),一种用于大型语言模型的高效遗忘方法,采用在线停止规则,以降低的计算成本实现有竞争力的遗忘-保持权衡,并在TOFU和MUSE基准上得到验证。
LLMs知道自己知道,但并未据此行动:一种用于测试时扩展的元认知框架
本文提出一种元认知框架,将LLMs中的监控与推理分离,利用解决前的已知感(feeling-of-knowing)和解决后的学习判断(judgment-of-learning)信号来控制何时信任、重试或聚合答案,在不更新参数的情况下提升文本、代码和多模态基准测试的准确率。
面向可靠LLM判断的边际自适应置信度排序
本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。
CRMA: 一种用于LLM模块化持续微调的谱界主干
CRMA引入了一种谱界残差适配器,通过Sinkhorn归一化强制实现双随机混合矩阵,使LLM能够持续微调而不发生灾难性遗忘。在Mistral-7B和Gemma-2-9B上的实验结果表明,与冻结基底的基线相比,后向迁移得到改善,遗忘减少。