及时止损!学习早期剪枝路径以实现高效并行推理
摘要
本文介绍了STOP(用于剪枝的超令牌),一种轻量级方法,通过在并行解码中附加可学习令牌并读取KV缓存状态,学会早期剪枝不优的推理路径,在AIME和GPQA基准测试中实现70%的令牌减少,同时提高性能。
查看缓存全文
缓存时间: 2026/04/20 08:27
Paper page - Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning
来源:https://huggingface.co/papers/2604.16029 STOP!你可能已经走错了推理路径。
在并行推理中,许多采样轨迹从早期前缀开始就已注定失败,却仍然消耗完整的解码预算。
我们提出了 STOP(用于剪枝的超级令牌),这是一种轻量级方法,它附加一个短的可学习 [STOP] 令牌序列,并直接读取 KV 缓存状态来决定是否应继续一条轨迹。这无需重新编码或外部模型,即可对无前途的路径进行早期剪枝。
STOP 在 AIME 和 GPQA 上显著提升了推理性能,同时在许多设置中将令牌使用量降低了 70% 以上。
相似文章
早期剪枝学习!高效并行推理的路径剪枝方法
本文提出了 STOP(SuperTOken for Pruning),一个系统框架,用于在大型推理模型的并行推理中早期剪枝低效推理路径。该方法在 1.5B 到 20B 参数的模型中实现了优异的效率和效果,在固定计算预算下将 GPT-OSS-20B 在 AIME25 上的准确率从 84% 提升到 90%。
@HuggingPapers:并行推理及时止损——STOP 通过读取 KV-cache 状态提前剪枝注定失败的轨迹,…
STOP 方法利用 KV-cache 状态提前剪枝注定失败的推理轨迹,token 用量降 70%,在 1.5B–20B 模型上提升 AIME 与 GPQA 准确率。
学习自适应推理路径以实现高效视觉推理
AVR是一种自适应视觉推理框架,能够动态选择最优推理格式,在视觉推理任务中减少50-90%的token使用量同时保持准确性。该方法通过将视觉推理分解为三种认知功能并使用FS-GRPO训练来鼓励高效格式选择,从而解决推理路径冗余问题。
修剪不安全票:一种资源高效的框架,用于更安全、更鲁棒的大型语言模型
本文介绍了一种资源高效的修剪框架,该框架能够识别并移除大型语言模型中与不安全行为相关的参数,同时保持模型的实用性。该方法利用无梯度归因和彩票假说视角,在最小化性能损失的前提下,显著减少了不安全内容的生成,并增强了对越狱攻击的鲁棒性。
更少语言、更少Token:高效统一逻辑跨语言链式思维推理框架
UL-XCoT在统一逻辑空间中剪枝低质量多语言推理路径,削减>50% token开销,同时提升低资源语言的准确率与鲁棒性。