及时止损!学习早期剪枝路径以实现高效并行推理

Hugging Face Daily Papers 论文

摘要

本文介绍了STOP(用于剪枝的超令牌),一种轻量级方法,通过在并行解码中附加可学习令牌并读取KV缓存状态,学会早期剪枝不优的推理路径,在AIME和GPQA基准测试中实现70%的令牌减少,同时提高性能。

并行推理增强了大型推理模型(LRMs),但由于早期错误导致的无效路径,成本高昂。为了缓解这一问题,在前缀级别进行路径剪枝至关重要,然而现有研究仍然零散,缺乏标准化框架。在这项工作中,我们提出了首个路径剪枝的系统分类法,根据信号来源(内部与外部)和可学习性(可学习与不可学习)对方法进行分类。这一分类揭示了可学习内部方法的未开发潜力,促使我们提出了STOP(用于剪枝的超令牌)。在参数规模从1.5B到20B的LRMs上的广泛评估表明,STOP在效果和效率上均优于现有基线。此外,我们严格验证了STOP在不同计算预算下的可扩展性——例如,在固定计算预算下,将GPT-OSS-20B在AIME25上的准确率从84%提升至近90%。最后,我们将研究结果提炼为形式化的经验指南,以促进最佳的实际部署。代码、数据和模型可在 https://bijiaxihh.github.io/STOP 获取。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:27

Paper page - Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning

来源:https://huggingface.co/papers/2604.16029 STOP!你可能已经走错了推理路径。

在并行推理中,许多采样轨迹从早期前缀开始就已注定失败,却仍然消耗完整的解码预算。

我们提出了 STOP(用于剪枝的超级令牌),这是一种轻量级方法,它附加一个短的可学习 [STOP] 令牌序列,并直接读取 KV 缓存状态来决定是否应继续一条轨迹。这无需重新编码或外部模型,即可对无前途的路径进行早期剪枝。

STOP 在 AIME 和 GPQA 上显著提升了推理性能,同时在许多设置中将令牌使用量降低了 70% 以上。

相似文章

早期剪枝学习!高效并行推理的路径剪枝方法

arXiv cs.CL

本文提出了 STOP(SuperTOken for Pruning),一个系统框架,用于在大型推理模型的并行推理中早期剪枝低效推理路径。该方法在 1.5B 到 20B 参数的模型中实现了优异的效率和效果,在固定计算预算下将 GPT-OSS-20B 在 AIME25 上的准确率从 84% 提升到 90%。

学习自适应推理路径以实现高效视觉推理

Hugging Face Daily Papers

AVR是一种自适应视觉推理框架,能够动态选择最优推理格式,在视觉推理任务中减少50-90%的token使用量同时保持准确性。该方法通过将视觉推理分解为三种认知功能并使用FS-GRPO训练来鼓励高效格式选择,从而解决推理路径冗余问题。