及时止损！学习早期剪枝路径以实现高效并行推理

Hugging Face Daily Papers 2026/04/17 00:00 论文

摘要

本文介绍了STOP（用于剪枝的超令牌），一种轻量级方法，通过在并行解码中附加可学习令牌并读取KV缓存状态，学会早期剪枝不优的推理路径，在AIME和GPQA基准测试中实现70%的令牌减少，同时提高性能。

并行推理增强了大型推理模型（LRMs），但由于早期错误导致的无效路径，成本高昂。为了缓解这一问题，在前缀级别进行路径剪枝至关重要，然而现有研究仍然零散，缺乏标准化框架。在这项工作中，我们提出了首个路径剪枝的系统分类法，根据信号来源（内部与外部）和可学习性（可学习与不可学习）对方法进行分类。这一分类揭示了可学习内部方法的未开发潜力，促使我们提出了STOP（用于剪枝的超令牌）。在参数规模从1.5B到20B的LRMs上的广泛评估表明，STOP在效果和效率上均优于现有基线。此外，我们严格验证了STOP在不同计算预算下的可扩展性——例如，在固定计算预算下，将GPT-OSS-20B在AIME25上的准确率从84%提升至近90%。最后，我们将研究结果提炼为形式化的经验指南，以促进最佳的实际部署。代码、数据和模型可在 https://bijiaxihh.github.io/STOP 获取。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 08:27

Paper page - Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning

来源：https://huggingface.co/papers/2604.16029 STOP！你可能已经走错了推理路径。

在并行推理中，许多采样轨迹从早期前缀开始就已注定失败，却仍然消耗完整的解码预算。

我们提出了 STOP（用于剪枝的超级令牌），这是一种轻量级方法，它附加一个短的可学习 [STOP] 令牌序列，并直接读取 KV 缓存状态来决定是否应继续一条轨迹。这无需重新编码或外部模型，即可对无前途的路径进行早期剪枝。

STOP 在 AIME 和 GPQA 上显著提升了推理性能，同时在许多设置中将令牌使用量降低了 70% 以上。

及时止损！学习早期剪枝路径以实现高效并行推理

Paper page - Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning

相似文章

早期剪枝学习！高效并行推理的路径剪枝方法

@HuggingPapers：并行推理及时止损——STOP 通过读取 KV-cache 状态提前剪枝注定失败的轨迹，…

学习自适应推理路径以实现高效视觉推理

修剪不安全票：一种资源高效的框架，用于更安全、更鲁棒的大型语言模型

更少语言、更少Token：高效统一逻辑跨语言链式思维推理框架

提交意见反馈