@HuggingPapers:并行推理及时止损——STOP 通过读取 KV-cache 状态提前剪枝注定失败的轨迹,…
摘要
STOP 方法利用 KV-cache 状态提前剪枝注定失败的推理轨迹,token 用量降 70%,在 1.5B–20B 模型上提升 AIME 与 GPQA 准确率。
查看缓存全文
缓存时间: 2026/04/21 10:33
在并行推理中及时止损:STOP 通过读取 KV-cache 状态,提前剪除注定失败的轨迹,将 token 用量削减 70%,同时在 AIME 与 GPQA 上提升准确率,覆盖 1.5B 到 20B 参数的模型。
相似文章
及时止损!学习早期剪枝路径以实现高效并行推理
本文介绍了STOP(用于剪枝的超令牌),一种轻量级方法,通过在并行解码中附加可学习令牌并读取KV缓存状态,学会早期剪枝不优的推理路径,在AIME和GPQA基准测试中实现70%的令牌减少,同时提高性能。
早期剪枝学习!高效并行推理的路径剪枝方法
本文提出了 STOP(SuperTOken for Pruning),一个系统框架,用于在大型推理模型的并行推理中早期剪枝低效推理路径。该方法在 1.5B 到 20B 参数的模型中实现了优异的效率和效果,在固定计算预算下将 GPT-OSS-20B 在 AIME25 上的准确率从 84% 提升到 90%。
当推理收敛时停止:保留语义的推理模型提前退出
本文介绍 PUMA,一个即插即用框架,通过检测思维链推理中的语义冗余实现提前退出,在多个模型和基准测试中平均减少 26.2% 的 Token,同时保持准确性和推理质量。
Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models
This paper introduces a prefix-level trajectory evaluation protocol to distinguish harmful overthinking from verbose but harmless overthinking in large reasoning models, showing that continued reasoning after reaching the correct answer can destabilize performance. The authors find that early stopping improves accuracy by up to 21% on multimodal benchmarks, and identify logical drift and visual reinterpretation as key causes of correctness deviations.
当进一步推理无益时停止:推理模型中的注意力状态自适应生成
本文提出ASAG,一种无需训练的方法,基于注意力分布自适应地停止大型推理模型的推理,在使用DeepSeek-R1-Distill和Qwen3模型的基准测试中,将token使用量减少约40%,同时准确率提升3.2%。