当进一步推理无益时停止:推理模型中的注意力状态自适应生成
摘要
本文提出ASAG,一种无需训练的方法,基于注意力分布自适应地停止大型推理模型的推理,在使用DeepSeek-R1-Distill和Qwen3模型的基准测试中,将token使用量减少约40%,同时准确率提升3.2%。
arXiv:2606.15070v1 公告类型:新论文
摘要:通过引入测试时计算扩展,大型推理模型(LRM)可以通过显式的思维链(CoT)推理过程解决复杂问题。然而,它们经常出现过度思考的问题,导致冗余的token输出和准确率下降。当前缓解这一问题的方法仍然有限:基于训练的方法需要大量计算资源,而无需训练的方法则依赖于精心设计的提示或不可靠的置信度信号。在这项工作中,我们从注意力分布的角度研究早停问题,并提出一种简单的方法ASAG,该方法推断模型的推理状态并自适应地调整生成策略。所提出的框架无需训练且即插即用,可以无缝集成到现有的LRM中。在九个基准上的大量实验表明,在包括DeepSeek-R1-Distill和Qwen3系列在内的不同参数规模的主流LRM上均取得了一致的改进。具体来说,ASAG在Qwen3-8B的所有推理任务上将平均准确率提高了3.2%,同时生成的token数量减少了近40%。
查看缓存全文
缓存时间: 2026/06/16 11:45
# 当进一步推理无益时停止:推理模型中的注意力状态自适应生成 来源:https://arxiv.org/abs/2606.15070 查看PDF (https://arxiv.org/pdf/2606.15070) > 摘要:通过引入测试时计算扩展,大型推理模型(LRMs)能够通过显式的思维链(CoT)推理过程解决复杂问题。然而,它们常常陷入过度思考,导致产生冗余的token输出并降低准确性。当前缓解此问题的方法仍存在局限:基于训练的方法需要大量计算资源,而无需训练的方法则依赖精心设计的提示词或不可靠的置信度信号。本文从注意力分布的角度研究提前停止问题,并提出一种简单方法——ASAG,该方法能够推断模型的推理状态并自适应调整生成策略。该框架无需训练且即插即用,可无缝集成到现有的LRMs中。在九个基准上的大量实验表明,该方法在主流LRMs(覆盖不同参数规模,包括DeepSeek-R1-Distill和Qwen3系列)上取得了一致的改进。具体而言,在Qwen3-8B的所有推理任务上,ASAG在平均准确率提升了3.2%的同时,将生成的token数量减少了近40%。 ## 提交历史 来自:李嘉凯 [查看邮件 (https://arxiv.org/show-email/65b659c6/2606.15070)] **\[v1\]**2026年6月13日星期六 02:58:29 UTC(1,220 KB)
相似文章
@sheriyuo: 本文提出ASAG, Attention-State Adaptive Generation, 一个无需训练、即插即用的推理停止框架,用于推理…
ASAG利用注意力熵来检测推理何时无效益,提前停止以提高准确率并减少token生成。在Qwen3-8B上的实验显示,准确率提升4.4%,生成的token减少超过40%。
当推理收敛时停止:保留语义的推理模型提前退出
本文介绍 PUMA,一个即插即用框架,通过检测思维链推理中的语义冗余实现提前退出,在多个模型和基准测试中平均减少 26.2% 的 Token,同时保持准确性和推理质量。
通过纠正少数决策令牌即可恢复推理能力
本文表明,基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法,仅用推理模型的输出替换这些关键令牌,即可使基础模型的表现几乎与推理模型持平。
ATTNPO: 用于高效推理的注意力引导过程监督
ATTNPO 引入了一个注意力引导的过程监督框架,通过利用内在的注意力信号进行步级信用分配,减少大型推理模型的过度思考,在 9 个基准测试中实现了更好的性能和更短的推理长度。
通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力
本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。