当进一步推理无益时停止:推理模型中的注意力状态自适应生成

arXiv cs.CL 论文

摘要

本文提出ASAG,一种无需训练的方法,基于注意力分布自适应地停止大型推理模型的推理,在使用DeepSeek-R1-Distill和Qwen3模型的基准测试中,将token使用量减少约40%,同时准确率提升3.2%。

arXiv:2606.15070v1 公告类型:新论文 摘要:通过引入测试时计算扩展,大型推理模型(LRM)可以通过显式的思维链(CoT)推理过程解决复杂问题。然而,它们经常出现过度思考的问题,导致冗余的token输出和准确率下降。当前缓解这一问题的方法仍然有限:基于训练的方法需要大量计算资源,而无需训练的方法则依赖于精心设计的提示或不可靠的置信度信号。在这项工作中,我们从注意力分布的角度研究早停问题,并提出一种简单的方法ASAG,该方法推断模型的推理状态并自适应地调整生成策略。所提出的框架无需训练且即插即用,可以无缝集成到现有的LRM中。在九个基准上的大量实验表明,在包括DeepSeek-R1-Distill和Qwen3系列在内的不同参数规模的主流LRM上均取得了一致的改进。具体来说,ASAG在Qwen3-8B的所有推理任务上将平均准确率提高了3.2%,同时生成的token数量减少了近40%。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:45

# 当进一步推理无益时停止:推理模型中的注意力状态自适应生成
来源:https://arxiv.org/abs/2606.15070
查看PDF (https://arxiv.org/pdf/2606.15070)

> 摘要:通过引入测试时计算扩展,大型推理模型(LRMs)能够通过显式的思维链(CoT)推理过程解决复杂问题。然而,它们常常陷入过度思考,导致产生冗余的token输出并降低准确性。当前缓解此问题的方法仍存在局限:基于训练的方法需要大量计算资源,而无需训练的方法则依赖精心设计的提示词或不可靠的置信度信号。本文从注意力分布的角度研究提前停止问题,并提出一种简单方法——ASAG,该方法能够推断模型的推理状态并自适应调整生成策略。该框架无需训练且即插即用,可无缝集成到现有的LRMs中。在九个基准上的大量实验表明,该方法在主流LRMs(覆盖不同参数规模,包括DeepSeek-R1-Distill和Qwen3系列)上取得了一致的改进。具体而言,在Qwen3-8B的所有推理任务上,ASAG在平均准确率提升了3.2%的同时,将生成的token数量减少了近40%。

## 提交历史

来自:李嘉凯 [查看邮件 (https://arxiv.org/show-email/65b659c6/2606.15070)] **\[v1\]**2026年6月13日星期六 02:58:29 UTC(1,220 KB)

相似文章

通过纠正少数决策令牌即可恢复推理能力

arXiv cs.AI

本文表明,基础LLM与大型推理模型之间的推理差距集中在少量早期规划令牌上。本文提出一种基于分歧的令牌干预方法,仅用推理模型的输出替换这些关键令牌,即可使基础模型的表现几乎与推理模型持平。

ATTNPO: 用于高效推理的注意力引导过程监督

arXiv cs.CL

ATTNPO 引入了一个注意力引导的过程监督框架,通过利用内在的注意力信号进行步级信用分配,减少大型推理模型的过度思考,在 9 个基准测试中实现了更好的性能和更短的推理长度。

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

arXiv cs.CL

本文提出一种新颖的思维链蒸馏框架,通过混合层模块的动态层对齐,将教师模型对关键信息的逐步注意力转移到学生模型中。该方法通过明确指导学生模型在推理过程中逐步聚焦关键信息,在数学和常识推理基准测试中实现了一致的性能提升。