@sheriyuo: 本文提出ASAG, Attention-State Adaptive Generation, 一个无需训练、即插即用的推理停止框架,用于推理…
摘要
ASAG利用注意力熵来检测推理何时无效益,提前停止以提高准确率并减少token生成。在Qwen3-8B上的实验显示,准确率提升4.4%,生成的token减少超过40%。
查看缓存全文
缓存时间: 2026/06/16 17:41
本文提出ASAG(Attention-State Adaptive Generation,注意力状态自适应生成),一种无需训练、即插即用的推理模型停止框架。
ASAG并非仅依赖输出置信度,而是利用注意力熵来检测何时进一步思考不再有用,然后提前停止或重新引导无成效的推理。
作者报告在Qwen3-8B模型上,跨推理任务实现了4.4%的相对准确率提升,同时生成的令牌数减少了40%以上。
当进一步推理无益时停止:推理模型中的注意力状态自适应生成
论文:http://arxiv.org/abs/2606.15070
当进一步推理无益时停止:推理模型中的注意力状态自适应生成
来源:https://arxiv.org/abs/2606.15070
查看PDF (https://arxiv.org/pdf/2606.15070)
摘要:通过引入测试时计算扩展,大型推理模型(LRMs)能够通过显式的思维链(CoT)推理过程解决复杂问题。然而,它们常常过度思考,导致冗余的令牌输出和准确率下降。当前缓解这一问题的方法仍然有限:基于训练的方法需要大量计算资源,而无需训练的方法则依赖精心设计的提示词或不可靠的置信度信号。在这项工作中,我们从注意力分布的角度研究提前停止,并提出一种简单的方法ASAG,该方法推断模型的推理状态并自适应地调整生成策略。所提出的框架无需训练且即插即用,可无缝集成到现有的LRMs中。在九个基准上的广泛实验表明,在不同的参数规模的主流LRMs(包括DeepSeek-R1-Distill和Qwen3系列)上,该方法均取得了一致的改进。具体而言,在Qwen3-8B上的所有推理任务中,ASAG将平均准确率提升了3.2%,同时将生成的令牌数减少了近40%。
提交历史
来自:Jiakai Li 查看电子邮件 [v1] 2026年6月13日星期六 02:58:29 UTC (1,220 KB)
相似文章
当进一步推理无益时停止:推理模型中的注意力状态自适应生成
本文提出ASAG,一种无需训练的方法,基于注意力分布自适应地停止大型推理模型的推理,在使用DeepSeek-R1-Distill和Qwen3模型的基准测试中,将token使用量减少约40%,同时准确率提升3.2%。
AdaGATE:面向多跳检索增强生成的自适应间隙感知、令牌高效证据集成
AdaGATE 是一种免训练的证据控制器,用于多跳 RAG。它采用以实体为中心的间隙追踪、微查询生成和基于效用的选择机制,提升了在噪声检索条件下的鲁棒性,在输入令牌更少的情况下达到了最先进的证据 F1 值。
ART:高效大语言模型解码中的注意力运行时终止
本文提出ART,一种轻量级的运行时机制,它在LLM解码过程中追踪累积的注意力输出,并在进一步贡献变得微不足道时终止不必要的KV块访问,从而在保持相当精度的同时实现20%更高的生成吞吐量。
迈向类人交互式语音识别:基于智能体修正与语义评估
本文介绍了 Agentic ASR,一种交互式语音识别框架,通过语义修正和基于推理的编辑,利用多轮优化来减少语义错误。同时,提出了一种新的句子级语义错误率指标以及一个用于基准测试的交互式模拟系统。
基于注意力折扣的自适应采样器用于掩码扩散语言模型
本文介绍了ADAS,一种无需训练的重排序规则,用于并行掩码扩散解码。它利用注意力对强烈关注不确定位置的token进行折扣,从而在低NFE设置下提升推理和代码任务的性能,且运行时开销极小。