@sheriyuo: 本文提出ASAG, Attention-State Adaptive Generation, 一个无需训练、即插即用的推理停止框架,用于推理…

X AI KOLs Timeline 论文

摘要

ASAG利用注意力熵来检测推理何时无效益,提前停止以提高准确率并减少token生成。在Qwen3-8B上的实验显示,准确率提升4.4%,生成的token减少超过40%。

本文提出ASAG, Attention-State Adaptive Generation,一个无需训练、即插即用的推理模型停止框架。 不同于仅依赖输出置信度,ASAG利用注意力熵来检测当进一步思考不再有用时,提前停止或引导无效益的推理。 作者报告在Qwen3-8B上的推理任务中,相对准确率提升4.4%,同时生成的token减少超过40%。 Stop When Further Reasoning Won't Help: Attention-State Adaptive Generation in Reasoning Models 论文链接:http://arxiv.org/abs/2606.15070
查看原文
查看缓存全文

缓存时间: 2026/06/16 17:41

本文提出ASAG(Attention-State Adaptive Generation,注意力状态自适应生成),一种无需训练、即插即用的推理模型停止框架。

ASAG并非仅依赖输出置信度,而是利用注意力熵来检测何时进一步思考不再有用,然后提前停止或重新引导无成效的推理。

作者报告在Qwen3-8B模型上,跨推理任务实现了4.4%的相对准确率提升,同时生成的令牌数减少了40%以上。

当进一步推理无益时停止:推理模型中的注意力状态自适应生成
论文:http://arxiv.org/abs/2606.15070


当进一步推理无益时停止:推理模型中的注意力状态自适应生成

来源:https://arxiv.org/abs/2606.15070
查看PDF (https://arxiv.org/pdf/2606.15070)

摘要:通过引入测试时计算扩展,大型推理模型(LRMs)能够通过显式的思维链(CoT)推理过程解决复杂问题。然而,它们常常过度思考,导致冗余的令牌输出和准确率下降。当前缓解这一问题的方法仍然有限:基于训练的方法需要大量计算资源,而无需训练的方法则依赖精心设计的提示词或不可靠的置信度信号。在这项工作中,我们从注意力分布的角度研究提前停止,并提出一种简单的方法ASAG,该方法推断模型的推理状态并自适应地调整生成策略。所提出的框架无需训练且即插即用,可无缝集成到现有的LRMs中。在九个基准上的广泛实验表明,在不同的参数规模的主流LRMs(包括DeepSeek-R1-Distill和Qwen3系列)上,该方法均取得了一致的改进。具体而言,在Qwen3-8B上的所有推理任务中,ASAG将平均准确率提升了3.2%,同时将生成的令牌数减少了近40%。

提交历史

来自:Jiakai Li 查看电子邮件 [v1] 2026年6月13日星期六 02:58:29 UTC (1,220 KB)

相似文章

ART:高效大语言模型解码中的注意力运行时终止

arXiv cs.CL

本文提出ART,一种轻量级的运行时机制,它在LLM解码过程中追踪累积的注意力输出,并在进一步贡献变得微不足道时终止不必要的KV块访问,从而在保持相当精度的同时实现20%更高的生成吞吐量。

迈向类人交互式语音识别:基于智能体修正与语义评估

Hugging Face Daily Papers

本文介绍了 Agentic ASR,一种交互式语音识别框架,通过语义修正和基于推理的编辑,利用多轮优化来减少语义错误。同时,提出了一种新的句子级语义错误率指标以及一个用于基准测试的交互式模拟系统。