@sheriyuo: 本文提出ASAG, Attention-State Adaptive Generation, 一个无需训练、即插即用的推理停止框架，用于推理…

X AI KOLs Timeline 2026/06/16 09:17 论文

摘要

ASAG利用注意力熵来检测推理何时无效益，提前停止以提高准确率并减少token生成。在Qwen3-8B上的实验显示，准确率提升4.4%，生成的token减少超过40%。

本文提出ASAG, Attention-State Adaptive Generation，一个无需训练、即插即用的推理模型停止框架。不同于仅依赖输出置信度，ASAG利用注意力熵来检测当进一步思考不再有用时，提前停止或引导无效益的推理。作者报告在Qwen3-8B上的推理任务中，相对准确率提升4.4%，同时生成的token减少超过40%。 Stop When Further Reasoning Won't Help: Attention-State Adaptive Generation in Reasoning Models 论文链接：http://arxiv.org/abs/2606.15070

查看原文

查看缓存全文

缓存时间: 2026/06/16 17:41

本文提出ASAG（Attention-State Adaptive Generation，注意力状态自适应生成），一种无需训练、即插即用的推理模型停止框架。

ASAG并非仅依赖输出置信度，而是利用注意力熵来检测何时进一步思考不再有用，然后提前停止或重新引导无成效的推理。

作者报告在Qwen3-8B模型上，跨推理任务实现了4.4%的相对准确率提升，同时生成的令牌数减少了40%以上。

当进一步推理无益时停止：推理模型中的注意力状态自适应生成
论文：http://arxiv.org/abs/2606.15070

当进一步推理无益时停止：推理模型中的注意力状态自适应生成

来源：https://arxiv.org/abs/2606.15070
查看PDF (https://arxiv.org/pdf/2606.15070)

摘要：通过引入测试时计算扩展，大型推理模型（LRMs）能够通过显式的思维链（CoT）推理过程解决复杂问题。然而，它们常常过度思考，导致冗余的令牌输出和准确率下降。当前缓解这一问题的方法仍然有限：基于训练的方法需要大量计算资源，而无需训练的方法则依赖精心设计的提示词或不可靠的置信度信号。在这项工作中，我们从注意力分布的角度研究提前停止，并提出一种简单的方法ASAG，该方法推断模型的推理状态并自适应地调整生成策略。所提出的框架无需训练且即插即用，可无缝集成到现有的LRMs中。在九个基准上的广泛实验表明，在不同的参数规模的主流LRMs（包括DeepSeek-R1-Distill和Qwen3系列）上，该方法均取得了一致的改进。具体而言，在Qwen3-8B上的所有推理任务中，ASAG将平均准确率提升了3.2%，同时将生成的令牌数减少了近40%。

提交历史

来自：Jiakai Li 查看电子邮件 [v1] 2026年6月13日星期六 02:58:29 UTC (1,220 KB)

@sheriyuo: 本文提出ASAG, Attention-State Adaptive Generation, 一个无需训练、即插即用的推理停止框架，用于推理…

当进一步推理无益时停止：推理模型中的注意力状态自适应生成

提交历史

相似文章

当进一步推理无益时停止：推理模型中的注意力状态自适应生成

AdaGATE：面向多跳检索增强生成的自适应间隙感知、令牌高效证据集成

ART：高效大语言模型解码中的注意力运行时终止

迈向类人交互式语音识别：基于智能体修正与语义评估

基于注意力折扣的自适应采样器用于掩码扩散语言模型

提交意见反馈