当进一步推理无益时停止：推理模型中的注意力状态自适应生成

arXiv cs.CL 2026/06/16 04:00 论文

reasoning-models attention-mechanism early-stopping token-efficiency chain-of-thought deepseek qwen

摘要

本文提出ASAG，一种无需训练的方法，基于注意力分布自适应地停止大型推理模型的推理，在使用DeepSeek-R1-Distill和Qwen3模型的基准测试中，将token使用量减少约40%，同时准确率提升3.2%。

arXiv:2606.15070v1 公告类型：新论文摘要：通过引入测试时计算扩展，大型推理模型（LRM）可以通过显式的思维链（CoT）推理过程解决复杂问题。然而，它们经常出现过度思考的问题，导致冗余的token输出和准确率下降。当前缓解这一问题的方法仍然有限：基于训练的方法需要大量计算资源，而无需训练的方法则依赖于精心设计的提示或不可靠的置信度信号。在这项工作中，我们从注意力分布的角度研究早停问题，并提出一种简单的方法ASAG，该方法推断模型的推理状态并自适应地调整生成策略。所提出的框架无需训练且即插即用，可以无缝集成到现有的LRM中。在九个基准上的大量实验表明，在包括DeepSeek-R1-Distill和Qwen3系列在内的不同参数规模的主流LRM上均取得了一致的改进。具体来说，ASAG在Qwen3-8B的所有推理任务上将平均准确率提高了3.2%，同时生成的token数量减少了近40%。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:45

# 当进一步推理无益时停止：推理模型中的注意力状态自适应生成
来源：https://arxiv.org/abs/2606.15070
查看PDF (https://arxiv.org/pdf/2606.15070)

> 摘要：通过引入测试时计算扩展，大型推理模型（LRMs）能够通过显式的思维链（CoT）推理过程解决复杂问题。然而，它们常常陷入过度思考，导致产生冗余的token输出并降低准确性。当前缓解此问题的方法仍存在局限：基于训练的方法需要大量计算资源，而无需训练的方法则依赖精心设计的提示词或不可靠的置信度信号。本文从注意力分布的角度研究提前停止问题，并提出一种简单方法——ASAG，该方法能够推断模型的推理状态并自适应调整生成策略。该框架无需训练且即插即用，可无缝集成到现有的LRMs中。在九个基准上的大量实验表明，该方法在主流LRMs（覆盖不同参数规模，包括DeepSeek-R1-Distill和Qwen3系列）上取得了一致的改进。具体而言，在Qwen3-8B的所有推理任务上，ASAG在平均准确率提升了3.2%的同时，将生成的token数量减少了近40%。

## 提交历史

来自：李嘉凯 [查看邮件 (https://arxiv.org/show-email/65b659c6/2606.15070)] **\[v1\]**2026年6月13日星期六 02:58:29 UTC（1,220 KB）

当进一步推理无益时停止：推理模型中的注意力状态自适应生成

相似文章

@sheriyuo: 本文提出ASAG, Attention-State Adaptive Generation, 一个无需训练、即插即用的推理停止框架，用于推理…

当推理收敛时停止：保留语义的推理模型提前退出

通过纠正少数决策令牌即可恢复推理能力

ATTNPO: 用于高效推理的注意力引导过程监督

通过混合层蒸馏和关键信息的逐步注意力改进小模型的推理能力

提交意见反馈