架构感知的强化学习使滑动窗口注意力在数学推理中具有竞争力
摘要
本文介绍 SWARR,一种两阶段方案,结合监督微调和强化学习,使滑动窗口注意力模型适应数学推理,表明强化学习能缩小其与自注意力的性能差距,同时保持效率优势。
arXiv:2606.11634v1 公告类型: 新
摘要: 推理和智能体大语言模型(LLMs)的快速发展增加了对长上下文推理的需求,但自注意力(SA)的计算复杂度随上下文长度呈二次方增长。
为解决这一问题,我们研究了 SWARR(面向数学推理的滑动窗口注意力强化自适应方法),这是一种实用的方案,可使 SWA 模型适应数学推理。SWARR 包含两个阶段:(1)从预训练 SA 模型高效转换为 SWA 并辅以监督微调(SFT),避免从头预训练新基础模型;(2)通过强化学习(RL)进行策略自适应。
我们发现,经过 SFT 后,SWA 的性能仍不如 SA,我们假设这一差距部分源于数据与架构的不匹配:大多数 SFT 数据是为 SA 模型准备的,可能包含 SWA 难以建模的长距离依赖关系。由于在线策略 RL 在 SWA 约束下优化模型自身生成的轨迹,因此可以使轨迹更好地适应 SWA。
在数学推理基准上的实验表明,该方案大幅缩小了 SWA 与 SA 之间的差距,在保持线性复杂度注意力的效率优势的同时,恢复了 SWA 转换过程中损失的大部分准确率。我们的核心贡献是实证发现:仅通过转换和 SFT 得出的关于 SWA 在数学推理中可行性的结论,会因强化学习而发生改变。
查看缓存全文
缓存时间: 2026/06/11 13:48
# 架构感知强化学习使滑动窗口注意力在数学推理中具有竞争力 来源:https://arxiv.org/abs/2606.11634 查看PDF(https://arxiv.org/pdf/2606.11634) > 摘要:推理与智能体大语言模型(LLMs)的快速进展增加了对长上下文推理的需求,但自注意力(SA)的计算复杂度随上下文长度呈二次增长。为解决这一问题,我们研究了 SWARR(面向数学推理的滑动窗口注意力强化适应方法),这是一种将滑动窗口注意力(SWA)模型适配到数学推理的实用方案。SWARR 包含两个阶段:(1)从预训练 SA 模型高效转换为 SWA,并通过有监督微调(SFT)进行适配,从而避免预训练全新基础模型;(2)通过强化学习(RL)进行策略适配。我们发现,经过 SFT 后,SWA 仍然不及 SA 的性能。我们假设这一差距部分源于数据与架构的不匹配:大多数 SFT 数据是为 SA 模型准备的,其中可能包含 SWA 难以建模的长距离依赖关系。由于在线策略 RL 在 SWA 约束下优化模型自生成的轨迹,它能够调整轨迹以更好地匹配 SWA。在数学推理基准上的实验表明,该方法显著缩小了 SWA 与 SA 之间的差距,在保留线性复杂度注意力高效性的同时,恢复了 SWA 转换过程中损失的绝大部分准确率。我们的核心贡献在于通过实验发现:RL 改变了仅通过转换和 SFT 得出的关于 SWA 在数学推理中可行性的结论。 ## 提交历史 来自:Kai Liu \[查看邮件(https://arxiv.org/show-email/70029cef/2606.11634)\] **\[v1\]** 2026年6月10日星期三 03:56:03 UTC(1,103 KB)
相似文章
通过过程监督改进数学推理
OpenAI 展示了过程监督——对中间推理步骤而非仅对最终答案进行奖励——如何改进数学推理,同时降低对齐成本。这种方法在不牺牲模型性能的前提下,产生更易解释、更符合人类价值观的推理过程。
AtManRL: 通过可微分注意力显著性实现忠实推理
AtManRL 是一种通过可微分注意力操作和强化学习来训练大语言模型的方法,旨在确保推理令牌因果地影响最终预测,从而生成更忠实的思维链推理。在 GSM8K 和 MMLU 上使用 Llama-3.2-3B 进行的实验表明,该方法能够识别具有影响力的推理令牌并提高推理透明度。
面向大推理模型的基于强化学习的越狱攻击中的注意力引导奖励
本文研究了对大型推理模型(LRM)的越狱攻击,揭示了攻击成功率与注意力模式相关。作者提出了一种基于强化学习的越狱方法,将注意力信号纳入奖励函数,并采用多样化的说服策略,在多个基准测试中实现了显著更高的攻击成功率。
超越推理:强化学习释放大型语言模型中的参数化知识
本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。
RASFT:面向推理的滚动自适应监督微调
RASFT是一种新颖的大型语言模型监督微调框架,它根据模型自身的推理能力调整专家监督,在数学和代码推理基准测试中相比标准SFT和强化学习方法取得了更好的性能。