架构感知的强化学习使滑动窗口注意力在数学推理中具有竞争力

arXiv cs.AI 2026/06/11 04:00 论文

摘要

本文介绍 SWARR，一种两阶段方案，结合监督微调和强化学习，使滑动窗口注意力模型适应数学推理，表明强化学习能缩小其与自注意力的性能差距，同时保持效率优势。

arXiv:2606.11634v1 公告类型: 新摘要: 推理和智能体大语言模型（LLMs）的快速发展增加了对长上下文推理的需求，但自注意力（SA）的计算复杂度随上下文长度呈二次方增长。为解决这一问题，我们研究了 SWARR（面向数学推理的滑动窗口注意力强化自适应方法），这是一种实用的方案，可使 SWA 模型适应数学推理。SWARR 包含两个阶段：（1）从预训练 SA 模型高效转换为 SWA 并辅以监督微调（SFT），避免从头预训练新基础模型；（2）通过强化学习（RL）进行策略自适应。我们发现，经过 SFT 后，SWA 的性能仍不如 SA，我们假设这一差距部分源于数据与架构的不匹配：大多数 SFT 数据是为 SA 模型准备的，可能包含 SWA 难以建模的长距离依赖关系。由于在线策略 RL 在 SWA 约束下优化模型自身生成的轨迹，因此可以使轨迹更好地适应 SWA。在数学推理基准上的实验表明，该方案大幅缩小了 SWA 与 SA 之间的差距，在保持线性复杂度注意力的效率优势的同时，恢复了 SWA 转换过程中损失的大部分准确率。我们的核心贡献是实证发现：仅通过转换和 SFT 得出的关于 SWA 在数学推理中可行性的结论，会因强化学习而发生改变。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:48

# 架构感知强化学习使滑动窗口注意力在数学推理中具有竞争力
来源：https://arxiv.org/abs/2606.11634
查看PDF（https://arxiv.org/pdf/2606.11634）

> 摘要：推理与智能体大语言模型（LLMs）的快速进展增加了对长上下文推理的需求，但自注意力（SA）的计算复杂度随上下文长度呈二次增长。为解决这一问题，我们研究了 SWARR（面向数学推理的滑动窗口注意力强化适应方法），这是一种将滑动窗口注意力（SWA）模型适配到数学推理的实用方案。SWARR 包含两个阶段：（1）从预训练 SA 模型高效转换为 SWA，并通过有监督微调（SFT）进行适配，从而避免预训练全新基础模型；（2）通过强化学习（RL）进行策略适配。我们发现，经过 SFT 后，SWA 仍然不及 SA 的性能。我们假设这一差距部分源于数据与架构的不匹配：大多数 SFT 数据是为 SA 模型准备的，其中可能包含 SWA 难以建模的长距离依赖关系。由于在线策略 RL 在 SWA 约束下优化模型自生成的轨迹，它能够调整轨迹以更好地匹配 SWA。在数学推理基准上的实验表明，该方法显著缩小了 SWA 与 SA 之间的差距，在保留线性复杂度注意力高效性的同时，恢复了 SWA 转换过程中损失的绝大部分准确率。我们的核心贡献在于通过实验发现：RL 改变了仅通过转换和 SFT 得出的关于 SWA 在数学推理中可行性的结论。

## 提交历史

来自：Kai Liu \[查看邮件（https://arxiv.org/show-email/70029cef/2606.11634）\] **\[v1\]** 2026年6月10日星期三 03:56:03 UTC（1,103 KB）

架构感知的强化学习使滑动窗口注意力在数学推理中具有竞争力

相似文章

通过过程监督改进数学推理

AtManRL: 通过可微分注意力显著性实现忠实推理

面向大推理模型的基于强化学习的越狱攻击中的注意力引导奖励

超越推理：强化学习释放大型语言模型中的参数化知识

RASFT：面向推理的滚动自适应监督微调

提交意见反馈