LongAct:利用内在激活模式进行长上下文强化学习
摘要
LongAct 提出了一种显著性引导的稀疏更新策略,通过选择性更新与查询和键向量中高幅值激活相关的权重来改进 LLMs 的长上下文推理能力,在 LongBench v2 上实现了约 8% 的提升。
查看缓存全文
缓存时间: 2026/04/20 08:28
论文页面 - LongAct: 利用内在激活模式实现长上下文强化学习
来源:https://huggingface.co/papers/2604.14922 发布于 4 月 16 日
·
由 Bowen232 在 4 月 17 日提交
摘要
LongAct 通过基于查询向量和键向量中高幅度激活模式实现显著性引导的稀疏更新,改进了大语言模型的长上下文推理能力。
强化学习已成为提升大语言模型推理能力的关键驱动力。虽然近期进展主要集中在奖励工程或数据合成上,但很少有研究利用模型自身的表征特性来指导训练过程。在本文中,我们首先观察到在处理长上下文时,查询向量和键向量中存在高幅度激活。受模型量化的启发——量化确立了此类高幅度激活的关键性——以及长上下文推理本身具有稀疏结构的见解,我们假设这些权重是推动模型有效优化的关键因素。基于这一洞见,我们提出 LongAct,一种从均匀更新转向显著性引导稀疏更新的策略。通过仅选择性更新与这些显著激活相关联的权重,LongAct 在 LongBench v2 上实现了约 8% 的提升,并在 RULER 基准测试上增强了泛化能力。此外,我们的方法表现出显著的通用性,能持续提升多种强化学习算法(如 GRPO 和 DAPO)的性能。广泛的消融研究表明,关注这些显著特征是释放长上下文潜力的关键。
查看 arXiv 页面 · 查看 PDF · 添加到收藏
在你的智能体中使用这篇论文:
hf papers read 2604.14922
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型(0)
没有模型链接本论文
请在模型的 README.md 中引用 arxiv.org/abs/2604.14922 以将其链接至本页面。
引用本论文的数据集(0)
没有数据集链接本论文
请在数据集的 README.md 中引用 arxiv.org/abs/2604.14922 以将其链接至本页面。
引用本论文的 Space(0)
没有 Space 链接本论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2604.14922 以将其链接至本页面。
包含本论文的收藏(2)
相似文章
@ickma2311: 高效AI讲座15:长上下文LLM 长上下文不仅仅是更大的提示窗口。关键问题是:哪些过…
本文总结了关于长上下文LLM的高效AI讲座15,涵盖用于上下文扩展的RoPE位置插值、大海捞针评估,以及StreamingLLM的注意力汇聚现象和KV缓存驱逐策略。
LongAttnComp: 面向长上下文推理的跨家族上下文压缩
LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器,将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能,并能跨多个模型家族迁移。
Dynamic Linear Attention
DLA引入了自适应状态合并和容量受限的内存建模,用于多状态线性注意力,提升了长上下文LLM的性能。
GoLongRL:面向能力的长上下文强化学习与多任务对齐
GoLongRL 提出了一种开源方法,通过面向能力的数据构建和 TMN-Reweight 方法,实现具有多样化奖励优化的长上下文强化学习。
更少的上下文,更高的准确性:一种用于LLM代理的双时态记忆引擎,其中精简检索的上下文胜过了完整历史
本文介绍了Engram,一个开源的用于LLM代理的双时态记忆引擎,它通过检索一个紧凑的上下文片段(约9.6k token),在LongMemEval上以混合读取路径融合稠密、词汇、图和时间信号,比完整历史基线(79k token)高出10.4个准确率点。