LongAct:利用内在激活模式进行长上下文强化学习

Hugging Face Daily Papers 论文

摘要

LongAct 提出了一种显著性引导的稀疏更新策略,通过选择性更新与查询和键向量中高幅值激活相关的权重来改进 LLMs 的长上下文推理能力,在 LongBench v2 上实现了约 8% 的提升。

强化学习(RL)已成为提升大语言模型(LLMs)推理能力的关键驱动因素。虽然近期研究主要聚焦于奖励工程或数据合成,但很少有研究利用模型的内在表征特性来指导训练过程。本文首先观察到在处理长上下文时,查询和键向量中存在高幅值激活现象。受模型量化(该技术确立了此类高幅值激活的重要性)以及长上下文推理本质上具有稀疏结构这一洞见的启发,我们假设这些权重是有效模型优化的关键驱动力。基于这一见解,我们提出了 LongAct,一种从统一更新转向显著性引导的稀疏更新的策略。通过仅选择性更新与这些显著激活相关的权重,LongAct 在 LongBench v2 上实现了约 8% 的提升,并在 RULER 基准上增强了泛化能力。此外,我们的方法展现出显著的通用性,在诸如 GRPO 和 DAPO 等不同 RL 算法中持续提升性能。广泛的消融研究表明,关注这些显著特征是释放长上下文潜力的关键。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - LongAct: 利用内在激活模式实现长上下文强化学习

来源:https://huggingface.co/papers/2604.14922 发布于 4 月 16 日

·

Bowen232 在 4 月 17 日提交

摘要

LongAct 通过基于查询向量和键向量中高幅度激活模式实现显著性引导的稀疏更新,改进了大语言模型的长上下文推理能力。

强化学习已成为提升大语言模型推理能力的关键驱动力。虽然近期进展主要集中在奖励工程或数据合成上,但很少有研究利用模型自身的表征特性来指导训练过程。在本文中,我们首先观察到在处理长上下文时,查询向量和键向量中存在高幅度激活。受模型量化的启发——量化确立了此类高幅度激活的关键性——以及长上下文推理本身具有稀疏结构的见解,我们假设这些权重是推动模型有效优化的关键因素。基于这一洞见,我们提出 LongAct,一种从均匀更新转向显著性引导稀疏更新的策略。通过仅选择性更新与这些显著激活相关联的权重,LongAct 在 LongBench v2 上实现了约 8% 的提升,并在 RULER 基准测试上增强了泛化能力。此外,我们的方法表现出显著的通用性,能持续提升多种强化学习算法(如 GRPO 和 DAPO)的性能。广泛的消融研究表明,关注这些显著特征是释放长上下文潜力的关键。

查看 arXiv 页面 · 查看 PDF · 添加到收藏

在你的智能体中使用这篇论文:

hf papers read 2604.14922

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型(0)

没有模型链接本论文

请在模型的 README.md 中引用 arxiv.org/abs/2604.14922 以将其链接至本页面。

引用本论文的数据集(0)

没有数据集链接本论文

请在数据集的 README.md 中引用 arxiv.org/abs/2604.14922 以将其链接至本页面。

引用本论文的 Space(0)

没有 Space 链接本论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2604.14922 以将其链接至本页面。

包含本论文的收藏(2)

相似文章

LongAttnComp: 面向长上下文推理的跨家族上下文压缩

Hugging Face Daily Papers

LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器,将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能,并能跨多个模型家族迁移。

Dynamic Linear Attention

Hugging Face Daily Papers

DLA引入了自适应状态合并和容量受限的内存建模,用于多状态线性注意力,提升了长上下文LLM的性能。