SHARP:基于睡眠的层次化加速重放用于长程非平稳时序模式识别
摘要
SHARP 提出了一种受生物学启发的框架,将记忆积累与模式识别分离,在离线睡眠阶段使用加速重放来学习流式环境中的长程非平稳时序模式。它在 text8 和 PG-19 上提升了上下文保持能力,同时保持了计算效率。
arXiv:2606.00732v1 公告类型:新的
摘要:学习长程非平稳时序模式仍然是现代序列模型的核心挑战,尤其是在严格的流式处理环境中。在这些环境中,数据顺序到达,必须单次处理,无法同时重新访问过去的观测。标准架构,包括循环神经网络和Transformer,受限于截断的时间反向传播范围或显式的输入窗口长度,难以进行长程信用分配。为了解决这些限制,我们提出了 SHARP(基于睡眠的层次化加速重放),一种将时序学习分解为两个互补组件的框架:一个记忆模块,用于积累过去输入的结构化历史;一个模式识别模块,作用于该记忆。这种分离通过消除跨多个步骤的时间反向传播需求,实现了对非平稳动态的资源高效和计算高效适应。受啮齿动物在慢波睡眠期间观察到的加速重放启发,SHARP 引入了离线(睡眠)阶段,其中时间结构化的记忆痕迹以加速形式重放并整合到更高层次的记忆表征中,从而改善了长程上下文保持。通过受控模拟和消融研究,我们表征了所提出框架的关键特性。在 text8 和 PG-19 等基准数据集上,我们证明 SHARP 优于循环基线,能够在继续学习当前流并泛化到未来未见数据的同时,保持对先前所见数据的下一个标记预测性能。这些收益得益于其层次化结构,该结构实现了指数增长的有效时间上下文,而计算成本仅为线性时间。
查看缓存全文
缓存时间: 2026/06/02 15:48
# SHARP: 面向长范围非平稳时序模式识别的睡眠层级加速重放
来源:https://arxiv.org/html/2606.00732
Jayanta Dey¹ Shikhar Srivastava² Itamar Lerner³ Christopher Kanan² Dhireesha Kudithipudi¹
¹德克萨斯大学圣安东尼奥分校计算机工程系,美国 ²罗彻斯特大学计算机科学系,美国 ³德克萨斯大学圣安东尼奥分校心理学系,美国
jayanta\.dey@utsa\.edu ssrivas9@ur\.rochester\.edu itamar\.lerner@utsa\.edu ckanan@cs\.rochester\.edu dhireesha\.kudithipudi@utsa\.edu
###### 摘要
学习长范围非平稳时序模式仍然是现代序列模型的核心挑战,尤其是在严格的流式设置中。在这种设置下,数据按顺序到达,必须单次处理完成,无法同时回顾过去的观测。标准架构,包括循环神经网络和Transformer,受限于截断反向传播通过时间的时间窗口或显式的输入窗口长度,难以实现长范围信用分配。为解决这些局限,我们提出SHARP(睡眠层级加速重放),一个将时序学习分解为两个互补组件的框架:一个记忆模块,用于积累过去输入的结构化历史;一个模式识别模块,在该记忆之上运行。这种分离通过消除对跨多步长范围信用分配的反向传播通过时间需求,实现了对非平稳动力学的资源和计算高效适应。受啮齿动物在慢波睡眠期间观察到的加速重放启发,SHARP引入了离线(睡眠)阶段,在该阶段中,时序结构的记忆痕迹以加速形式被重放并整合到更高层次的记忆表示中,从而改善长范围上下文保持。通过受控仿真和消融研究,我们刻画了所提出框架的关键特性。在text8和PG-19等基准数据集上,我们证明SHARP优于循环基线,表现在保留先前见过数据的下一个词元预测性能的同时,继续从当前流中学习并泛化到未来未见数据。这些改进得益于其层级结构,该结构以线性时间计算成本实现了指数增长的有效时序上下文。
††SHARP的实现代码见:https://github.com/jdey4/sharp。
## 1 引言
在许多现实场景中,观测值按顺序到达,无法重新访问过去的数据。因此,学习算法必须持续整合新信息,同时保留先前经验的结构(Harun等人,https://arxiv.org/html/2606.00732#bib.bib65)。这施加了一个严格约束:学习必须在线进行,长范围信用分配的机会有限。在分布偏移下,这一挑战进一步加剧,因为底层数据生成过程随时间演变。
从建模角度看,流式约束下的持续学习可以自然表述为一个序列学习问题。要在此约束下泛化,系统必须在过去输入不再直接可访问后仍能保留其信息。经典序列模型如循环神经网络(RNN)和长短期记忆网络(LSTM)试图在循环动态中编码记忆。然而,它们的有效记忆受限于反向传播通过时间(BPTT),这限制了信用分配的时间范围,并引入数值不稳定性(如梯度消失和爆炸)。虽然循环模型理论上拥有无界的上下文记忆,但实际上其记忆是有损的:信息随时间消散、干扰或纠缠,限制了长范围时序结构的可靠捕获(Bengio等人,1994(https://arxiv.org/html/2606.00732#bib.bib5);Hochreiter和Schmidhuber,1997(https://arxiv.org/html/2606.00732#bib.bib9))。时间范围有限的一个常见后果是,随着新信息的融入,已有知识会退化,即灾难性遗忘(McCloskey和Cohen,1989(https://arxiv.org/html/2606.00732#bib.bib52);McClelland等人,1995(https://arxiv.org/html/2606.00732#bib.bib53);Doan等人,2021(https://arxiv.org/html/2606.00732#bib.bib54);Vogelstein等人,2025(https://arxiv.org/html/2606.00732#bib.bib44))。事实上,灾难性遗忘的一种理解方式正是长范围信用分配受限的结果,这使学习偏向当前任务,损害对过去任务的泛化。
现有的基于正则化的方法旨在缓解灾难性遗忘,但并未将记忆视为明确的结构组件;相反,这些模型中的记忆是通过梯度优化隐式涌现的。例如,一个在多个任务上顺序训练的神经网络往往会覆盖先前学到的表示,除非引入弹性权重巩固(EWC)(Kirkpatrick等人,2017(https://arxiv.org/html/2606.00732#bib.bib26)) 或遗忘式学习(LwF)(Li和Hoiem,2017(https://arxiv.org/html/2606.00732#bib.bib62)) 等额外机制来在权重中保存过往知识。另一种方法是基于重放的方法,它维护外部缓冲区以重新访问过去的样本(Shin等人,2017(https://arxiv.org/html/2606.00732#bib.bib56);Chaudhry等人,2019(https://arxiv.org/html/2606.00732#bib.bib59);van de Ven等人,2020(https://arxiv.org/html/2606.00732#bib.bib55);Buzzega等人,2020(https://arxiv.org/html/2606.00732#bib.bib60);Channappayya等人,2023(https://arxiv.org/html/2606.00732#bib.bib61))。在这些模型中,重放通常扮演复合角色,融合了显式数据存储、旧任务排练以及通过监督更新改进预测模型(Lopez-Paz和Ranzato,2017(https://arxiv.org/html/2606.00732#bib.bib77);Chaudhry等人,2018(https://arxiv.org/html/2606.00732#bib.bib76);Rolnick等人,2019(https://arxiv.org/html/2606.00732#bib.bib58);Rebuffi等人,2017(https://arxiv.org/html/2606.00732#bib.bib75);Shin等人,2017(https://arxiv.org/html/2606.00732#bib.bib56);Buzzega等人,2020(https://arxiv.org/html/2606.00732#bib.bib60))。尽管存在差异,上述策略要么将记忆视为受限的权重可塑性,要么视为存储的原始数据,而不是一个结构化的动态系统。一般来说,一个有组织的记忆系统对于在顺序且持续变化的环境中进行泛化至关重要(Dorovatas等人,2026(https://arxiv.org/html/2606.00732#bib.bib66))。
生物系统似乎通过结构化的记忆组织来规避上述限制,这种组织至少部分发生在睡眠期间(O'Reilly等人,2014(https://arxiv.org/html/2606.00732#bib.bib49);Kumaran等人,2016(https://arxiv.org/html/2606.00732#bib.bib48);Lutz等人,2026(https://arxiv.org/html/2606.00732#bib.bib46))。特别是来自啮齿动物的证据表明,在慢波睡眠(SWS)期间,先前编码经验的顺序记忆在海马体中比原始体验更短的时间尺度上被重新激活,本质上实现了加速(或“时间压缩”)重放。最近的一种理论——时间支架假说(TSH)认为,这种加速重放具有功能作用,促成了仅靠在线经验难以形成的长范围关联的巩固(Lerner,2017(https://arxiv.org/html/2606.00732#bib.bib17);Lerner和Gluck,2019(https://arxiv.org/html/2606.00732#bib.bib25))。
参考图注图1:基于慢波睡眠的时序学习概念概览。清醒期间,环境交互通过更新可塑性记忆和模式模块驱动因果关系学习。显著经历被标记,随后在睡眠期间重放,其中加速重放为记忆巩固提供更丰富的时序上下文。受TSH启发,当前工作提出了一个新的学习框架——SHARP(睡眠层级加速重放),它利用“清醒”阶段和“睡眠”阶段学习检测时序模式(图1(https://arxiv.org/html/2606.00732#S1.F1))。睡眠阶段包含一个抽象化的加速重放近似(详见第2.2节(https://arxiv.org/html/2606.00732#S2.SS2)),使得系统在巩固期间能够遍历比在线学习更长的时序上下文,从而改善记忆保持。睡眠期间的重放仅限于无监督记忆巩固,以实现更好的未来记忆保持和预测,而因果和预测关系的学习完全由清醒时与环境的交互驱动。这两个过程在两个分离的模块中完成:(i) 一个层级记忆模块,在不进行预测信用分配的情况下积累经验;(ii) 一个层级模式识别模块,在该记忆之上运行以执行预测(图2(https://arxiv.org/html/2606.00732#S1.F2))。这种分离避免了记忆存储与信用分配的混淆,并为模式学习提供了稳定的基础。
参考图注图2:基于睡眠的层级加速重放框架。左侧(清醒阶段):上下文知识库(上层上下文块)在模型与环境交互期间保持不可塑性。下层上下文块记忆逐步加速到其直接的上层块。右侧(睡眠阶段(SWS)):上下文知识库离线更新,同时C-1和P-1分别停止接收环境输入和反馈,并将其标记的清醒经历重放到上下文知识库。与现代状态空间模型(SSM)(Gu等人,2021(https://arxiv.org/html/2606.00732#bib.bib33);Gu和Dao,2023(https://arxiv.org/html/2606.00732#bib.bib81)) 中将记忆编码在单个动态系统中不同,我们的框架明确学习并在多个层级上组织记忆表示(见图2(https://arxiv.org/html/2606.00732#S1.F2))。在清醒阶段,只有最底层保持可塑性,积累近期经验。显著事件被选择性标记(Yang等人,2024(https://arxiv.org/html/2606.00732#bib.bib45)),随后在离线睡眠阶段通过加速顺序重放巩固到更高层次。因此,高层形成稳定的上下文知识库,而低层捕捉快速变化的动态。这种层级巩固在熟悉环境中扩展了下游模式识别模块可用的有效时序上下文,同时使大多数参数在在线交互期间保持冻结。在本文中,我们证明加速重放有效扩展了模型的可用上下文窗口,使其能够捕获长范围依赖关系,而无需长范围的BPTT。接下来,我们描述问题设置,形式化记忆和加速的理想属性,描述模型架构和学习动态,并通过受控仿真和两个基准数据集评估所提出框架的一个实例化。
## 2 技术背景
### 2.1 问题设置
设 \(\{X_1, X_2, \cdots, X_t\}\) 为一个随机过程或随机变量序列,其中每个变量取有限集 \(\mathcal{A} = \{a_1, a_2, \cdots, a_K\} \subseteq \mathbb{R}^D\) 中的值。变量 \(X_t\) 表示过程在时间 \(t\) 的状态,由一组底层状态转移概率定律 \(\mathcal{P} = \{\mathbf{p}_1, \mathbf{p}_2, \cdots, \mathbf{p}_t\}\) 控制。每个 \(\mathbf{p}_t \in \mathcal{P}\) 定义了在给定直到时间 \((t-1)\) 的所有先前状态的情况下,转移到任何状态 \(a_i \in \mathcal{A}, \forall i=1,\cdots,K\) 的概率,即:
\[\mathbf{p}_t = [p_t(a_i)]_{i=1}^K = [P(X_t = a_i | X_1, \cdots, X_{t-1})]_{i=1}^K. \tag{1}\]
给定一个根据未知转移规则 \(\mathcal{P}\) 演化出的状态序列,一个顺序学习器 \(f: \mathcal{A}^T \rightarrow [0,1]^K\),能够访问过去 \(T\) 个状态的输入窗口,估计 \(\mathbf{p}_t\):
\[\hat{\mathbf{p}}_t = [\hat{p}_n(a_i)]_{i=1}^K = f(x_{t-T}, \cdots, x_{t-1}), \tag{2}\]
其中 \(x_t\) 是随机变量 \(X_t\) 在时间 \(t\) 的值。时间 \(t\) 的状态估计为 \(\hat{\mathbf{p}}_t\) 的 \(\operatorname{arg\,max}\):
\[\hat{x}_t = \operatorname{arg\,max}_{a_i \in \mathcal{A}} \hat{p}_t(a_i), \quad \forall i=1,\cdots,K. \tag{3}\]
如果状态之间的转移概率 \(\mathbf{p}_t\) 依赖于超出输入窗口范围的更多过去状态,那么学习器必须集成一个内部机制来保留先前状态的记忆。下一个样本的估计精度取决于模型保留和利用过去信息的有效性。与传统训练设置不同,我们采用单次学习机制,即模型以在线流式方式观察训练样本,并且不能同时优化多个并行的序列片段。
#### 记忆编码的理想性质
虽然先前的工作探索了各种形式的记忆,包括联想记忆(Hopfield,1982(https://arxiv.org/html/2606.00732#bib.bib70);Kanerva,1988(https://arxiv.org/html/2606.00732#bib.bib71))以及稀疏或量化表示(Olshausen和Field,1997(https://arxiv.org/html/2606.00732#bib.bib72);Van Den Oord等人,2017(https://arxiv.org/html/2606.00732#bib.bib73);Razavi等人,2019(https://arxiv.org/html/2606.00732#bib.bib74)),但这些方法主要强调存储或压缩。相比之下,我们关注记忆的*动态*,即过去输入的信息如何随时间持续维护和更新。为了支持稳定的下游处理,我们寻求连续的潜状态,这些状态能保持输入之间的相似性结构,使模式识别模块能够在没有显式访问过去样本的情况下操作于时间上连贯的信号(Ba等人,2016(https://arxiv.org/html/2606.00732#bib.bib67))。
在我们的框架中,模式识别映射 \(f(\cdot)\) 作用于动态记忆编码 \(m(\cdot,\cdot)\) 以产生当前状态转移概率,即 \(\hat{\mathbf{p}}_t = f\big(m(x_{t-1}, h_{t-1})\big)\),其中 \(h_{t-1}\) 表示先前的记忆状态。我们现在描述记忆编码 \(m(\cdot,\cdot)\) 的理想性质。
设 \(\mathcal{S} = \{S_1, S_2, \cdots\}\) 表示 \(\mathcal{A}\) 中元素所有长度为 \(s\) 的序列的集合,并配有一个度量 \(d_{\mathcal{S}}\)。对于序列 \(S_i \in \mathcal{S}\),令 \(h_i = m(S_i, h'_i) \in \mathcal{H} \subseteq \mathbb{R}^P\) 表示观测第 \(s\) 个样本后的编码,其中 \((\mathcal{H}, d_{\mathcal{H}})\) 是一个度量空间,\(h'_i\) 是之前的状态。理想情况下,我们相似文章
SHARP:一种用于金融交易代理的自我演化且可人工审核的规则策略
本文介绍了 SHARP,这是一种面向金融交易代理的神经符号框架,通过结构化的、可人工审核的规则进行策略优化,从而在嘈杂的市场环境中提升鲁棒性和透明度。
HorizonStream: 长视界注意力用于流式三维重建
HorizonStream 提出一种用于流式三维重建的长视界注意力机制,该机制通过证据影响核显式建模几何传播,在恒定内存和线性时间复杂度下实现稳定、可扩展的重建,并能泛化到超过10,000帧的序列。
SAM:面向长程推理智能体的状态自适应记忆
本文提出 SAM,一个状态自适应记忆框架,能够动态管理长程智能体推理中的交互历史,实现意图驱动的回忆,而无需重新训练基础模型。它在多个基准测试(如 BrowseComp 和 HLE)上优于强基线方法。
sapientinc/HRM-Text-1B
Sapient Intelligence 发布了 HRM-Text-1B,这是一个拥有10亿参数的语言模型,采用新颖的双时间尺度循环架构(分层推理模型),以有限的参数数量提供无限的计算深度。预对齐检查点已在 Hugging Face 上开放获取。
通过自适应张量并行加速同步RLHF训练中的长尾生成
本文提出PAT,一种自适应张量并行方法,在同步RLHF训练的生成长阶段动态重构TP配置,以缓解长尾生成瓶颈。在LLaMA3.1-8B和Qwen3-14B上的评估显示,生成延迟最多降低34.6%,端到端迭代延迟最多降低27.2%。