SinkRec:使用内存条件门控Delta网络缓解长序列推荐中的语义状态沉没
摘要
SinkRec引入了一种混合内存-转换架构,通过内存条件门控Delta网络将模式存储与动态建模解耦,以线性时间效率缓解长序列推荐中的语义状态沉没。
arXiv:2606.09888v1 公告类型:新
摘要:线性注意力通过避免标准Transformer的二次成本,为长序列推荐提供了高效的骨干,但其压缩的循环状态可能被重复行为模式主导。我们将此现象识别为语义状态沉没,即重复语义过度占据循环状态并偏置后续读取。为缓解语义状态沉没,我们提出SinkRec,一种混合内存-转换循环架构,将协作行为模式存储与动态转换建模解耦。SinkRec通过残差向量量化将重复局部模式外部化到可学习的条件内存中,重新注入检索到的代码,并将内存键值对暴露给注意力块。它进一步引入了时间感知状态关系差分门控DeltaNet(TDGD),通过抑制内存覆盖的更新和移除内存对齐的读取响应,利用内存净化循环写入和读取。该设计将重复语义从状态竞争信号转变为可内存检索的模式,使循环状态专注于动态转换,并以线性时间效率缓解语义状态沉没。在公共和工业数据集上的实验证明了SinkRec的有效性和效率。
查看缓存全文
缓存时间: 2026/06/10 06:16
# SinkRec:利用记忆条件门控Delta网络缓解长序列推荐中的语义状态沉没
来源:https://arxiv.org/html/2606.09888
庄严¹, 魏志鹏¹, 戴骥², 陈洁¹, 潘飞¹¹¹footnotemark:1, 姜鹏¹, 盖坤³ ¹快手科技,北京,中国 ²北京邮电大学,北京,中国 ³独立研究员 \{zhuangzhuang,weizhipeng,chenjie20,panfei05,jiangpeng\}@kuaishou\.com daiji@bupt\.edu\.cn,gai\.kun@qq\.com
###### 摘要
线性注意力通过避免标准Transformer的二次方成本,为长序列推荐提供了一个高效的骨干网络,但其压缩的递归状态可能被重复的行为模式所主导。我们将此现象识别为**语义状态沉没**,其中重复的语义过度占据递归状态并偏置后续的读取操作。为了缓解语义状态沉没,我们提出**SinkRec**,一种混合记忆-转换循环架构,将协作行为模式存储与动态转换建模解耦。SinkRec通过残差向量量化将重复的局部模式外部化为可学习的条件记忆,重新注入检索到的编码,并将记忆键值对暴露给注意力模块。它进一步引入了**时间感知状态关系微分门控Delta网络(TDGD)**,该网络利用记忆通过抑制被记忆覆盖的更新和移除与记忆对齐的读取响应来净化递归写入和读取。这种设计将重复语义从状态竞争信号转变为记忆可检索模式,允许递归状态专注于动态转换,并以线性时间效率缓解语义状态沉没。在公开和工业数据集上的实验证明了SinkRec的有效性和效率。
## 1 引言
序列推荐是个性化服务(如流媒体和电子商务平台)的基础,因为它建模用户的历史行为序列以捕捉个性化兴趣并向用户提供相关内容[35 (https://arxiv.org/html/2606.09888#bib.bib35),36 (https://arxiv.org/html/2606.09888#bib.bib36),26 (https://arxiv.org/html/2606.09888#bib.bib26)]。因此,序列建模已成为捕捉用户兴趣演变的基本方法。早期的推荐架构采用了诸如马尔可夫链、RNN和Transformer等时间模型,但大多应用于短序列(长度为10²–10³)。相比之下,完整的长序列(长度>10³)揭示了长期偏好、重复兴趣和延迟依赖,提高了推荐准确性并有助于缓解信息茧房效应。这使得可扩展的长序列建模成为实现更全面、更少短视的用户偏好建模的关键一步。
现有的长序列推荐方法通常在效率和完备性之间权衡。基于搜索的方法[31 (https://arxiv.org/html/2606.09888#bib.bib31),32 (https://arxiv.org/html/2606.09888#bib.bib32),21 (https://arxiv.org/html/2606.09888#bib.bib21),3 (https://arxiv.org/html/2606.09888#bib.bib3)]通过检索部分历史记录来减少计算,但引入了两阶段的服务复杂性和不完整的兴趣估计。端到端模型[29 (https://arxiv.org/html/2606.09888#bib.bib29)]保留了更丰富的历史信号,但导致计算量迅速增加。这激发了高效的骨干网络,如线性注意力,它可以在保留序列感知的同时扩展到长历史记录。
尽管线性注意力为长序列推荐提供了高效的骨干网络,但其递归状态公式为长历史建模创造了一个新的瓶颈。它将整个历史压缩为一个有限的状态矩阵,其中每个行为将其键值信息写入用于未来预测的状态。这避免了二次注意力成本,但也将重复语义存储与动态转换建模耦合在一起。在长历史中,重复行为提供了有用的偏好规律,而稀疏的转换反映了当前意图的变化。当两者共享相同的压缩状态时,重复语义可能会被反复强化,并干扰当前预测所需的转换信号。这引出了一个核心问题:
递归线性注意力如何利用长用户历史,而不让重复语义主导递归状态?
为了回答这个问题,我们分析了Gated DeltaNet风格的递归注意力如何将历史行为带入当前预测。图1 (https://arxiv.org/html/2606.09888#S1.F1) 说明了一个案例,其中早期的与食物相关的行为匹配实际的下一个项目,而近期重复的与旅行相关的行为与目标无关,但在原始Gated DeltaNet中获得了不成比例的高历史影响分数(详见附录C (https://arxiv.org/html/2606.09888#A3))。这表明当前预测被类似于沉没的旅行语义主导,而不是与目标相关的食物信号。这揭示了一个关键挑战:压缩的递归状态需要同时充当语义记忆和转换算子,当重复模式被过度保留并主导后续读取时,它容易受到语义状态沉没的影响。
参见标题图1:重复语义状态沉没的动机示例。y轴测量每个过去行为通过递归状态对当前预测的贡献;较高的值表示对预测状态的更强占据。原始递归状态被重复的无关语义主导,而SinkRec抑制了这种沉没并保留了与目标相关的信号。为了解决语义状态沉没现象带来的挑战,我们提出**SinkRec**,一种通过循环混合架构实现记忆-转换解耦的高效长序列推荐框架。关键见解是将协作语义存储与动态转换建模分离:重复的局部行为模式被外部化为条件记忆,而递归状态则保留给记忆无法解释的转换。具体来说,SinkRec由两个互补组件组成:(i) **条件记忆模块**将局部行为窗口压缩为可学习的残差向量量化(VQ)编码,将检索到的编码重新注入序列,并将记忆键值对暴露给下游注意力模块。(ii) **时间感知状态关系微分门控Delta网络(TDGD)** 执行时间感知的递归建模,并利用记忆对来净化状态写入和读取:在写入前抑制被记忆覆盖的更新,并在读取期间移除与记忆对齐的响应。通过这种方式,SinkRec利用共享的行为模式而不重复地将它们累积在递归状态中,减轻了语义状态沉没,同时保留了递归线性注意力的效率。此外,跨混合架构块的参数共享使SinkRec保持紧凑,同时保持强大的推荐性能。
我们的贡献总结如下:
- • 我们识别了Gated DeltaNet风格长序列推荐中的**语义状态沉没**现象,其中语义重复的模式可能过度占据压缩的递归状态并偏置后续读取。
- • 我们提出**SinkRec**,一种记忆-转换解耦框架,将重复的局部模式外部化为条件记忆,并使用**时间感知状态关系微分门控Delta网络(TDGD)** 来净化从记忆覆盖语义中读取和写入的递归。
- • 我们在两个公开数据集和一个工业数据集上进行了大量实验。结果表明,SinkRec以更少的参数持续优于强基线,展示了其在长序列推荐中的有效性和效率。
## 2 相关工作
**长序列推荐架构。** 扩展长序列用户交互历史作为提高推荐模型性能的有效手段已被越来越多地探索[14 (https://arxiv.org/html/2606.09888#bib.bib14)]。现有方法通常依赖于注意力机制来捕捉复杂的用户转换模式并促进个性化推荐,同时不断寻求在可控计算成本下利用长历史带来的信息增益。早期研究如DIN[31 (https://arxiv.org/html/2606.09888#bib.bib31)]和SIM[21 (https://arxiv.org/html/2606.09888#bib.bib21)]采用基于搜索的机制从历史交互序列中检索有价值的子集,启发了后续方法如VISTA[5 (https://arxiv.org/html/2606.09888#bib.bib5)],它将用户历史缓存到几百个紧凑的令牌中,共同支持预测。后来,HSTU[29 (https://arxiv.org/html/2606.09888#bib.bib29)]将推荐重新定义为序列转录任务,并针对大规模、非平稳的推荐数据自定义了注意力机制。最近,LONGER[2 (https://arxiv.org/html/2606.09888#bib.bib2)]、HiSAC[28 (https://arxiv.org/html/2606.09888#bib.bib28)]和GEMs[33 (https://arxiv.org/html/2606.09888#bib.bib33)]进一步利用基于Transformer的架构来建模相关性驱动的交互。然而,Transformer注意力的二次复杂度限制了其对超长用户历史的可扩展性,激发了线性复杂度替代方案的出现。诸如RankMixer[34 (https://arxiv.org/html/2606.09888#bib.bib34)]和UniMixer[10 (https://arxiv.org/html/2606.09888#bib.bib10)]等方法增强了混合模块的表达能力以改进交互建模。BlossomRec[19 (https://arxiv.org/html/2606.09888#bib.bib19)]采用稀疏注意力来捕捉长期和短期用户兴趣,而FuXi-Linear[27 (https://arxiv.org/html/2606.09888#bib.bib27)]将线性注意力与时间特征相结合,用于高效的长序列建模。然而,这些方法本质上缺乏知识查找机制,迫使它们纯粹通过连续计算来近似转换关系,而不是从外部或结构化记忆中检索协作语义模式。
**记忆增强模型扩展。** 最近的研究[1 (https://arxiv.org/html/2606.09888#bib.bib1),6 (https://arxiv.org/html/2606.09888#bib.bib6)]表明,将记忆模块整合到模型主干中,可以增强模型容量并改善扩展行为。在大语言模型领域[30 (https://arxiv.org/html/2606.09888#bib.bib30)],LongMem[23 (https://arxiv.org/html/2606.09888#bib.bib23)]引入了长期记忆和检索机制,以有效利用超长上下文。UltraMem[11 (https://arxiv.org/html/2606.09888#bib.bib11)]和UltraMemV2[12 (https://arxiv.org/html/2606.09888#bib.bib12)]用高效的记忆层替换稀疏激活的专家,从而减少内存访问开销。Engram[6 (https://arxiv.org/html/2606.09888#bib.bib6)]进一步提出将条件记忆作为扩展LLM容量的补充稀疏维度。在推荐系统中,早期工作如MIMN[20 (https://arxiv.org/html/2606.09888#bib.bib20)]捕捉用户兴趣的演变用于长序列建模。最近,MSN[24 (https://arxiv.org/html/2606.09888#bib.bib24)]和相关方法[18 (https://arxiv.org/html/2606.09888#bib.bib18),17 (https://arxiv.org/html/2606.09888#bib.bib17),4 (https://arxiv.org/html/2606.09888#bib.bib4)]从大型参数化记忆中检索个性化表示,并将其聚合到下游特征交互模块中。然而,现有的推荐模型主要利用记忆模块的检索能力,而在很大程度上忽视了它们在统一架构中与序列建模模块互补和协作的潜力。
## 3 预备知识
### 3.1 门控Delta网络
线性Transformer提高了标准Transformer的效率,但其减少的上下文交互通常限制了在长上下文任务上的性能。Gated DeltaNet通过使用自适应记忆控制门和delta更新规则扩展DeltaNet来解决这个问题。给定步骤t的查询、键和值向量qt、kt和vt,Gated DeltaNet维护一个键寻址的递归状态:
St = αt St−1 (I − βt kt kt⊤) + βt vt kt⊤, ot = St qt, (1)
其中St ∈ R^(dv×dk)是递归状态,αt控制状态保留,βt控制delta更新强度。使用累积衰减γj = ∏ᵢ₌₁ʲ αi,递归呈现类似于注意力的形式:
ot = ∑ᵢ₌₁ᵗ vi (γt/γi ki⊤ qt), O = (Q K⊤ ⊙ Γ) V, (2)
其中Γ ∈ R^(L×L)是一个因果衰减掩码,为可见的历史位置分配衰减感知的权重,并掩码未来位置。
为了高效训练,Gated DeltaNet采用分块并行公式。转移矩阵I − βt kt kt⊤可以视为广义Householder变换,其累积乘积在部分展开的递归下以WY风格分解表示,从而实现高效的并行计算。
### 3.2 语义状态沉没
为了理解为什么Gated DeltaNet风格的递归注意力可能未充分利用长用户历史,我们在图1 (https://arxiv.org/html/2606.09888#S1.F1)中分析了历史对当前预测的影响。它显示,早期与目标相关的行为仍然可以提供有用的远程信号,但在原始Gated DeltaNet中,近期历史中重复的与目标无关的语义可能会产生越来越主导的状态响应。结果,递归状态偏向于类似沉没的语义方向,导致预测过度依赖重复的无关模式,同时削弱了与目标相关的远程行为的影响。
**现象1.(语义状态沉没)** 语义状态沉没指的是递归状态中语义重复模式的过度保留,其中少数语义方向主导状态读取并偏置后续预测。
这一现象揭示了长序列推荐的机遇与挑战。长历史包含超出短期上下文的协作行为模式,但直接将它们累积在递归状态中会将语义存储与转换建模耦合。当重复模式被重复写入类似的状态方向时,它们可能形成类似沉没的语义方向,主导后续读取并抑制记忆无法解释的转换信号。因此,协作模式应该被外部化为记忆,而递归计算应专注于记忆无法解释的转换。SinkRec遵循这一原则,通过结合条件记忆与TDGD来利用共享的行为模式,同时相似文章
Δ-Mem:大型语言模型的高效在线记忆
提出 delta-Mem,一种轻量级在线记忆机制,利用紧凑状态矩阵并通过增量规则学习进行更新,以提升冻结大型语言模型的长上下文性能,无需全量微调或上下文扩展。
RecMem:基于重复的记忆整合方法,用于高效且有效的长期运行LLM智能体
RecMem是一种基于重复的记忆整合方法,适用于长期运行的LLM智能体,通过仅在语义相似的交互重复出现时调用LLM,可减少高达87%的令牌消耗,同时提高准确性。
基于门控关联检索的通用三重潜在压缩
本文介绍了通用三重潜在循环模型,该模型将令牌对交互压缩为潜在状态,并提出一种改进精确召回的门控关联检索变体。该混合模型在字节级WikiText-2和分词语言基准上优于Transformer,实现了高达41.9%的关联召回率(对比25%)。
MemReranker:面向智能体记忆检索的推理感知重排序
MemReranker 是一个针对智能体记忆检索设计的推理感知重排序模型家族(0.6B/4B),通过结合 LLM 知识蒸馏技术解决语义相似性匹配的局限性,从而提升模型的时间与因果推理能力。
MemDreamer:通过分层图记忆与代理检索机制解耦长视频理解中的感知与推理
MemDreamer 通过分层图记忆和代理检索解耦长视频理解中的感知与推理,在降低计算开销的同时实现了最先进的性能。