语言模型需要睡眠
摘要
本文提出了一种针对Transformer模型的类睡眠巩固机制,该机制利用快速权重和递归传递来改进长上下文处理,同时保持推理速度。
查看缓存全文
缓存时间: 2026/05/26 14:44
论文页面 - 语言模型需要睡眠
来源:https://huggingface.co/papers/2605.26099
摘要
一种类似睡眠的巩固机制,利用快速权重和递归传递来改善长上下文处理,同时保持推理速度。
基于Transformer的大型语言模型(https://huggingface.co/papers?q=Transformer-based%20large%20language%20models)越来越多地用于长周期任务;然而,其注意力机制(https://huggingface.co/papers?q=attention%20mechanism)在上下文长度(https://huggingface.co/papers?q=context%20length)上的扩展性不佳。为了解决这个问题,我们研究了一种类似睡眠的巩固机制(https://huggingface.co/papers?q=sleep-like%20consolidation%20mechanism),其中模型定期将最近的上下文转换为持久的快速权重(https://huggingface.co/papers?q=fast%20weights),然后清除其键值缓存(https://huggingface.co/papers?q=key-value%20cache)。在睡眠期间,模型对累积的上下文执行N次离线递归传递(https://huggingface.co/papers?q=recurrent%20passes),并通过学习到的局部规则更新其状态空间模型(https://huggingface.co/papers?q=state-space%20model)(SSM)块中的快速权重(https://huggingface.co/papers?q=fast%20weights)。在推理过程中,这将额外计算转移到睡眠阶段,同时保持清醒时预测的延迟。我们在受控的合成任务上测试了我们的方法,包括元胞自动机(https://huggingface.co/papers?q=cellular%20automata)和多跳图检索(https://huggingface.co/papers?q=multi-hop%20graph%20retrieval),以及一个现实的数学推理(https://huggingface.co/papers?q=math%20reasoning)任务,而常规Transformer以及SSM-注意力混合模型在这些任务上均失败。然后我们表明,增加我们模型的睡眠持续时间N可以提升性能,在需要更深层推理的示例上收益最大。
查看arXiv页面(https://arxiv.org/abs/2605.26099)查看PDF(https://arxiv.org/pdf/2605.26099)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.26099)
在您的代理中获取此论文:
hf papers read 2605\.26099
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.26099,以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.26099,以从此页面链接。
引用此论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.26099,以从此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
语言模型需要睡眠
本文提出了一种类似睡眠的巩固机制,适用于基于Transformer的大语言模型,该机制定期将最近上下文转换为SSM块中的持久快速权重,清除KV缓存,从而在不增加推理延迟的情况下提升长期推理能力。
语言模型需要睡眠:学习自我修改与巩固记忆
本文提出了一种针对大型语言模型的“睡眠”范式,该范式通过记忆巩固和梦境阶段实现持续学习,使模型能够将短期知识提炼为长期参数,并在无需人工监督的情况下自我改进。
@omarsar0: 语言模型需要“睡眠”
一篇论文探讨了让语言模型智能体‘睡眠’以重置内部状态,从而提升在长期任务上的表现,解决了上下文长度扩展的问题。
内存高效型循环Transformer:循环语言模型中的计算与内存解耦
提出内存高效型循环Transformer(MELT),这是一种新型循环大语言模型架构,通过跨循环共享单一KV缓存,并结合插值过渡与注意力对齐蒸馏的分块训练方法,实现了推理深度与内存消耗的解耦。
Mela:基于转化假说的测试时记忆巩固
本文介绍了 Mela,这是一种受人类记忆巩固机制启发的、增强记忆的 Transformer 架构,其核心特征为层级记忆模块(HMM),能够有效提升长上下文语言建模的性能。