语言模型需要睡眠

Hugging Face Daily Papers 论文

摘要

本文提出了一种针对Transformer模型的类睡眠巩固机制,该机制利用快速权重和递归传递来改进长上下文处理,同时保持推理速度。

基于Transformer的大型语言模型越来越多地用于长跨度任务,但其注意力机制随上下文长度的扩展性较差。为解决此问题,我们研究了一种类睡眠巩固机制,模型在其中定期将近期上下文转换为持久快速权重,然后清除其键值缓存。在睡眠阶段,模型对积累的上下文执行N次离线递归传递,并通过学习到的局部规则更新其状态空间模型(SSM)块中的快速权重。在推理时,这会将额外计算转移到睡眠阶段,同时保持唤醒时刻预测的延迟。我们在受控合成任务(包括元胞自动机和多跳图检索)以及一个现实数学推理任务上测试了我们的方法,这些任务上常规Transformer以及SSM-注意力混合模型均失败。然后,我们证明增加睡眠时长N可以提高模型性能,在需要更深层推理的示例上增益最大。
查看原文
查看缓存全文

缓存时间: 2026/05/26 14:44

论文页面 - 语言模型需要睡眠

来源:https://huggingface.co/papers/2605.26099

摘要

一种类似睡眠的巩固机制,利用快速权重和递归传递来改善长上下文处理,同时保持推理速度。

基于Transformer的大型语言模型(https://huggingface.co/papers?q=Transformer-based%20large%20language%20models)越来越多地用于长周期任务;然而,其注意力机制(https://huggingface.co/papers?q=attention%20mechanism)在上下文长度(https://huggingface.co/papers?q=context%20length)上的扩展性不佳。为了解决这个问题,我们研究了一种类似睡眠的巩固机制(https://huggingface.co/papers?q=sleep-like%20consolidation%20mechanism),其中模型定期将最近的上下文转换为持久的快速权重(https://huggingface.co/papers?q=fast%20weights),然后清除其键值缓存(https://huggingface.co/papers?q=key-value%20cache)。在睡眠期间,模型对累积的上下文执行N次离线递归传递(https://huggingface.co/papers?q=recurrent%20passes),并通过学习到的局部规则更新其状态空间模型(https://huggingface.co/papers?q=state-space%20model)(SSM)块中的快速权重(https://huggingface.co/papers?q=fast%20weights)。在推理过程中,这将额外计算转移到睡眠阶段,同时保持清醒时预测的延迟。我们在受控的合成任务上测试了我们的方法,包括元胞自动机(https://huggingface.co/papers?q=cellular%20automata)和多跳图检索(https://huggingface.co/papers?q=multi-hop%20graph%20retrieval),以及一个现实的数学推理(https://huggingface.co/papers?q=math%20reasoning)任务,而常规Transformer以及SSM-注意力混合模型在这些任务上均失败。然后我们表明,增加我们模型的睡眠持续时间N可以提升性能,在需要更深层推理的示例上收益最大。

查看arXiv页面(https://arxiv.org/abs/2605.26099)查看PDF(https://arxiv.org/pdf/2605.26099)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.26099)

在您的代理中获取此论文:

hf papers read 2605\.26099

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.26099,以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.26099,以从此页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.26099,以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

语言模型需要睡眠

Hacker News Top

本文提出了一种类似睡眠的巩固机制,适用于基于Transformer的大语言模型,该机制定期将最近上下文转换为SSM块中的持久快速权重,清除KV缓存,从而在不增加推理延迟的情况下提升长期推理能力。

语言模型需要睡眠:学习自我修改与巩固记忆

Hugging Face Daily Papers

本文提出了一种针对大型语言模型的“睡眠”范式,该范式通过记忆巩固和梦境阶段实现持续学习,使模型能够将短期知识提炼为长期参数,并在无需人工监督的情况下自我改进。

@omarsar0: 语言模型需要“睡眠”

X AI KOLs Following

一篇论文探讨了让语言模型智能体‘睡眠’以重置内部状态,从而提升在长期任务上的表现,解决了上下文长度扩展的问题。

Mela:基于转化假说的测试时记忆巩固

Hugging Face Daily Papers

本文介绍了 Mela,这是一种受人类记忆巩固机制启发的、增强记忆的 Transformer 架构,其核心特征为层级记忆模块(HMM),能够有效提升长上下文语言建模的性能。