语言模型需要睡眠:学习自我修改与巩固记忆

Hugging Face Daily Papers 论文

摘要

本文提出了一种针对大型语言模型的“睡眠”范式,该范式通过记忆巩固和梦境阶段实现持续学习,使模型能够将短期知识提炼为长期参数,并在无需人工监督的情况下自我改进。

过去几十年见证了机器学习算法设计的重大进步,从早期针对特定任务的浅层模型到更通用的深度大型语言模型(LLMs)。尽管在需要即时预测或上下文学习(in-context learning)的任务中表现出有希望的结果,现有模型缺乏持续学习并将其时间性上下文知识有效迁移到长期参数的能力。受人类学习过程的启发,我们引入了一种“睡眠”范式,使模型能够持续学习,通过重放将其短期脆弱记忆提炼为稳定的长期知识,并通过“梦境”过程递归地自我改进。更详细地说,睡眠包括两个阶段:(1)记忆巩固:一个向上蒸馏的过程,称为知识播种(Knowledge Seeding),其中较小自我的记忆被蒸馏到更大的网络中,以提供更多容量同时保留知识。作为概念验证,我们提出了一种新的广义蒸馏过程用于{知识播种}(即结合了基于策略的蒸馏与基于强化学习(RL)的模仿学习);(2)梦境:一个自我改进阶段,在此阶段模型使用强化学习生成合成数据的课程,以演练新知识并改进现有能力,无需人工监督。我们在长期、持续学习、知识融合和少样本泛化任务上的实验支持睡眠阶段的重要性。
查看原文
查看缓存全文

缓存时间: 2026/06/03 03:35

Paper page - Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories

来源:https://huggingface.co/papers/2606.03979

摘要

采用睡眠与梦境范式的深度学习模型,能够通过记忆巩固和自我改进阶段实现持续学习。

过去数十年间,机器学习算法的设计取得了显著进步:从早期针对特定任务的浅层模型,发展到更通用的深度大语言模型(Large Language Models (https://huggingface.co/papers?q=Large%20Language%20Models),LLMs)。尽管现有模型在需要即时预测或情景学习(in-context learning)的任务中表现出了令人期待的结果,但它们仍缺乏持续学习的能力,无法将其时间维度的情景知识有效迁移到长期参数中。受人类学习过程启发,我们引入了一种“睡眠”范式,使模型能够持续学习,通过重放将短期脆弱记忆蒸馏为稳定的长期知识,并借助“梦境”过程递归地进行自我改进。具体而言,睡眠包含两个阶段:(1)记忆巩固(Memory Consolidation (https://huggingface.co/papers?q=Memory%20Consolidation)):一种向上的蒸馏过程,称为知识播种(Knowledge Seeding (https://huggingface.co/papers?q=Knowledge%20Seeding)),即将较小自身的记忆蒸馏到更大网络中,以在保留知识的同时提供更大容量。作为概念验证,我们提出了一种新的广义蒸馏(Generalized Distillation (https://huggingface.co/papers?q=Generalized%20Distillation))过程用于知识播种(Knowledge Seeding (https://huggingface.co/papers?q=Knowledge%20Seeding))(即,在线策略蒸馏与基于强化学习(Reinforcement Learning (https://huggingface.co/papers?q=Reinforcement%20Learning),RL)的模仿学习的结合);(2)梦境:一个自我改进阶段,模型利用强化学习生成合成数据的课程,以演练新知识并完善现有能力,无需人类监督。我们在长期、持续学习(continual learning (https://huggingface.co/papers?q=continual%20learning))、知识融合以及少样本泛化任务上的实验支持了睡眠阶段的重要性。

查看 arXiv 页面 (https://arxiv.org/abs/2606.03979)查看 PDF (https://arxiv.org/pdf/2606.03979)添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2606.03979)

在您的 agent 中获取本论文:

hf papers read 2606\.03979

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

未找到链接本论文的模型

在模型 README.md 中引用 arxiv.org/abs/2606.03979 即可从此页面链接。

引用本论文的数据集0

未找到链接本论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2606.03979 即可从此页面链接。

引用本论文的 Space0

未找到链接本论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2606.03979 即可从此页面链接。

包含本论文的收藏集0

未找到包含本论文的收藏集

将本论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从此页面链接。

相似文章

语言模型需要睡眠

Hacker News Top

本文提出了一种类似睡眠的巩固机制,适用于基于Transformer的大语言模型,该机制定期将最近上下文转换为SSM块中的持久快速权重,清除KV缓存,从而在不增加推理延迟的情况下提升长期推理能力。

语言模型需要睡眠

Hugging Face Daily Papers

本文提出了一种针对Transformer模型的类睡眠巩固机制,该机制利用快速权重和递归传递来改进长上下文处理,同时保持推理速度。

@omarsar0: 语言模型需要“睡眠”

X AI KOLs Following

一篇论文探讨了让语言模型智能体‘睡眠’以重置内部状态,从而提升在长期任务上的表现,解决了上下文长度扩展的问题。

Auto-Dreamer:语言代理的离线记忆整合学习

arXiv cs.CL

Auto-Dreamer 提出了一种针对语言代理的离线记忆整合学习方法,将快速记忆获取与慢速跨会话整合解耦,以更小的记忆库实现更高性能,并泛化到未见环境。

自巩固语言模型:从上下文中持续整合知识

arXiv cs.CL

本文介绍了自巩固语言模型(SCoL),这是一种利用元强化学习将当前上下文写入模型权重以实现持续知识整合的框架。实验表明,在问答任务和长上下文巩固任务中,该方法在知识获取和保留方面均优于基线方法。