语言模型需要睡眠

Hugging Face Daily Papers 2026/05/25 00:00 论文

摘要

本文提出了一种针对Transformer模型的类睡眠巩固机制，该机制利用快速权重和递归传递来改进长上下文处理，同时保持推理速度。

基于Transformer的大型语言模型越来越多地用于长跨度任务，但其注意力机制随上下文长度的扩展性较差。为解决此问题，我们研究了一种类睡眠巩固机制，模型在其中定期将近期上下文转换为持久快速权重，然后清除其键值缓存。在睡眠阶段，模型对积累的上下文执行N次离线递归传递，并通过学习到的局部规则更新其状态空间模型（SSM）块中的快速权重。在推理时，这会将额外计算转移到睡眠阶段，同时保持唤醒时刻预测的延迟。我们在受控合成任务（包括元胞自动机和多跳图检索）以及一个现实数学推理任务上测试了我们的方法，这些任务上常规Transformer以及SSM-注意力混合模型均失败。然后，我们证明增加睡眠时长N可以提高模型性能，在需要更深层推理的示例上增益最大。

查看原文

查看缓存全文

缓存时间: 2026/05/26 14:44

论文页面 - 语言模型需要睡眠

来源：https://huggingface.co/papers/2605.26099

摘要

一种类似睡眠的巩固机制，利用快速权重和递归传递来改善长上下文处理，同时保持推理速度。

基于Transformer的大型语言模型（https://huggingface.co/papers?q=Transformer-based%20large%20language%20models）越来越多地用于长周期任务；然而，其注意力机制（https://huggingface.co/papers?q=attention%20mechanism）在上下文长度（https://huggingface.co/papers?q=context%20length）上的扩展性不佳。为了解决这个问题，我们研究了一种类似睡眠的巩固机制（https://huggingface.co/papers?q=sleep-like%20consolidation%20mechanism），其中模型定期将最近的上下文转换为持久的快速权重（https://huggingface.co/papers?q=fast%20weights），然后清除其键值缓存（https://huggingface.co/papers?q=key-value%20cache）。在睡眠期间，模型对累积的上下文执行N次离线递归传递（https://huggingface.co/papers?q=recurrent%20passes），并通过学习到的局部规则更新其状态空间模型（https://huggingface.co/papers?q=state-space%20model）（SSM）块中的快速权重（https://huggingface.co/papers?q=fast%20weights）。在推理过程中，这将额外计算转移到睡眠阶段，同时保持清醒时预测的延迟。我们在受控的合成任务上测试了我们的方法，包括元胞自动机（https://huggingface.co/papers?q=cellular%20automata）和多跳图检索（https://huggingface.co/papers?q=multi-hop%20graph%20retrieval），以及一个现实的数学推理（https://huggingface.co/papers?q=math%20reasoning）任务，而常规Transformer以及SSM-注意力混合模型在这些任务上均失败。然后我们表明，增加我们模型的睡眠持续时间N可以提升性能，在需要更深层推理的示例上收益最大。

查看arXiv页面（https://arxiv.org/abs/2605.26099）查看PDF（https://arxiv.org/pdf/2605.26099）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.26099）

在您的代理中获取此论文：

hf papers read 2605\.26099

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.26099，以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.26099，以从此页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.26099，以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

语言模型需要睡眠

论文页面 - 语言模型需要睡眠

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

语言模型需要睡眠

语言模型需要睡眠：学习自我修改与巩固记忆

@omarsar0: 语言模型需要“睡眠”

Sleep 用于持续学习（24分钟阅读）

内存高效型循环Transformer：循环语言模型中的计算与内存解耦

提交意见反馈