@omarsar0: 语言模型需要“睡眠”

X AI KOLs Following 2026/05/26 20:08 论文

language-models agents attention long-context research

摘要

一篇论文探讨了让语言模型智能体‘睡眠’以重置内部状态，从而提升在长期任务上的表现，解决了上下文长度扩展的问题。

语言模型需要“睡眠”

查看原文

查看缓存全文

缓存时间: 2026/05/26 22:58

DAIR.AI (@dair_ai): // 语言模型需要睡眠 //

让你的智能体“睡觉”吧，各位。

认真地说，这是一篇关于如何最大化长周期智能体效能的引人入胜的论文。

当前智能体的问题在于：注意力机制随上下文长度扩展效果不佳，因此长周期智能体持续付出…

相似文章

Hugging Face Daily Papers

本文提出了一种针对大型语言模型的“睡眠”范式，该范式通过记忆巩固和梦境阶段实现持续学习，使模型能够将短期知识提炼为长期参数，并在无需人工监督的情况下自我改进。

Hugging Face Daily Papers

本文提出了一种针对Transformer模型的类睡眠巩固机制，该机制利用快速权重和递归传递来改进长上下文处理，同时保持推理速度。

Hacker News Top

本文提出了一种类似睡眠的巩固机制，适用于基于Transformer的大语言模型，该机制定期将最近上下文转换为SSM块中的持久快速权重，清除KV缓存，从而在不增加推理延迟的情况下提升长期推理能力。

arXiv cs.LG

PACE 提出了一种双时间尺度框架,用于小语言模型智能体的自进化,协调低风险的提示精炼与高风险的控制器逻辑更新,在多个基准上实现了高达 +9.2% 的相对提升。

arXiv cs.CL

Auto-Dreamer 提出了一种针对语言代理的离线记忆整合学习方法，将快速记忆获取与慢速跨会话整合解耦，以更小的记忆库实现更高性能，并泛化到未见环境。