@omarsar0: 语言模型需要“睡眠”

X AI KOLs Following 论文

摘要

一篇论文探讨了让语言模型智能体‘睡眠’以重置内部状态,从而提升在长期任务上的表现,解决了上下文长度扩展的问题。

语言模型需要“睡眠”
查看原文
查看缓存全文

缓存时间: 2026/05/26 22:58

DAIR.AI (@dair_ai): // 语言模型需要睡眠 //

让你的智能体“睡觉”吧,各位。

认真地说,这是一篇关于如何最大化长周期智能体效能的引人入胜的论文。

当前智能体的问题在于:注意力机制随上下文长度扩展效果不佳,因此长周期智能体持续付出…

相似文章

语言模型需要睡眠:学习自我修改与巩固记忆

Hugging Face Daily Papers

本文提出了一种针对大型语言模型的“睡眠”范式,该范式通过记忆巩固和梦境阶段实现持续学习,使模型能够将短期知识提炼为长期参数,并在无需人工监督的情况下自我改进。

语言模型需要睡眠

Hugging Face Daily Papers

本文提出了一种针对Transformer模型的类睡眠巩固机制,该机制利用快速权重和递归传递来改进长上下文处理,同时保持推理速度。

语言模型需要睡眠

Hacker News Top

本文提出了一种类似睡眠的巩固机制,适用于基于Transformer的大语言模型,该机制定期将最近上下文转换为SSM块中的持久快速权重,清除KV缓存,从而在不增加推理延迟的情况下提升长期推理能力。

PACE: 双时间尺度自进化小语言模型智能体

arXiv cs.LG

PACE 提出了一种双时间尺度框架,用于小语言模型智能体的自进化,协调低风险的提示精炼与高风险的控制器逻辑更新,在多个基准上实现了高达 +9.2% 的相对提升。

Auto-Dreamer:语言代理的离线记忆整合学习

arXiv cs.CL

Auto-Dreamer 提出了一种针对语言代理的离线记忆整合学习方法,将快速记忆获取与慢速跨会话整合解耦,以更小的记忆库实现更高性能,并泛化到未见环境。