@TheTuringPost:本周必读研究 Harness-1:基于状态外化束带的搜索智能体的强化学习 R…
摘要
本文探讨了大型语言模型中持续学习的复兴,强调了离线整合(即“睡眠”)的必要性,以防止灾难性遗忘,并使模型在部署后能够保持更新和专业化。
查看缓存全文
缓存时间: 2026/06/09 10:45
本周必读研究
Harness-1:基于状态外化约束的搜索智能体强化学习
反思面向自进化大语言模型智能体的持续经验内化
GrepSeek:训练面向直接语料交互的搜索智能体
WALL-WM:在事件连接处雕琢世界动作建模
论PEFT的规模化:迈向万亿参数模型的百万级个性化模型
Code2LoRA:面向软件演化下代码语言模型的超网络生成适配器
KVarN:方差归一化的KV缓存量化可缓解推理任务中的误差累积
复现、分析与检测基于量规的强化学习中的奖励黑客行为
自蒸馏策略梯度
OpenWebRL:揭秘面向视觉网页智能体的在线多轮强化学习
MLEvolve:面向自动化机器学习算法发现的自我进化框架
OCC-RAG:面向忠实问答的最优认知核心
每周完整研究列表及最重要AI新闻,请查看:https://turingpost.com/p/continual-learning-llms-ai-models-sleep…
FOD#155:大语言模型中的持续学习:为什么AI模型需要睡眠
来源:https://www.turingpost.com/p/continual-learning-llms-ai-models-sleep **今日话题:**大语言模型中的持续学习,为何AI模型可能需要离线巩固,以及“睡眠”对于AI记忆、智能体和灾难性遗忘的意义。
→ 持续学习再掀热潮,这次要让模型“睡”起来
巧合的是,上周的主题全是关于模型及其宝贵的“睡眠”。5月25日,卡内基梅隆大学和马里兰大学的一篇论文提出了一个问题:大语言模型需要睡眠吗?(https://arxiv.org/abs/2605.26099) 6月2日,谷歌关联研究人员的论文几乎直接给出了答案:大语言模型需要睡眠 (https://arxiv.org/abs/2606.03979)。我们可以将这个有趣的时机视为一个信号:持续学习重回AI研究中心,但这次面临着完全不同的压力。
持续学习并非新问题。在传统机器学习中,它通常意味着让模型在一系列任务上训练,而不破坏已学到的知识。模型学习了任务B,然后突然在任务A上表现变差。这就是灾难性遗忘,该领域花了多年时间试图通过回放、冻结、正则化、路由和其他方法来缓解。
**LLMs改变了问题的性质。**如今,问题更为广泛:**AI系统如何保持与时俱进,如何专精于特定领域和用户,如何从经验中学习,如何在部署后持续改进而不破坏已有知识?**这极其困难。
一篇2026年的综述《大语言模型中的持续学习》(https://arxiv.org/abs/2603.12658) 提供了一个很好的当前领域图景。它将LLM持续学习分为持续预训练、持续微调和持续对齐。这意味着模型可能需要吸收新的通用知识,适应特定领域或任务,或者调整其行为而不会丧失使其有用的对齐能力。该综述的结论指出,当前方法在有限设定下有效,但我们仍然无法实现跨任务和跨时间的平滑学习。
但“睡眠”到底指什么?
当然,模型并非字面上需要睡眠。它们需要的是一个用于巩固的离线阶段。持续进行在线更新风险很高,而什么都不做则会让模型停滞不前。**需要在“看到新信息”和“因此发生改变”之间有一个阶段。**这就是“睡眠”隐喻试图捕捉的概念:离线处理——模型不是单纯地回应下一个提示,而是在决定哪些信息应该持久之前,整理近期经验。
**卡内基梅隆大学/马里兰大学的那篇论文从推理角度审视了这个问题。**长上下文成本高昂,因为KV缓存会随着模型关注更多token而增长。一些混合架构将较旧的上下文压缩为快速权重,但论文表明仅靠压缩是不够的。如果模型必须推理那些它无法再直接关注的信息,它需要在该上下文被清除前进行更多计算。他们提出的“睡眠”阶段让模型对近期上下文进行离线循环遍历,最大的收益出现在需要更深层推理的任务上。这是关键部分:记忆不仅是存储,更是处理过程。
谷歌关联论文更接近持续学习。它从一个简单的局限性出发:LLMs可以在上下文窗口内进行适应,但会话结束后,这些知识通常会消失。其“睡眠”范式提出两个步骤。首先,“知识播种”将短期知识巩固为更稳定的参数。然后,“梦境”使用模型生成的合成数据来复述最近学到的内容。抛开生物学术语,这意味着持久的学习应该与实时交互分离。
这种分离或许是持续学习的有用架构。没有它,选择就太过粗糙。要么模型基本保持静态并依赖检索,要么更新过于直接而面临漂移风险。“睡眠”为研究者提供了第三种框架:系统进行交互,收集经验,离线处理,然后才决定哪些应保持临时性,哪些应成为记忆,以及哪些被允许影响未来的行为。
这对智能体尤其重要,因为它们的经验比简单的文档流更丰富,包括工具调用、失败尝试、用户纠正、环境反馈和重复的工作流程。最近的智能体学习研究也指向同一方向。一份关于LLM智能体终身学习的路线图 (https://arxiv.org/abs/2501.07278) 通过感知、记忆和行动来构建问题。另一篇2026年6月的论文《反思面向自进化大语言模型智能体的持续经验内化》(https://arxiv.org/abs/2606.04703) 则展示了此路径的脆弱性:当经验内化不佳时,重复的学习循环非但不能累积,反而可能导致崩溃。
我还想提一下OpenAI于6月4日为ChatGPT发布的记忆更新,名为“梦境”(https://openai.com/index/chatgpt-memory-dreaming/)。其“梦境”系统在后台综合用户记忆,以提升跨对话的新鲜度、连贯性和相关性。这是系统侧的记忆,而非证明参数化持续学习已得到解决。但这表明同样的压力也出现在生产环境中:记忆不能永远只是一份静态的笔记列表。
我们看到的趋势是,该领域需要超越“持续更新”这一理念。本周感觉新鲜的是,人们在寻找一个介于“经验”和“改变”之间的可控阶段。“睡眠”作为一个边界概念变得有趣:这是一个系统可以决定哪些值得持久、哪些应保持临时、哪些应被丢弃的时刻。我们预计今年将在持续学习领域迎来一些突破。
如果上述任何想法能引起你的共鸣,请分享到你的社交网络。让我们保持对话。
Twitter精选
我们正在阅读/观看
来自“老牌玩家”的新闻
- Axiom将形式化验证从纯数学推向了经济学。它宣布了EconLib,一个基于Lean的经济理论库,首先形式化了Robert Aumann的“一致不同意”定理。AxiomProver不仅验证了证明,还发现了底层逻辑中的一个隐含假设,并同时证明了Monderer-Samet的p-信念版本。该项目旨在成为博弈论、纳什均衡、拍卖理论、信息经济学和预测市场逻辑的Mathlib式基础 – 阅读论文 (https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6837298),查看代码 (https://github.com/AxiomMath/AgreeToDisagree/)
- Sakana AI将递归自我改进作为其明确的研究议程。它在东京成立了Sakana AI RSI Lab (https://sakana.ai/rsi-lab/),这是一个专注于利用AI重新设计AI开发过程本身的专门小组。该实验室汇集了Sakana最近在AI生成优化算法、自我重写智能体、程序进化、自学习强化智能体、对抗性协同进化以及AI科学家方面的一系列工作。
- OpenAI通过面向分析师、营销人员、设计师、销售团队、投资者和银行家的角色特定插件、Sites和注释 (https://openai.com/index/codex-for-every-role-tool-workflow/),将Codex推向了软件工程之外。它还升级了用于生命科学工作流的GPT-Rosalind (https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind/),并开始推出Dreaming (https://openai.com/index/chatgpt-memory-dreaming/),这是ChatGPT的一个更具扩展性的记忆系统。
- Anthropic发表了一份网络威胁分析,展示了AI赋能的攻击者如何深入攻击链,并暴露了现有安全框架(如MITRE ATT&CK)中的空白 → 阅读报告 (https://www.anthropic.com/news/AI-enabled-cyber-threats-mitre-attack)
- NVIDIA将韩国变成了本周的AI基础设施展示台。它宣布与SK海力士、SK电信、Naver、斗山、LG和现代达成协议 (https://www.reuters.com/business/media-telecom/sk-hynix-announces-multi-year-tech-deal-with-nvidia-ai-factories-2026-06-07/),涉及内存供应、AI工厂、机器人、数据中心、自动驾驶和AI驱动制造。此外,Naver表示将使用NVIDIA技术建造千兆瓦级AI工厂 (https://www.reuters.com/world/asia-pacific/south-koreas-naver-build-gigawatt-scale-ai-factories-using-nvidia-technology-2026-06-07/),而LG则与NVIDIA合作开发人形机器人和未来数据中心 (https://www.reuters.com/world/asia-pacific/nvidia-ceo-says-company-is-working-with-lg-humanoid-robots-data-centers-2026-06-08/)。
- Meta携Meta Business Agent (https://about.fb.com/news/2026/06/meta-business-agent/) 进入企业智能体竞赛,将AI智能体扩展到WhatsApp、Messenger和Instagram,用于客户支持、销售、预订和业务运营。但本周也暴露了摩擦:据报道其Muse Spark API被延迟 (https://www.reuters.com/technology/meta-repeatedly-pushes-back-new-ai-model-release-developers-wsj-says-2026-06-04/),并且在WIRED审查后,Meta从其智能眼镜伴侣应用中移除了人脸识别代码 (https://www.wired.com/story/meta-removes-face-recognition-code-meta-ai-app-smart-glasses/)。
- Apple终于为WWDC带来了AI答案:Siri AI (https://www.theverge.com/tech/942416/apple-siri-ai-update-wwdc),一个更具对话性、上下文感知、系统级的助手,旨在跨应用工作,同时在可能的情况下依赖设备端处理和私有云计算。有报道指出 (https://www.businessinsider.com/apple-new-siri-ai-chatbot-app-wwdc-2026-6) 谷歌的Gemini是新Siri架构的一部分。
- 华盛顿方面将前沿模型的发布更紧密地纳入国家安全流程。白宫签署了一项AI网络安全和前沿模型行政令 (https://www.whitehouse.gov/presidential-actions/2026/06/promoting-advanced-artificial-intelligence-innovation-and-security/),要求领先的AI开发者在发布前自愿提交受覆盖模型供政府网络安全审查,随后又推出了国家安全AI推进行动 (https://www.reuters.com/technology/us-says-it-will-speed-development-use-ai-national-security-2026-06-05/),侧重于加速采用、更新自主武器指南以及在政府内部使用多供应商AI。
研究亮点
来自哈佛大学、麻省理工学院、2077AI和Kempner Institute的研究人员构建了一个LLM智能体“经济体”,智能体在此经济体中进行拍卖竞价、相互支付、从奖励中获取财富、在成功时发生变异,在低效时破产。从弱智能体开始,它使MATH成绩从15.9%提升至57.0%,金融从45.0%提升至60.0%,科学最佳运行准确率从5.0%提升至20.0%,加速器EDP从80.2降至39.3,Cloudcast成本从930降至657。
开源模型
- 小米的 MiMo + TileRT (http://google.com/search?q=Xiaomi+MiMo+%2B+TileRT&rlz=1C5CHFA_enUS804US805&oq=Xiaomi+MiMo+%2B+TileRT&gs_lcrp=EgZjaHJvbWUyBggAEEUYOdIBBzEzMWowajSoAgCwAgE&sourceid=chrome&ie=UTF-8) 推动了一个万亿参数模型在商用GPU上每秒处理超过1000个token。其关键主张是在商用硬件水平上实现1T参数模型的推理速度——如果真实且可复现,它将改变无需依赖云端的可部署模型的经济性。值得关注其复现情况。
- Gemma 4 12B (https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/) (Google DeepMind):可在笔记本电脑上运行——这个120亿参数的模型将谷歌的Gemma系列带到了能在消费级硬件上本地运行的大小。对于需要在设备端而非云端运行的智能体工作流来说,这是在推动强大模型可及性方面迈出的有意义的一步。
研究动态
纵观上周发表的所有与AI和ML相关的论文,我们看到了以下趋势:
- 个性化取代一刀切模型
- 智能体取代聊天机器人
- 世界模型取代纯语言扩展
- 评估即训练
- 自动化研究
- 记忆与自我改进
- 推理效率
智能体可靠性、记忆与自我改进
搜索、检索与长上下文推理
世界模型、物理AI与具身推理
模型适配、效率与可扩展的个性化
强化学习、蒸馏与奖励设计
自动化、研究智能体与智能体安全
今天就到这里。感谢阅读!如果此通讯能帮助同事加深对AI的理解并保持领先,请将此通讯转发给他们。
常见问题解答
**什么是LLM中的持续学习?**LLM中的持续学习意味着随时间更新或调整模型,而不破坏其先前的能力、对齐或有用的知识。
**为什么AI模型“需要睡眠”?**它们并非字面上需要睡眠。关键在于,学习可能需要一个离线巩固阶段,在该阶段中,近期上下文或经验在成为持久记忆或模型行为之前会先被处理。
**什么是灾难性遗忘?**灾难性遗忘是指模型学习了新知识,但在原有任务上的表现却下降的现象。
相似文章
Harness-1:采用状态外化约束的搜索代理强化学习
介绍了 Harness-1,一个使用状态外化约束训练的 200 亿参数开源搜索代理,实现了强大的检索性能,并在多个基准测试上超越了更大的前沿模型。
@omarsar0: // 自我束具:能自我改进的束具 // (收藏这个)我们今天依赖的大多数智能体框架…
本文介绍了自我束具(Self-Harness),一种新的范式,其中基于LLM的智能体能够迭代地改进自身的操作束具——包括提示、工具和控制流程——无需人类工程师或更强大的外部智能体,在多个模型上取得了显著的性能提升。
@dair_ai: // 状态外部化框架 // 关于如何有效构建代理和框架的一种新范式正在兴起。如果……
Harness-1 引入了一种状态外部化框架,将常规记账与搜索代理中的策略决策分离,使一个 20B 模型在多个基准测试中超越更大的前沿搜索器。
语言模型需要睡眠
本文提出了一种类似睡眠的巩固机制,适用于基于Transformer的大语言模型,该机制定期将最近上下文转换为SSM块中的持久快速权重,清除KV缓存,从而在不增加推理延迟的情况下提升长期推理能力。
语言模型需要睡眠:学习自我修改与巩固记忆
本文提出了一种针对大型语言模型的“睡眠”范式,该范式通过记忆巩固和梦境阶段实现持续学习,使模型能够将短期知识提炼为长期参数,并在无需人工监督的情况下自我改进。