@TheTuringPost：本周必读研究 Harness-1：基于状态外化束带的搜索智能体的强化学习 R…

X AI KOLs Timeline 2026/06/08 22:03 新闻

continual-learning llm catastrophic-forgetting model-sleep offline-consolidation ai-research

摘要

本文探讨了大型语言模型中持续学习的复兴，强调了离线整合（即“睡眠”）的必要性，以防止灾难性遗忘，并使模型在部署后能够保持更新和专业化。

本周必读研究 Harness-1：基于状态外化束带的搜索智能体的强化学习重新思考持续经验内化以实现自我进化的大语言模型智能体 GrepSeek：训练搜索智能体以直接与语料库交互 WALL-WM：在事件节点处进行世界动作建模论PEFT的扩展：迈向拥有万亿参数的个人化百万模型 Code2LoRA：软件演化过程中代码语言模型的超网络生成适配器 KVarN：方差归一化的KV缓存量化减轻推理任务中的错误累积重现、分析与检测基于评分规则的强化学习中的奖励黑客行为自蒸馏策略梯度 OpenWebRL：揭秘面向视觉网络智能体的在线多轮强化学习 MLEvolve：用于自动化机器学习算法发现的自进化框架 OCC-RAG：实现忠实问答的最佳认知核心完整列表及本周最重要的人工智能新闻请见：https://turingpost.com/p/continual-learning-llms-ai-models-sleep…

查看原文

查看缓存全文

缓存时间: 2026/06/09 10:45

本周必读研究

Harness-1：基于状态外化约束的搜索智能体强化学习
反思面向自进化大语言模型智能体的持续经验内化
GrepSeek：训练面向直接语料交互的搜索智能体
WALL-WM：在事件连接处雕琢世界动作建模
论PEFT的规模化：迈向万亿参数模型的百万级个性化模型
Code2LoRA：面向软件演化下代码语言模型的超网络生成适配器
KVarN：方差归一化的KV缓存量化可缓解推理任务中的误差累积
复现、分析与检测基于量规的强化学习中的奖励黑客行为
自蒸馏策略梯度
OpenWebRL：揭秘面向视觉网页智能体的在线多轮强化学习
MLEvolve：面向自动化机器学习算法发现的自我进化框架
OCC-RAG：面向忠实问答的最优认知核心

每周完整研究列表及最重要AI新闻，请查看：https://turingpost.com/p/continual-learning-llms-ai-models-sleep…

FOD#155：大语言模型中的持续学习：为什么AI模型需要睡眠

来源：https://www.turingpost.com/p/continual-learning-llms-ai-models-sleep **今日话题：**大语言模型中的持续学习，为何AI模型可能需要离线巩固，以及“睡眠”对于AI记忆、智能体和灾难性遗忘的意义。

→ 持续学习再掀热潮，这次要让模型“睡”起来

巧合的是，上周的主题全是关于模型及其宝贵的“睡眠”。5月25日，卡内基梅隆大学和马里兰大学的一篇论文提出了一个问题：大语言模型需要睡眠吗？(https://arxiv.org/abs/2605.26099) 6月2日，谷歌关联研究人员的论文几乎直接给出了答案：大语言模型需要睡眠 (https://arxiv.org/abs/2606.03979)。我们可以将这个有趣的时机视为一个信号：持续学习重回AI研究中心，但这次面临着完全不同的压力。

持续学习并非新问题。在传统机器学习中，它通常意味着让模型在一系列任务上训练，而不破坏已学到的知识。模型学习了任务B，然后突然在任务A上表现变差。这就是灾难性遗忘，该领域花了多年时间试图通过回放、冻结、正则化、路由和其他方法来缓解。

**LLMs改变了问题的性质。**如今，问题更为广泛：**AI系统如何保持与时俱进，如何专精于特定领域和用户，如何从经验中学习，如何在部署后持续改进而不破坏已有知识？**这极其困难。

一篇2026年的综述《大语言模型中的持续学习》(https://arxiv.org/abs/2603.12658) 提供了一个很好的当前领域图景。它将LLM持续学习分为持续预训练、持续微调和持续对齐。这意味着模型可能需要吸收新的通用知识，适应特定领域或任务，或者调整其行为而不会丧失使其有用的对齐能力。该综述的结论指出，当前方法在有限设定下有效，但我们仍然无法实现跨任务和跨时间的平滑学习。

但“睡眠”到底指什么？

当然，模型并非字面上需要睡眠。它们需要的是一个用于巩固的离线阶段。持续进行在线更新风险很高，而什么都不做则会让模型停滞不前。**需要在“看到新信息”和“因此发生改变”之间有一个阶段。**这就是“睡眠”隐喻试图捕捉的概念：离线处理——模型不是单纯地回应下一个提示，而是在决定哪些信息应该持久之前，整理近期经验。

**卡内基梅隆大学/马里兰大学的那篇论文从推理角度审视了这个问题。**长上下文成本高昂，因为KV缓存会随着模型关注更多token而增长。一些混合架构将较旧的上下文压缩为快速权重，但论文表明仅靠压缩是不够的。如果模型必须推理那些它无法再直接关注的信息，它需要在该上下文被清除前进行更多计算。他们提出的“睡眠”阶段让模型对近期上下文进行离线循环遍历，最大的收益出现在需要更深层推理的任务上。这是关键部分：记忆不仅是存储，更是处理过程。

谷歌关联论文更接近持续学习。它从一个简单的局限性出发：LLMs可以在上下文窗口内进行适应，但会话结束后，这些知识通常会消失。其“睡眠”范式提出两个步骤。首先，“知识播种”将短期知识巩固为更稳定的参数。然后，“梦境”使用模型生成的合成数据来复述最近学到的内容。抛开生物学术语，这意味着持久的学习应该与实时交互分离。

这种分离或许是持续学习的有用架构。没有它，选择就太过粗糙。要么模型基本保持静态并依赖检索，要么更新过于直接而面临漂移风险。“睡眠”为研究者提供了第三种框架：系统进行交互，收集经验，离线处理，然后才决定哪些应保持临时性，哪些应成为记忆，以及哪些被允许影响未来的行为。

这对智能体尤其重要，因为它们的经验比简单的文档流更丰富，包括工具调用、失败尝试、用户纠正、环境反馈和重复的工作流程。最近的智能体学习研究也指向同一方向。一份关于LLM智能体终身学习的路线图 (https://arxiv.org/abs/2501.07278) 通过感知、记忆和行动来构建问题。另一篇2026年6月的论文《反思面向自进化大语言模型智能体的持续经验内化》(https://arxiv.org/abs/2606.04703) 则展示了此路径的脆弱性：当经验内化不佳时，重复的学习循环非但不能累积，反而可能导致崩溃。

我还想提一下OpenAI于6月4日为ChatGPT发布的记忆更新，名为“梦境”(https://openai.com/index/chatgpt-memory-dreaming/)。其“梦境”系统在后台综合用户记忆，以提升跨对话的新鲜度、连贯性和相关性。这是系统侧的记忆，而非证明参数化持续学习已得到解决。但这表明同样的压力也出现在生产环境中：记忆不能永远只是一份静态的笔记列表。

我们看到的趋势是，该领域需要超越“持续更新”这一理念。本周感觉新鲜的是，人们在寻找一个介于“经验”和“改变”之间的可控阶段。“睡眠”作为一个边界概念变得有趣：这是一个系统可以决定哪些值得持久、哪些应保持临时、哪些应被丢弃的时刻。我们预计今年将在持续学习领域迎来一些突破。

如果上述任何想法能引起你的共鸣，请分享到你的社交网络。让我们保持对话。

Twitter精选

我们正在阅读/观看

来自“老牌玩家”的新闻

Axiom将形式化验证从纯数学推向了经济学。它宣布了EconLib，一个基于Lean的经济理论库，首先形式化了Robert Aumann的“一致不同意”定理。AxiomProver不仅验证了证明，还发现了底层逻辑中的一个隐含假设，并同时证明了Monderer-Samet的p-信念版本。该项目旨在成为博弈论、纳什均衡、拍卖理论、信息经济学和预测市场逻辑的Mathlib式基础 – 阅读论文 (https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6837298)，查看代码 (https://github.com/AxiomMath/AgreeToDisagree/)
Sakana AI将递归自我改进作为其明确的研究议程。它在东京成立了Sakana AI RSI Lab (https://sakana.ai/rsi-lab/)，这是一个专注于利用AI重新设计AI开发过程本身的专门小组。该实验室汇集了Sakana最近在AI生成优化算法、自我重写智能体、程序进化、自学习强化智能体、对抗性协同进化以及AI科学家方面的一系列工作。
OpenAI通过面向分析师、营销人员、设计师、销售团队、投资者和银行家的角色特定插件、Sites和注释 (https://openai.com/index/codex-for-every-role-tool-workflow/)，将Codex推向了软件工程之外。它还升级了用于生命科学工作流的GPT-Rosalind (https://openai.com/index/introducing-new-capabilities-to-gpt-rosalind/)，并开始推出Dreaming (https://openai.com/index/chatgpt-memory-dreaming/)，这是ChatGPT的一个更具扩展性的记忆系统。
Anthropic发表了一份网络威胁分析，展示了AI赋能的攻击者如何深入攻击链，并暴露了现有安全框架（如MITRE ATT&CK）中的空白 → 阅读报告 (https://www.anthropic.com/news/AI-enabled-cyber-threats-mitre-attack)
NVIDIA将韩国变成了本周的AI基础设施展示台。它宣布与SK海力士、SK电信、Naver、斗山、LG和现代达成协议 (https://www.reuters.com/business/media-telecom/sk-hynix-announces-multi-year-tech-deal-with-nvidia-ai-factories-2026-06-07/)，涉及内存供应、AI工厂、机器人、数据中心、自动驾驶和AI驱动制造。此外，Naver表示将使用NVIDIA技术建造千兆瓦级AI工厂 (https://www.reuters.com/world/asia-pacific/south-koreas-naver-build-gigawatt-scale-ai-factories-using-nvidia-technology-2026-06-07/)，而LG则与NVIDIA合作开发人形机器人和未来数据中心 (https://www.reuters.com/world/asia-pacific/nvidia-ceo-says-company-is-working-with-lg-humanoid-robots-data-centers-2026-06-08/)。
Meta携Meta Business Agent (https://about.fb.com/news/2026/06/meta-business-agent/) 进入企业智能体竞赛，将AI智能体扩展到WhatsApp、Messenger和Instagram，用于客户支持、销售、预订和业务运营。但本周也暴露了摩擦：据报道其Muse Spark API被延迟 (https://www.reuters.com/technology/meta-repeatedly-pushes-back-new-ai-model-release-developers-wsj-says-2026-06-04/)，并且在WIRED审查后，Meta从其智能眼镜伴侣应用中移除了人脸识别代码 (https://www.wired.com/story/meta-removes-face-recognition-code-meta-ai-app-smart-glasses/)。
Apple终于为WWDC带来了AI答案：Siri AI (https://www.theverge.com/tech/942416/apple-siri-ai-update-wwdc)，一个更具对话性、上下文感知、系统级的助手，旨在跨应用工作，同时在可能的情况下依赖设备端处理和私有云计算。有报道指出 (https://www.businessinsider.com/apple-new-siri-ai-chatbot-app-wwdc-2026-6) 谷歌的Gemini是新Siri架构的一部分。
华盛顿方面将前沿模型的发布更紧密地纳入国家安全流程。白宫签署了一项AI网络安全和前沿模型行政令 (https://www.whitehouse.gov/presidential-actions/2026/06/promoting-advanced-artificial-intelligence-innovation-and-security/)，要求领先的AI开发者在发布前自愿提交受覆盖模型供政府网络安全审查，随后又推出了国家安全AI推进行动 (https://www.reuters.com/technology/us-says-it-will-speed-development-use-ai-national-security-2026-06-05/)，侧重于加速采用、更新自主武器指南以及在政府内部使用多供应商AI。

研究亮点

来自哈佛大学、麻省理工学院、2077AI和Kempner Institute的研究人员构建了一个LLM智能体“经济体”，智能体在此经济体中进行拍卖竞价、相互支付、从奖励中获取财富、在成功时发生变异，在低效时破产。从弱智能体开始，它使MATH成绩从15.9%提升至57.0%，金融从45.0%提升至60.0%，科学最佳运行准确率从5.0%提升至20.0%，加速器EDP从80.2降至39.3，Cloudcast成本从930降至657。

开源模型

小米的 MiMo + TileRT (http://google.com/search?q=Xiaomi+MiMo+%2B+TileRT&rlz=1C5CHFA_enUS804US805&oq=Xiaomi+MiMo+%2B+TileRT&gs_lcrp=EgZjaHJvbWUyBggAEEUYOdIBBzEzMWowajSoAgCwAgE&sourceid=chrome&ie=UTF-8) 推动了一个万亿参数模型在商用GPU上每秒处理超过1000个token。其关键主张是在商用硬件水平上实现1T参数模型的推理速度——如果真实且可复现，它将改变无需依赖云端的可部署模型的经济性。值得关注其复现情况。
Gemma 4 12B (https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/) (Google DeepMind)：可在笔记本电脑上运行——这个120亿参数的模型将谷歌的Gemma系列带到了能在消费级硬件上本地运行的大小。对于需要在设备端而非云端运行的智能体工作流来说，这是在推动强大模型可及性方面迈出的有意义的一步。

研究动态

纵观上周发表的所有与AI和ML相关的论文，我们看到了以下趋势：

个性化取代一刀切模型
智能体取代聊天机器人
世界模型取代纯语言扩展
评估即训练
自动化研究
记忆与自我改进
推理效率

智能体可靠性、记忆与自我改进

搜索、检索与长上下文推理

世界模型、物理AI与具身推理

模型适配、效率与可扩展的个性化

强化学习、蒸馏与奖励设计

自动化、研究智能体与智能体安全

今天就到这里。感谢阅读！如果此通讯能帮助同事加深对AI的理解并保持领先，请将此通讯转发给他们。

常见问题解答

**什么是LLM中的持续学习？**LLM中的持续学习意味着随时间更新或调整模型，而不破坏其先前的能力、对齐或有用的知识。

**为什么AI模型“需要睡眠”？**它们并非字面上需要睡眠。关键在于，学习可能需要一个离线巩固阶段，在该阶段中，近期上下文或经验在成为持久记忆或模型行为之前会先被处理。

**什么是灾难性遗忘？**灾难性遗忘是指模型学习了新知识，但在原有任务上的表现却下降的现象。