连续性层:智能为何需要一种架构来承载它所累积的认知

Hugging Face Daily Papers 论文

摘要

立场论文提出“连续性层”以保留模型随时间学到的内容,引入Decomposed Trace Convergence Memory与ATANT基准,在250篇故事语料上实现100%隔离、96%累积召回,且无需语言模型介入。

AI 最重要的架构问题不是模型大小,而是缺少一层能把模型已理解的内容持续带向未来的机制。会话结束,上下文窗口填满,Memory API 只返回扁平事实,模型每次读取都要重新解读。结果是:单会话强大,跨时间失忆。这篇立场论文认为,解决这一问题的“连续性层”是业界尚未建成却最具分量的基础设施,而公开的工程化工作已经启动。对此属性的正式评估框架为 ATANT 基准(arXiv:2604.06710),另文发布,已在 250 篇故事语料上完成评测;配套论文(arXiv:2604.10981)将该框架与现有记忆、长上下文、智能体记忆基准进行对比。本文将“连续性”定义为系统级属性,列出七项必要特征,区别于记忆与检索;描述一种存储原语(Decomposed Trace Convergence Memory),其写入时分解、读出时重构可实现该属性;把工程架构映射到“虚己”(kenosis)神学模式与“阿尔法-欧米伽”符号模式,并论证该映射是结构性的而非隐喻;提出从外部 SDK 到硬件节点再到长周期人类基础设施的四层发展路径;分析制约模型层的物理极限如何使连续性层新近变得关键;并主张治理架构(隐私以物理而非政策实现、创始人控股对不可谈判的架构承诺)与产品本身不可分割。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 15:38

论文页面 - 连续性层:为何智能需要一种架构来承载它所积累的理解

来源:https://huggingface.co/papers/2604.17273

AI 最重要的架构问题不是模型有多大,而是没有任何一层能够把模型已经理解的内容持续地带到下一步

本文提出:连续性层(Continuity Layer)是整个领域尚未建成的最关键基础设施。作者将“连续性”定义为一项系统属性,并给出 7 条必备特征;随后介绍一种存储原语——分解轨迹收敛记忆(Decomposed Trace Convergence Memory, DTCM),通过在写入时分解、读取时重构来实现该属性;最后勾勒出从外部 SDK 到硬件节点的四层演进路线。

连续性的正式评估框架为 ATANT 基准(arXiv:2604.06710,另文发布)。该基准在 250 篇故事语料上测试:100% 隔离性、96% 累积性,全程无语言模型参与打分。

相似文章

面向大型语言模型归因引导的持续学习

arXiv cs.LG

本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。

TIDE:每一层都知晓上下文中的令牌

arXiv cs.CL

本文介绍了 TIDE,一种通过嵌入记忆(Embedding Memory)将令牌身份注入每一层,从而解决大语言模型(LLM)中罕见令牌问题和上下文崩溃问题的方法。作者在理论上和经验上证明了该方法在语言建模和下游任务中的改进。

StageMem:面向语言模型的生命周期管理记忆框架

arXiv cs.CL

StageMem 提出了一种面向语言模型的生命周期管理记忆框架,该框架将记忆划分为瞬态、工作状态和持久状态三个阶段,并引入明确的置信度与强度指标,将记忆视为一种有状态的处理流程而非静态存储,从而在容量受限的条件下更精准地管理信息的保留与遗忘。