@omarsar0: // Continual Learning Bench // 持续学习是投入大量资金的研究领域之一。虽然存在…
摘要
CL-Bench 是一个经过专家验证的跨六个领域的新基准,用于评估基于LLM的智能体是否真正从序列经验中学习。它发现,朴素上下文学习往往优于专用的记忆系统,表明当前架构增加了开销而非真正的学习。
查看缓存全文
缓存时间: 2026/06/08 05:14
// Continual Learning Bench //
持续学习是研究投入较多的领域之一。
尽管有许多努力,但在衡量持续学习方面进展甚微。
因此,关键问题是:专用的记忆系统是否真的能让智能体从经验中学习?
Continual Learning Bench 给出的答案是否定的。在六个经过专家验证、具有可学习共享结构的领域中,朴素的上下文学习表现优于专门为记忆管理构建的系统。
CL-Bench 引入了一个增益指标,用于将真正的学习与先前能力区分开,然后表明智能体经常过度拟合即时观察,或未能跨实例重用知识。
如果一个普通的 ICL 基线胜过你的记忆架构,那么该架构是在增加开销而非学习。
论文:https://arxiv.org/abs/2606.05661
在我们的学院学习构建有效的 AI 智能体:https://academy.dair.ai
Continual Learning Bench:在真实世界有状态环境中评估前沿 AI 系统
来源:https://arxiv.org/html/2606.05661 Parth Asawa 加州大学伯克利分校 & Christopher M. Glaze Snorkel AI & Gabriel Orlanski 威斯康星大学麦迪逊分校 & Ramya Ramakrishnan Snorkel AI & Benji Xu 加州大学伯克利分校 Asim Biswal 加州大学伯克利分校 & Vincent Sunn Chen Snorkel AI & Frederic Sala 威斯康星大学麦迪逊分校、Snorkel AI & Matei Zaharia 加州大学伯克利分校 & Joseph E. Gonzalez 加州大学伯克利分校
摘要
持续学习,即 AI 系统通过顺序经验进行改进的能力,已引起广泛关注,但尚无高质量的基准测试来评估它。我们引入了 Continual Learning Bench (CL-Bench),这是第一个经过专家验证的困难基准,旨在衡量基于 LLM 的系统是否真正随着经验而改进。CL-Bench 涵盖六个不同领域(软件工程、信号处理、疾病爆发预测、数据库查询、策略游戏和需求预测),每个领域均由领域专家验证,并且任务设计共享可学习的潜在结构(代码库布局、疾病爆发动态、对手策略),有状态系统可以在线发现这些结构,而无状态系统则无法发现。我们评估了从朴素上下文学习 (ICL) 到专用记忆系统等多种智能体架构下的前沿模型,引入了一个增益指标来将学习与先前能力区分开。我们发现这些系统在改进持续学习方面仍有空间:智能体经常过度拟合即时观察,或无法跨实例重用知识,而专用的记忆系统并不能解决这个问题——事实上,朴素的 ICL 表现优于专用于记忆管理的系统。CL-Bench 是第一个跨多个真实世界领域评估持续学习、使用专家验证任务并将在线学习与底层模型能力区分开的基准测试,表明需要更好的持续学习系统。
1 引言
构建通过顺序经验改进的 LLM 系统(持续学习)已吸引了研究人员和从业者的极大兴趣。近期工作集中于开发旨在长时间跨度内运行的基于记忆的自适应 AI 系统:在数周交互中使代码库内更有效的软件工程智能体、从与同一数据集的重复交互中学习的数据科学智能体,以及使用持续反馈优化预测的决策支持智能体。这些系统通常包含记忆检索模块[27, 8, 39]、上下文压缩方法[12] 以及测试时训练目标和架构[30, 29, 18, 31, 43, 21]。
然而,现有的评估协议仅部分捕捉了这种形式的持续学习。记忆和长上下文系统在先前上下文的回忆或问答上进行评估[22, 1, 27, 8];压缩方法则评估它们是否在减少记忆或计算的同时保留了完整上下文的行为[12, 39];测试时训练或自适应方法则在提供训练集和测试集时评估语言建模损失、知识插入或新任务准确性[30, 31, 29, 18, 43, 21, 6]。这些替代方法并未直接测试系统是否通过在线学习跨相关任务的环境特定潜在结构而改进。
我们引入 Continual Learning Bench (CL-Bench),这是一个用于衡量 AI 系统是否通过顺序经验改进的基准测试,基于经专家验证且对当前模型具有挑战性的任务。CL-Bench 涵盖六个领域(软件工程、信号处理、疾病爆发预测、数据库查询、策略游戏和需求预测)。与之前的基准测试不同[22, 1, 41, 40],CL-Bench 任务包含现实但并非先验已知的潜在结构,从而最小化性能反映预训练知识的混淆因素。智能体被挑战去学习这种结构并在线利用它。潜在结构还可能经历概念漂移,要求系统在线适应,而非依赖静态能力。
参见标题图 1:CL-Bench 评估框架,通过简化的数据库探索任务进行说明。在每个 CL-Bench 任务中,智能体在共享环境中完成一系列实例,积累过去的经验和反馈以随时间改进。任务包含并非先验已知的可利用潜在结构——这里是指混淆的模式约定——学习型智能体需要发现这些结构以提高奖励(例如,到 Q10 时查询次数减少 4 倍)。任务还可能包含概念漂移:在 Q20 时的数据库迁移会使部分过往经验失效,测试智能体能否适应而非盲目记忆。图 1 使用数据库探索任务说明了这些概念:智能体回答关于一个不熟悉的 SQLite 数据库的问题,该数据库具有混淆的模式约定和非标准数据格式。学习型智能体会逐步学习模式和数据结构——哪个表组映射到哪个产品类别、价格如何编码——并用更少的查询回答后续问题。中途,一次数据库迁移引入了概念漂移:部分过时知识必须被重新学习。我们观察到一种常见的失败模式:前沿系统在早期的错误信念上僵化,即使收到关于答案错误的反馈也难以更新。
评估持续学习的核心挑战在于确定衡量什么。每个任务定义自己的奖励指标,直观上,我们希望确保持续学习智能体是“有状态的”。也就是说,它们在给定先前经验的情况下比从头开始运行表现更好。为衡量这一点,我们除了总奖励外还引入了一个增益指标,它衡量系统基于在线经验的奖励与其无状态时可能获得的奖励之间的差异。
我们期望 CL-Bench 成为一个持续改进的基准测试,利用开源社区添加更多样化和更具挑战性的任务,以及有趣的新系统进行测试。我们在本文中明确定义了优秀任务应具备的品质标准,以便贡献者能轻松提出新增内容。
我们的贡献包括:
CL-Bench。
首个经过专家验证的困难持续学习基准测试,涵盖 6 个真实世界领域,评估 AI 如何从顺序经验中改进,其指标和任务旨在将学习与基础模型能力区分开(第 3 节、第 4 节)。
前沿 AI 系统差距的实证评估。
对多种智能体架构下的前沿模型进行大规模评估,表明朴素的 ICL 优于专用的持续学习机制,并且可靠的在线适应仍然是一个开放问题(第 5 节)。
2 相关工作
语言模型中持续学习的测量。
持续学习传统上通过监督任务序列中的保留、遗忘和迁移指标进行评估[33]。近期语言智能体基准测试增加了交互和持久性:ARC-AGI-3 衡量环境内技能获取[13];LifelongAgentBench 和 SkillLearnBench 围绕预定义的技能分类(例如,命名的 SQL 和 Bash 原语)构建任务,以评估相关任务性能和技能重用[40, 41];LoCoMo、LongHealth 和 MemoryBench 测试长对话历史中的回忆保真度[22, 1, 2]。在每种情况下,期望系统学习的内容要么是显式结构化的,要么基于通用能力,要么局限于单一稳定环境:没有一个要求系统从经验中发现潜在结构并利用这一发现改进后续实例的性能。SWE-Bench-CL 最为接近,但它仅限编码领域,且由于二值准确率指标饱和而未被用于评估前沿系统[20]。CL-Bench 则构建了六个专家验证领域,其中潜在结构是隐藏的、任务特定的,且无法从预训练中恢复,因此性能仅在正确利用先前经验时才会提升。
智能体基准测试。
许多基准测试评估编码[19, 11, 28]、终端使用[23]、通用计算机使用[7, 36, 37] 等智能体能力[42, 34]。然而,这些评估在孤立任务上进行,测试的是离线学习的能力。较新的基准测试衡量迭代设置中的性能[38, 26],但同样不要求利用跨实例重复出现的共享潜在结构,从而使早期实例的经验可迁移到后期实例。如果没有这样的结构,更强的静态模型可能仅凭自身能力表现更好,从而无法隔离持续学习的效果。我们的工作明确设计了存在共享潜在结构且并非通用能力的任务,奖励那些通过在线体验改进的系统。
3 Continual Learning Bench
任何有效的持续学习基准的关键在于,被评估的系统应期望根据经验或环境的反馈进行更新。因此,任务及其相应指标的设计必须奖励那些能够有效利用先前的在线任务经验来改进的系统。
术语:在 CL-Bench 中,一个任务是一个问题实例序列。一个实例是任务中的一个单独问题(例如,关于数据库的一个待回答的问题),也是定义奖励的级别。一个步骤是实例内智能体的单一动作(例如,一条 SQL 查询)。一个系统是被评估的端到端单元——任何模型和学习机制的组合都是允许的;CL-Bench 不规定特定的适应机制。每个任务还可以定义一个或多个变体,通过修改环境引入概念漂移,要求系统进一步适应。一个调度是系统从头到尾处理的完整有序实例序列,按指定顺序跨越多个变体。
3.1 任务准入标准
有效的持续学习基准中的任何任务都必须满足以下标准。它们共同定义了何时测得的改进反映的是在线学习而非静态模型能力。
改进空间。
任何系统的初始性能应远低于可达到的最大值。这意味着要学习的潜在结构必须是任务特定的,且无法仅通过通用离线训练恢复;否则,更强的基模型与学习系统将无法区分。
共享潜在结构。
必须存在可发现的结构(如代码库结构、模式约定、对手策略),且该结构在实例间共享,系统可以利用它来改进性能。实例之间的关系创造了学习机会:识别重复模式的系统可以在未来实例中利用这些模式。该结构不会显式告知;必须从经验中推断。
学习机制。
调度中的早期实例必须产生对后期实例有信息的观察结果。环境必须提供一个反馈循环,学习型系统可以利用它(例如,测试失败、错误消息、中间预测),从而使累积的经验转化为可操作的知识。
运行示例:数据库探索 一个智能体回答关于一个未知 SQLite 数据库的 40 个自然语言问题,该数据库包含故意混淆的模式(例如,表 g2_reviews,列 vrf 表示验证状态,电子产品价格以整数美分表示,而其他组的价格以浮点美元表示)。智能体必须发出 SQL 查询来回答每个问题,预算为 15 次探索性查询,效率——节省的预算比例——是奖励。学习型智能体早期发现模式约定和数据异常,并在后续问题中重用这些逻辑,从而用更少的查询回答。数据库在中途还会经历一次迁移,重命名表并重新格式化列,要求智能体检测并丢弃过时的经验,而不是盲目重用。
数据库探索满足所有这些标准。由于专门定义的模式混淆和数据异常(真实但并非先验已知),存在显著的改进空间。共享潜在结构可被学习型系统利用,迭代循环提供了推断模式和数据值信息的途径。漂移则进一步测试系统能否适应。
重要的是,这些标准共同排除了构造 CL
相似文章
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
AgentCL: 面向语言代理中持续学习的严谨评估
提出了一个全面的评估框架,用于语言代理中的持续学习,强调受控任务流和记忆设计分析,以更好地评估可复用经验和学习稳定性。
CollabBench:通过主动参与与多样玩家基准测试并释放LLM协作能力
CollabBench是一个新的基准测试,用于评估和训练LLM智能体在合作游戏中的表现,具有多样玩家模拟和协作训练范式。实验表明,与基础模型相比,效率提高19.5%,情感性能提升24.4%。
CLaaS:面向样本高效在线学习的持续学习即服务
CLaaS是一个系统,用于对部署中的LLM智能体进行持续学习,利用经验回放实现样本高效的在线适应。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。