AgentCL: 面向语言代理中持续学习的严谨评估
摘要
提出了一个全面的评估框架,用于语言代理中的持续学习,强调受控任务流和记忆设计分析,以更好地评估可复用经验和学习稳定性。
查看缓存全文
缓存时间: 2026/06/04 03:42
论文页面 - AgentCL:迈向语言代理持续学习的严谨评估
来源:https://huggingface.co/papers/2606.02461
摘要
本文提出了一套面向语言代理持续学习的全面评估框架,重点强调受控任务流与记忆设计分析,以更准确地评估可复用经验与学习稳定性。
语言代理(https://huggingface.co/papers?q=Language%20agents)在解决单个任务时会花费大量推理时间,但单个任务中获得的经验往往在后续任务中未被充分利用。持续学习(https://huggingface.co/papers?q=Continual%20learning)要求代理能在一系列任务流中积累可复用的经验,随任务推进而改进,并避免无关经验的干扰。遗憾的是,现有基准难以严谨评估语言代理(https://huggingface.co/papers?q=language%20agents)中的持续学习(https://huggingface.co/papers?q=continual%20learning)能力。大多数工作聚焦于长上下文对话或文档的检索与推理,而近期的一些终身适应基准往往依赖于朴素的任务流(https://huggingface.co/papers?q=task%20streams),对跨任务关系的分析有限,难以理解代理随时间推移而学习和复用的具体内容。本文提出了一种面向代理持续学习(https://huggingface.co/papers?q=continual%20learning)的评估框架AgentCL,其核心是受控任务流(https://huggingface.co/papers?q=task%20streams)与迁移增益(https://huggingface.co/papers?q=transfer%20gains)指标。AgentCL构建了组合流(https://huggingface.co/papers?q=compositional%20streams),其中早期的子解决方案、证据或工作流在后续任务中被有意设计为可复用,并与朴素流(不保证这种可复用性)形成对比。我们利用该基准评估用于持续学习(https://huggingface.co/papers?q=continual%20learning)的非参数记忆(https://huggingface.co/papers?q=non-parametric%20memory)设计方案。为了诊断记忆设计选择如何影响持续学习(https://huggingface.co/papers?q=continual%20learning),我们开发了MemProbe(https://huggingface.co/papers?q=MemProbe)探测方法,它能存储交互、洞察和技能,同时在整合过程中过滤不可靠的经验。在编码、深度研究及语言理解/推理任务上的实证分析表明:朴素流区分各种记忆设计(https://huggingface.co/papers?q=memory%20designs)的能力有限,而受控流能更清晰地辨别其可塑性(https://huggingface.co/papers?q=plasticity)。同时,朴素和保留设置通常带来有限的增益,并可能暴露出记忆引发的退化。这些结果凸显了需要更强大的记忆设计(https://huggingface.co/papers?q=memory%20designs),在可塑性(https://huggingface.co/papers?q=plasticity)和稳定复用(https://huggingface.co/papers?q=stable%20reuse)之间取得平衡。
查看 arXiv 页面(https://arxiv.org/abs/2606.02461)查看 PDF(https://arxiv.org/pdf/2606.02461)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.02461)
在您的代理中获取本文:
hf papers read 2606\.02461
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型0
没有模型链接本文
请在模型的 README.md 中引用 arxiv.org/abs/2606.02461 以从该页面链接。
引用本文的数据集0
没有数据集链接本文
请在数据集的 README.md 中引用 arxiv.org/abs/2606.02461 以从该页面链接。
引用本文的 Spaces0
没有 Space 链接本文
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.02461 以从该页面链接。
包含本文的收藏集0
没有收藏包含本文
请将本文添加到一个收藏(https://huggingface.co/new-collection)中以从该页面链接。
相似文章
@omarsar0: // Continual Learning Bench // 持续学习是投入大量资金的研究领域之一。虽然存在…
CL-Bench 是一个经过专家验证的跨六个领域的新基准,用于评估基于LLM的智能体是否真正从序列经验中学习。它发现,朴素上下文学习往往优于专用的记忆系统,表明当前架构增加了开销而非真正的学习。
重新思考自进化大语言模型智能体的持续经验内化
本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。
CLaaS:面向样本高效在线学习的持续学习即服务
CLaaS是一个系统,用于对部署中的LLM智能体进行持续学习,利用经验回放实现样本高效的在线适应。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
Agent 评估:详细指南(53 分钟阅读)
关于评估基于 LLM 的 Agent 系统的全面指南,涵盖基本概念、评估框架以及来自近期基准测试的案例研究。