AgentCL: 面向语言代理中持续学习的严谨评估

Hugging Face Daily Papers 2026/06/02 00:00 论文

continual-learning language-agents evaluation memory-design task-streams transfer-learning

摘要

提出了一个全面的评估框架，用于语言代理中的持续学习，强调受控任务流和记忆设计分析，以更好地评估可复用经验和学习稳定性。

语言代理在解决单个任务时花费大量推理时间，然而在一个回合中获得的经验常常在后续回合中未被充分利用。持续学习期望代理能够在任务流中积累可复用的经验，随着时间的推移不断改进，并避免来自无关经验的干扰。不幸的是，现有基准难以严谨评估语言代理中的持续学习。大多数工作集中于对长上下文对话或文档的检索和推理，而最近的生命周期适应基准往往依赖于简单的任务流，对跨任务关系的分析有限，难以理解代理随时间学习和复用了什么。本文提出了一个用于代理持续学习的评估框架AgentCL，核心是受控任务流和迁移收益指标。AgentCL构建了组合任务流，其中早期的子解决方案、证据或工作流可以被有意地在后续任务中复用，并与不保证这种可复用性的简单任务流进行对比。我们使用该基准来评估持续学习中的非参数记忆设计。为了诊断记忆设计选择如何影响持续学习，我们开发了MemProbe，一种探测方法，它存储交互、见解和技能，同时在整合过程中过滤不可靠的经验。跨编码、深度研究和语言理解/推理任务的实证分析表明，简单任务流区分记忆设计的能力有限，而受控任务流能更清晰地区分其可塑性。同时，简单和保留设置往往产生有限的收益，并可能暴露记忆引发的退化。这些结果凸显了需要更强大的记忆设计来平衡可塑性和稳定复用。

查看原文

查看缓存全文

缓存时间: 2026/06/04 03:42

论文页面 - AgentCL：迈向语言代理持续学习的严谨评估

来源：https://huggingface.co/papers/2606.02461

摘要

本文提出了一套面向语言代理持续学习的全面评估框架，重点强调受控任务流与记忆设计分析，以更准确地评估可复用经验与学习稳定性。

语言代理（https://huggingface.co/papers?q=Language%20agents）在解决单个任务时会花费大量推理时间，但单个任务中获得的经验往往在后续任务中未被充分利用。持续学习（https://huggingface.co/papers?q=Continual%20learning）要求代理能在一系列任务流中积累可复用的经验，随任务推进而改进，并避免无关经验的干扰。遗憾的是，现有基准难以严谨评估语言代理（https://huggingface.co/papers?q=language%20agents）中的持续学习（https://huggingface.co/papers?q=continual%20learning）能力。大多数工作聚焦于长上下文对话或文档的检索与推理，而近期的一些终身适应基准往往依赖于朴素的任务流（https://huggingface.co/papers?q=task%20streams），对跨任务关系的分析有限，难以理解代理随时间推移而学习和复用的具体内容。本文提出了一种面向代理持续学习（https://huggingface.co/papers?q=continual%20learning）的评估框架AgentCL，其核心是受控任务流（https://huggingface.co/papers?q=task%20streams）与迁移增益（https://huggingface.co/papers?q=transfer%20gains）指标。AgentCL构建了组合流（https://huggingface.co/papers?q=compositional%20streams），其中早期的子解决方案、证据或工作流在后续任务中被有意设计为可复用，并与朴素流（不保证这种可复用性）形成对比。我们利用该基准评估用于持续学习（https://huggingface.co/papers?q=continual%20learning）的非参数记忆（https://huggingface.co/papers?q=non-parametric%20memory）设计方案。为了诊断记忆设计选择如何影响持续学习（https://huggingface.co/papers?q=continual%20learning），我们开发了MemProbe（https://huggingface.co/papers?q=MemProbe）探测方法，它能存储交互、洞察和技能，同时在整合过程中过滤不可靠的经验。在编码、深度研究及语言理解/推理任务上的实证分析表明：朴素流区分各种记忆设计（https://huggingface.co/papers?q=memory%20designs）的能力有限，而受控流能更清晰地辨别其可塑性（https://huggingface.co/papers?q=plasticity）。同时，朴素和保留设置通常带来有限的增益，并可能暴露出记忆引发的退化。这些结果凸显了需要更强大的记忆设计（https://huggingface.co/papers?q=memory%20designs），在可塑性（https://huggingface.co/papers?q=plasticity）和稳定复用（https://huggingface.co/papers?q=stable%20reuse）之间取得平衡。

查看 arXiv 页面（https://arxiv.org/abs/2606.02461）查看 PDF（https://arxiv.org/pdf/2606.02461）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.02461）

在您的代理中获取本文：

hf papers read 2606\.02461

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型链接本文

请在模型的 README.md 中引用 arxiv.org/abs/2606.02461 以从该页面链接。

引用本文的数据集0

没有数据集链接本文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.02461 以从该页面链接。

引用本文的 Spaces0

没有 Space 链接本文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.02461 以从该页面链接。

包含本文的收藏集0

没有收藏包含本文

请将本文添加到一个收藏（https://huggingface.co/new-collection）中以从该页面链接。

AgentCL: 面向语言代理中持续学习的严谨评估

论文页面 - AgentCL：迈向语言代理持续学习的严谨评估

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Spaces0

包含本文的收藏集0

相似文章

@omarsar0: // Continual Learning Bench // 持续学习是投入大量资金的研究领域之一。虽然存在…

重新思考自进化大语言模型智能体的持续经验内化

CLaaS：面向样本高效在线学习的持续学习即服务

智能体优化器能否实现累积提升？——基于 Terminal-Bench 2.0 的持续学习评估

Agent的持续学习（3分钟阅读）

提交意见反馈