AgentCL: 面向语言代理中持续学习的严谨评估

Hugging Face Daily Papers 论文

摘要

提出了一个全面的评估框架,用于语言代理中的持续学习,强调受控任务流和记忆设计分析,以更好地评估可复用经验和学习稳定性。

语言代理在解决单个任务时花费大量推理时间,然而在一个回合中获得的经验常常在后续回合中未被充分利用。持续学习期望代理能够在任务流中积累可复用的经验,随着时间的推移不断改进,并避免来自无关经验的干扰。不幸的是,现有基准难以严谨评估语言代理中的持续学习。大多数工作集中于对长上下文对话或文档的检索和推理,而最近的生命周期适应基准往往依赖于简单的任务流,对跨任务关系的分析有限,难以理解代理随时间学习和复用了什么。本文提出了一个用于代理持续学习的评估框架AgentCL,核心是受控任务流和迁移收益指标。AgentCL构建了组合任务流,其中早期的子解决方案、证据或工作流可以被有意地在后续任务中复用,并与不保证这种可复用性的简单任务流进行对比。我们使用该基准来评估持续学习中的非参数记忆设计。为了诊断记忆设计选择如何影响持续学习,我们开发了MemProbe,一种探测方法,它存储交互、见解和技能,同时在整合过程中过滤不可靠的经验。跨编码、深度研究和语言理解/推理任务的实证分析表明,简单任务流区分记忆设计的能力有限,而受控任务流能更清晰地区分其可塑性。同时,简单和保留设置往往产生有限的收益,并可能暴露记忆引发的退化。这些结果凸显了需要更强大的记忆设计来平衡可塑性和稳定复用。
查看原文
查看缓存全文

缓存时间: 2026/06/04 03:42

论文页面 - AgentCL:迈向语言代理持续学习的严谨评估

来源:https://huggingface.co/papers/2606.02461

摘要

本文提出了一套面向语言代理持续学习的全面评估框架,重点强调受控任务流与记忆设计分析,以更准确地评估可复用经验与学习稳定性。

语言代理(https://huggingface.co/papers?q=Language%20agents)在解决单个任务时会花费大量推理时间,但单个任务中获得的经验往往在后续任务中未被充分利用。持续学习(https://huggingface.co/papers?q=Continual%20learning)要求代理能在一系列任务流中积累可复用的经验,随任务推进而改进,并避免无关经验的干扰。遗憾的是,现有基准难以严谨评估语言代理(https://huggingface.co/papers?q=language%20agents)中的持续学习(https://huggingface.co/papers?q=continual%20learning)能力。大多数工作聚焦于长上下文对话或文档的检索与推理,而近期的一些终身适应基准往往依赖于朴素的任务流(https://huggingface.co/papers?q=task%20streams),对跨任务关系的分析有限,难以理解代理随时间推移而学习和复用的具体内容。本文提出了一种面向代理持续学习(https://huggingface.co/papers?q=continual%20learning)的评估框架AgentCL,其核心是受控任务流(https://huggingface.co/papers?q=task%20streams)与迁移增益(https://huggingface.co/papers?q=transfer%20gains)指标。AgentCL构建了组合流(https://huggingface.co/papers?q=compositional%20streams),其中早期的子解决方案、证据或工作流在后续任务中被有意设计为可复用,并与朴素流(不保证这种可复用性)形成对比。我们利用该基准评估用于持续学习(https://huggingface.co/papers?q=continual%20learning)的非参数记忆(https://huggingface.co/papers?q=non-parametric%20memory)设计方案。为了诊断记忆设计选择如何影响持续学习(https://huggingface.co/papers?q=continual%20learning),我们开发了MemProbe(https://huggingface.co/papers?q=MemProbe)探测方法,它能存储交互、洞察和技能,同时在整合过程中过滤不可靠的经验。在编码、深度研究及语言理解/推理任务上的实证分析表明:朴素流区分各种记忆设计(https://huggingface.co/papers?q=memory%20designs)的能力有限,而受控流能更清晰地辨别其可塑性(https://huggingface.co/papers?q=plasticity)。同时,朴素和保留设置通常带来有限的增益,并可能暴露出记忆引发的退化。这些结果凸显了需要更强大的记忆设计(https://huggingface.co/papers?q=memory%20designs),在可塑性(https://huggingface.co/papers?q=plasticity)和稳定复用(https://huggingface.co/papers?q=stable%20reuse)之间取得平衡。

查看 arXiv 页面(https://arxiv.org/abs/2606.02461)查看 PDF(https://arxiv.org/pdf/2606.02461)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.02461)

在您的代理中获取本文:

hf papers read 2606\.02461

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型链接本文

请在模型的 README.md 中引用 arxiv.org/abs/2606.02461 以从该页面链接。

引用本文的数据集0

没有数据集链接本文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.02461 以从该页面链接。

引用本文的 Spaces0

没有 Space 链接本文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.02461 以从该页面链接。

包含本文的收藏集0

没有收藏包含本文

请将本文添加到一个收藏(https://huggingface.co/new-collection)中以从该页面链接。

相似文章

重新思考自进化大语言模型智能体的持续经验内化

arXiv cs.CL

本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。