逃离自我确认陷阱:面向智能体经验学习的执行-提炼-验证范式

Hugging Face Daily Papers 论文

摘要

本文提出EDV框架,在执行-提炼-验证阶段使用多个异构智能体为LLM智能体构建可靠经验,防止自我确认错误,并提升在长周期基准测试上的性能。

基于经验的自我演化对于大语言模型(LLM)智能体通过开放世界交互进行改进至关重要。然而,现有的经验学习方法大多依赖单一智能体循环,即同一智能体执行任务、总结结果并确定记忆内容。这种设置使智能体容易陷入“自我确认陷阱”:错误但自我一致的轨迹被误识别为成功经验,导致在检索和复用过程中产生累积性错误。为解决这一问题,我们提出EDV,一种面向可靠经验学习的执行-提炼-验证框架。在执行阶段,多个异构智能体并行探索同一任务空间,生成多样化的候选轨迹。在提炼阶段,一个专门的第三方智能体通过比较分析这些轨迹,生成候选经验,减少以执行者为中心的总结偏差。在验证阶段,执行组通过共识机制验证候选经验,仅将批准的经验写入共享或私有记忆。通过解耦三个阶段,EDV将经验学习从孤立的自我反思转变为协作构建,在记忆插入前过滤错误和噪声内容。我们在三个具有挑战性的长周期基准测试上评估了EDV:tau2-bench、Mind2Web和MMTB。结果表明,EDV始终优于强基线,验证了可靠经验构建对于智能体鲁棒自我演化的关键性。我们的代码可在 https://github.com/shidingz/EDV 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/24 05:46

论文页面 - 摆脱自我确认陷阱:面向智能体经验学习的执行-蒸馏-验证范式

来源:https://huggingface.co/papers/2606.24428

摘要

EDV是一个三阶段框架,利用多个异构智能体协同构建可靠的LLM智能体经验,通过执行-蒸馏-验证流程防止自我确认错误。

经验驱动的自我进化对大型语言模型(LLM)智能体在开放世界交互中提升能力至关重要。然而,现有的经验学习方法大多依赖单智能体循环——同一智能体执行任务、总结结果并决定记忆内容。这种设置使智能体易陷入“自我确认陷阱”:错误但自洽的轨迹被误判为成功经验,导致检索与复用阶段出现累积性错误。为解决该问题,我们提出EDV,一个可靠的执行-蒸馏-验证经验学习框架。在“执行”阶段,多个异构智能体并行探索同一任务空间,生成多样化候选轨迹。“蒸馏”阶段由一个专用第三方智能体对这些轨迹进行对比分析,产出候选经验,减少以执行者为中心的总结偏差。“验证”阶段由执行组通过共识机制校验候选经验,仅将通过验证的经验写入共享或私有记忆。通过解耦三个阶段,EDV将经验学习从孤立的自省转变为协作构建,在记忆插入前过滤错误和噪声内容。我们在三个具有挑战性的长时域基准(tau2-bench、Mind2Web和MMTB)上评估EDV,结果显示EDV持续超越强基线,验证了可靠经验构建对智能体稳健自我进化的关键性。我们的代码已开源:https://github.com/shidingz/EDV。

查看arXiv页面(https://arxiv.org/abs/2606.24428)查看PDF(https://arxiv.org/pdf/2606.24428)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.24428)

在你的智能体中获取这篇论文:

hf papers read 2606.24428

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.24428以在此页面建立链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.24428以在此页面建立链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.24428以在此页面建立链接。

包含此论文的收藏集0

没有收藏集包含此论文

将这篇论文添加到一个收藏集(https://huggingface.co/new-collection)以在此页面建立链接。

相似文章

重新思考自进化大语言模型智能体的持续经验内化

arXiv cs.CL

本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。

AgentV-RL:用智能体验证器扩展奖励建模

arXiv cs.CL

AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。

EVE-Agent: 可验证证据的自我进化智能体

arXiv cs.AI

EVE-Agent 提出了一个自我进化搜索智能体框架,通过生成问题、答案和证据片段,并基于证据的边际准确性增益进行训练,确保证据可验证性。这提高了基于依据的正确性,且无需人工标注。

论经验驱动自演化智能体的安全风险

arXiv cs.CL

# 论经验驱动自演化智能体的安全风险 来源:[https://arxiv.org/html/2604.16968](https://arxiv.org/html/2604.16968) Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3, Yongbo Huang3, Hao He3, Wanxiang Che1, Bing Qin1, Ting Liu1 1哈尔滨工业大学, 2新加坡管理大学, 3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir\.hit\.edu\.cn ###### 摘要 经验驱动型自演化已成为一项极具前景的范式

重新思考自我进化语言模型智能体中的经验利用

arXiv cs.CL

本文介绍了 ExpWeaver 框架,该框架优化了自我进化语言模型智能体在运行时决策过程中如何利用过往经验。研究表明,基于推理不确定性选择性调用经验,能在多种环境和模型中提升性能。