面向LLM智能体训练的回顾性进度感知自我精炼
摘要
本文介绍了RePro,一个通过“先执行再反思”的展开范式训练LLM智能体自我生成进度信号的框架,在WebShop、ALFWorld和Sokoban基准测试上实现了高达12%的绝对成功率提升。
查看缓存全文
缓存时间: 2026/06/15 08:58
# 基于回顾性进展感知的LLM智能体自优化训练 来源:https://arxiv.org/html/2606.14302 马新贝1,郑从民1,邱继扬1,洪嘉乐1,姚瑶1,曲项陌2,尹嘉欣2,楼星宇2,†,王俊2,†,刘伟文1,张伟楠1,张茁生1,†,赵海1 1上海交通大学,2OPPO研究院 \{sjtumaxb, zhangzs\}@sjtu\.edu\.cn,zhaohai@cs\.sjtu\.edu\.cn louxingyu@oppo\.com,junwang\.lu@gmail\.com ###### 摘要 基于LLM的智能体通过强化学习优化逐步动作预测,但缺乏对任务进展的元认知意识,这导致了一个阻碍长程扩展的差距。一项初步研究揭示,在线进展提示会损害性能,而回顾性演示则有所帮助,但这种能力无法仅通过结果奖励训练来涌现。我们提出RePro,即回顾性进展感知训练,这是一个通过“先执行后反思”的推演范式来训练智能体自我生成进展信号的框架:智能体在线执行动作,然后在观察到完整轨迹和已知结果后,回顾性地重新评估其逐步进展。RePro首先进行回顾预热阶段,用最少的外部演示教会智能体反思格式,然后通过RePro-PO进行进一步训练,使用复合奖励产生自我生成的信号,无需持续的外部监督。在WebShop、ALFWorld和Sokoban上的实验表明,RePro提升了Qwen系列的性能,绝对成功率提升高达12%。# 基于回顾性进展感知的LLM智能体自优化训练 马新贝1††感谢:在OPPO实习期间完成的工作。,郑从民1,邱继扬1,洪嘉乐1,姚瑶1,曲项陌2,尹嘉欣2,楼星宇2,†,王俊2,†,刘伟文1,张伟楠1,张茁生1,†,赵海1††感谢:通讯作者。1上海交通大学,2OPPO研究院 \{sjtumaxb, zhangzs\}@sjtu\.edu\.cn,zhaohai@cs\.sjtu\.edu\.cn louxingyu@oppo\.com,junwang\.lu@gmail\.com, ## 1 引言 基于LLM的智能体在长程任务中的能力显著扩展,应对跨领域的复杂真实世界交互,例如计算机导航 (Yao et al., 2022 (https://arxiv.org/html/2606.14302#bib.bib46); Xie et al., 2024 (https://arxiv.org/html/2606.14302#bib.bib54); Liu et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib50))、具身规划 (Shridhar et al., 2020 (https://arxiv.org/html/2606.14302#bib.bib47); Zhang et al., 2025c (https://arxiv.org/html/2606.14302#bib.bib51); Wang et al., 2026b (https://arxiv.org/html/2606.14302#bib.bib52)),以及游戏和日常任务 (Merrill et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib48); Ye et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib53))。基于强化学习的方法使智能体能够探索解决方案并优化其动作以获取可验证的奖励,从而带来显著的性能提升 (DeepSeek, 2024 (https://arxiv.org/html/2606.14302#bib.bib9); Feng et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib10); Dong et al., 2025b (https://arxiv.org/html/2606.14302#bib.bib11))。一个常见的核心训练目标是优化智能体在每个步骤选择最佳动作。然而,长程任务要求智能体超越单步决策,通过维持对任务进展的元认知意识,即持续感知已完成的内容、剩余的任务以及当前轨迹是否在正轨上 (Lin et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib55); Li et al., 2025b (https://arxiv.org/html/2606.14302#bib.bib56); Han et al., 2025 (https://arxiv.org/html/2606.14302#bib.bib57))。从这个意义上说,进展意识提供了一个辅助信号,可以帮助智能体在多步回合中适当地分配精力。受此启发,我们进行了一项初步研究,以探究进展意识的潜力以及激发它的难度。这种在线提示显著降低了任务成功率,平均下降8.6%,表明强制性的自我评估引入了噪声信号而非有用的指导。相反,当智能体被提供基于已完成轨迹及其结果的*回顾性*进展演示时,平均成功率提高了7.9%。这种改进表明,当进展信息基于可靠的轨迹级证据时,它是有益的。这种不对称性揭示出,进展意识是有益的,但无法仅通过提示可靠地激发,这促使我们开发一种专门的训练方法,从回顾性轨迹结果中学习进展评估。 本文提出RePro(回顾性进展感知训练),这是一个两阶段框架,从回顾性轨迹结果中学习进展意识,并将其用作智能体训练的辅助信号。RePro通过“先执行后反思”的范式增强轨迹:智能体首先*向前执行*任务,同时生成在线进展估计;一旦完成任务并知道结果,智能体便以最终结果为锚点,回顾性地重新评估其逐步进展。基于此,RePro首先应用一个回顾预热阶段:一小部分外部LLM演示教会智能体用于回顾性反思的“先执行后反思”格式。之后,RePro-PO通过复合奖励利用回顾性进展信号,该复合奖励包含回顾性进展塑造、在线-回顾性对齐和格式正则化,产生补充稀疏结果奖励的每步训练信号。 我们在WebShop、ALFWorld和Sokoban上使用不同规模的LLM评估了RePro。在WebShop上,与基线训练相比,RePro在不同模型规模下将绝对任务成功率分别提高了+8.98%、+11.57%和+5.82%。它在ALFWorld和Sokoban上也取得了一致的增益,并优于所有消融变体。进展质量分析进一步表明,RePro智能体发展了元认知意识:它们的进展估计在区分成功和失败轨迹方面显著优于基线。 我们的贡献总结为三点: 1. 初步研究:我们揭示了在线进展提示与回顾性演示之间的明显不对称性,表明进展意识需要专门的训练。 2. RePro:我们提出了一个“先执行后反思”框架,结合回顾预热和RePro-PO,使智能体能够学习自我生成的进展元认知。 3. 实验验证:RePro在三个基准和三个模型规模上取得了持续的性能提升,并得到了进展质量分析的支持。 ## 2 相关工作 ### 2.1 LLM智能体训练 基于LLM的智能体训练长期以来一直从强化学习中汲取灵感,研究表明,通过重用过去的交互轨迹作为训练信号可以改善智能体行为 (Xiong et al., 2024 (https://arxiv.org/html/2606.14302#bib.bib60); Song et al., 2024 (https://arxiv.org/html/2606.14302#bib.bib59); Cao et al., 2025 (https://arxiv.org/html/2606.14302#bib.bib58))。作为一种主流的后训练方法,最近的无评论家策略优化方法通过从推演组、轨迹级比较或改进的采样策略中估计优势来提升效率 (Guo et al., 2025 (https://arxiv.org/html/2606.14302#bib.bib8); DeepSeek, 2024 (https://arxiv.org/html/2606.14302#bib.bib9); Feng et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib10); Dong et al., 2025b (https://arxiv.org/html/2606.14302#bib.bib11), a (https://arxiv.org/html/2606.14302#bib.bib12); Zheng et al., 2025 (https://arxiv.org/html/2606.14302#bib.bib13)),并已应用于工具使用和多环境智能体训练 (Qian et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib15); Wang et al., 2025 (https://arxiv.org/html/2606.14302#bib.bib16); Xie et al., 2026a (https://arxiv.org/html/2606.14302#bib.bib17))。 奖励设计在长程智能体强化学习中仍然是一个核心挑战。基于结果的方法受限于稀疏的终端反馈 (Guo et al., 2025 (https://arxiv.org/html/2606.14302#bib.bib8); DeepSeek, 2024 (https://arxiv.org/html/2606.14302#bib.bib9));基于过程的方法引入了中间奖励模型或子目标 (Lightman et al., 2024 (https://arxiv.org/html/2606.14302#bib.bib19); Zou et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib20); Xie et al., 2026b (https://arxiv.org/html/2606.14302#bib.bib18); Zheng et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib21); Wang et al., 2026c (https://arxiv.org/html/2606.14302#bib.bib22)),但需要昂贵的标注或特定于环境的设 计;而源自状态变化的逐步奖励则依赖于环境特定的信号 (Lu et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib23))。基于进展的方法通过建模任务完成进度来解决这个问题,无论是通过启发式估计还是更强LLM的监督 (Zhang et al., 2025a (https://arxiv.org/html/2606.14302#bib.bib25), 2026b (https://arxiv.org/html/2606.14302#bib.bib24); Chai et al., 2025 (https://arxiv.org/html/2606.14302#bib.bib26))。不同的是,我们的方法使用最少的外部监督,从智能体自身完成的轨迹结果中学习进展意识,将进展估计内化到智能体自身,而无需依赖额外的奖励模型。 ### 2.2 通过反思实现自我改进的LLM 推理时方法无需参数更新即可改善智能体行为,将过去的经验转化为可重用的指导。失败的回合被转换为口头反馈或情景记忆 (Shinn et al., 2023 (https://arxiv.org/html/2606.14302#bib.bib28); Qu et al., 2024 (https://arxiv.org/html/2606.14302#bib.bib27)),而另一些方法则将反思建立在执行状态或演化的上下文剧本中 (Kim et al., 2025 (https://arxiv.org/html/2606.14302#bib.bib29); Guo et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib31); Cai et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib32); Zhang et al., 2025b (https://arxiv.org/html/2606.14302#bib.bib41))。最近的工作进一步将反思扩展到不确定性感知的测试时适应、可重用的经验启发式以及执行前计划批判 (Acikgoz et al., 2025 (https://arxiv.org/html/2606.14302#bib.bib40); Ge et al., 2025 (https://arxiv.org/html/2606.14302#bib.bib38); Allard et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib39); Wang et al., 2026a (https://arxiv.org/html/2606.14302#bib.bib43))。这些方法可以激发基础模型中已经存在的反思行为,但不会直接将新的反思能力训练到智能体中。 训练时方法则旨在通过学习内化反思。它们改善元内省或奖励有用的自我反思令牌 (Li et al., 2025a (https://arxiv.org/html/2606.14302#bib.bib42); Bensal et al., 2025 (https://arxiv.org/html/2606.14302#bib.bib37)),支持分阶段自我修正和一致性驱动训练 (Kumar et al., (https://arxiv.org/html/2606.14302#bib.bib33); Zhang et al., 2026a (https://arxiv.org/html/2606.14302#bib.bib34)),并实现自我进化 (Ou et al., 2026 (https://arxiv.org/html/2606.14302#bib.bib35))。我们的工作遵循这一路线,将自我改进信号内化到智能体自身。然而,与纠正单个动作、推理步骤或计划不同,我们的方法引入了一种回顾性进展感知反思,智能体利用已完成的轨迹结果来回顾性地评估中间步骤的任务级进展。这产生了自我生成的进展目标,训练智能体追踪其在长程任务中的*位置*,而无需依赖额外的奖励模型。 ## 3 初步研究 智能体任务需要多轮交互,LLM智能体需要在一系列动作和观察中保持全局意识。我们研究两个问题:(i) 进展意识能否提高任务成功率?(ii) 智能体能否产生可靠的进展估计?我们在WebShop (Yao et al., 2022 (https://arxiv.org/html/2606.14302#bib.bib46))上使用DeepSeek-V4 (DeepSeek-AI, 2026 (https://arxiv.org/html/2606.14302#bib.bib62))和GPT-5.1作为智能体主干,进行了一项受控诊断实验。 ##### 设置。 基线智能体基于完整的交互历史与环境交互。我们评估了两种进展感知变体。(i) 在线提示:智能体在执行过程中,在每个动作之前被提示口头表达一个数值进展估计(0-100%),但不访问轨迹结果。(ii) 回顾性演示:我们从一个包含100个样本的训练集中收集已完成轨迹,并利用已知的轨迹结果回顾性地注释逐步进展评估。每个演示都包含动作-观察历史以及当前进展。在测试时,我们随机采样三个这样的演示作为上下文示例。在每个步骤中,智能体首先基于这些演示生成自己的进展评估。然后移除演示,智能体使用生成的进展评估预测下一个动作。我们还加入了一种虚拟的随机进展估计,以测试改进是来自有意义的进展信号还是仅仅来自增加的上下文。 参考图注图1: WebShop上的初步研究结果。在线进展提示损害了性能,而回顾性进展演示则提升了性能。 ##### 发现。 图1 (https://arxiv.org/html/2606.14302#S3.F1) 揭示了在线和回顾性进展意识具有相反的效果。在线进展提示持续降低性能(DS-v4: 35.9%→33.6%;GPT-5.1: 44.1%→29.3%;平均-8.6%),随机进展的表现同样糟糕(分别为31.2%和32.4%),这证实了性能下降是由于不可靠的在线预测干扰了决策制定,而非进展格式本身所致。相比之下,回顾性演示在两个模型上都显著提高了成功率(DS-v4: 35.9%→44.1%,+8.2%;GPT-5.1: 44.1%→51.6%,+7.5%;平均+7.9%)。随机演示仅带来微弱的增益(DS-v4: +2.0%;GPT-5.1: +4.3%),这表明改进来自有意义的进展信号,而不仅仅是额外的上下文。这种不对称性——进展信息在事后有信息量,但在在线预测时却有害——表明进展意识无法仅通过提示可靠地激发,并促使开发一种专门的训练方法,从回顾性轨迹结果中学习进展评估。 参考图注图2: RePro(我们的回顾性进展感知训练框架)概览。(A) 在“先执行后反思”过程中,智能体在线执行动作并进行在线进展估计,然后在观察到最终结果后回顾性地重新评估逐步进展。(B) 回顾预热使用演示初始化回顾性反思行为。(C) 策略更新通过进展塑造、在线-回顾性对齐和格式正则化奖励将回顾性进展整合到强化学习中,从而实现长程智能体训练。 ## 4 回顾性进展感知训练 初步研究表明,进展意识能改善任务完成情况,但在执行过程中无法可靠地生成。为了解决这个问题,我们提出了RePro(回顾性进展感知训练),这是一个两阶段框架,首先通过监督预热学习回顾性自我评估,然后通过带任务结果反馈的强化学习进行细化。RePro包含一个回顾预热阶段(§4.3 (https://arxiv.org/html/2606.14302#S4.SS3))和一个进展感知策略优化相似文章
回溯式工具链优化:通过轨迹回滚上的自我偏好改进LLM智能体
回溯式工具链优化(RHO)是一种自监督方法,仅利用历史轨迹即可提升LLM智能体性能,在SWE-Bench Pro上实现78%的通过率,无需外部评分。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
从受训者到训练者:LLM为多智能体推理强化学习设计的训练环境
本文介绍了LLM-as-Environment-Engineer框架,该框架使LLM能够为多智能体推理任务中的强化学习设计自己的训练环境,实现自我改进训练,其性能超越更大的专有模型。
通过反思增强自蒸馏在稀有成功但反馈丰富的场景中学习
本文介绍了反思增强自蒸馏(RESD)框架,该框架将失败反馈转化为对LLM的纠正性监督,从而实现从稀有成功中高效学习。该框架优于标准自蒸馏基线,并且相比GRPO,使用更少的样本实现了更快的早期改进。
重新思考自进化大语言模型智能体的持续经验内化
本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。