闭环反馈:从经验提取到洞察治理的言语强化学习

arXiv cs.AI 论文

摘要

本文识别了在非平稳环境中运行的 LLM 智能体在言语强化学习中面临的保留-遗忘困境,并提出了一种带有反馈驱动策展循环的三层架构,以管理洞察的提取和应用。

arXiv:2606.17591v1 公告类型:新提交 摘要:免训练言语强化学习使 LLM 智能体能够从世界反馈(如动态任务结果、市场回报或需求预测等客观信号)中学习——通过从经验中提取言语规则并将其作为上下文注入,从而在不改变参数的情况下更新智能体的行为。然而,在非平稳环境中,这些智能体面临保留-遗忘困境:保留过时的洞察会导致负迁移,而丢弃它们则会在条件重复出现时引发灾难性遗忘。我们识别出应对这一困境的四个要求——结果驱动评估、持久结构化证据、非单调知识生命周期以及组合治理——并表明现有方法在经验提取上投入过多,而在洞察治理上投入不足。我们提出一种三层架构——规则、证据和技能——通过一个反馈驱动的策展循环连接,从而弥合治理差距。规则从世界结果中捕获蒸馏后的经验;证据日志跟踪每个规则在不同回合中的可靠性;技能管理哪些规则应被应用、如何解决冲突以及何时放弃。以金融预测为案例研究,其中世界反馈自然丰富、嘈杂且非平稳,我们展示了相同的累积经验要么使性能低于零样本基线,要么显著提高准确性和风险调整后的回报,这取决于策展循环是否存在。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:37

# 从经验提取到洞察治理:语言强化学习中的知识管理
来源:https://arxiv.org/html/2606.17591
Xing ZhangYulong ZhangLi ShaoXiaofeng ShiGuanghui WangPeiyang He

###### 摘要

免训练语言强化学习使LLM智能体能够从世界反馈中学习——即动态任务结果、市场回报或需求预测等客观信号——通过从经验中提取语言规则并将其注入上下文,从而在不改变参数的情况下更新智能体行为。然而,在非平稳环境中,这些智能体面临一个“保持-遗忘”困境:保留过时见解会导致负迁移,而丢弃它们则会在条件重现时造成灾难性遗忘。我们识别出应对这一困境的四个必要条件——结果驱动评估、持久结构化证据、非单调知识生命周期和组合式治理——并指出现有方法在经验提取上投入过多,而在洞察治理上投入不足。我们提出一个三层架构——规则、证据和技能——通过反馈驱动的策展循环连接,弥补治理缺口。规则从世界结果中捕获精炼经验;证据日志跟踪每条规则在各回合间的可靠性;技能管理应用哪些规则、如何解决冲突以及何时弃权。以金融预测作为案例研究,世界反馈在自然环境中丰富、嘈杂且非平稳,我们展示了相同的积累经验要么降低性能至零样本基线以下,要么显著提升准确率和风险调整后收益,这完全取决于是否存在策展循环。

LLM Agents, World Feedback, Knowledge Governance, Verbal Reinforcement Learning, Agent Memory

## 1 引言

LLM智能体越来越多地运行在*世界反馈*——来自真实世界交互的客观信号,如动态任务结果、市场回报或需求预测——在智能体行动之后到达的领域。越来越多的研究将这种世界反馈视为第一类学习信号,使智能体能够通过从经验中提取语言规则并将其注入上下文来改进,而无需梯度更新(Shinn et al., 2023 (https://arxiv.org/html/2606.17591#bib.bib1);Zhao et al., 2023 (https://arxiv.org/html/2606.17591#bib.bib2);Cai and others, 2025 (https://arxiv.org/html/2606.17591#bib.bib3);Allard et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib4))。这一范式——*从世界反馈中进行语言强化学习*——更新智能体的上下文而非参数,提供了一种可解释且模块化的微调替代方案。

但一个根本问题尚未被充分探索:**在非平稳环境中,积累的经验可能有害无益。** 在一种机制下有效的规则可能在条件变化时失效——而大多数真实世界的反馈环境都是非平稳的。一个存储所有信息的智能体会被矛盾上下文淹没;一个丢弃失败经验的智能体在条件重现时会遗忘曾经学到的教训。我们称此为“保持-遗忘困境”,并认为这是从非平稳世界反馈中学习的智能体的核心设计挑战。

我们识别出一个学习系统必须满足的四个必要条件来应对这一困境(第2.2节 (https://arxiv.org/html/2606.17591#S2.SS2)):结果驱动评估(R1)、持久结构化证据(R2)、非单调知识生命周期(R3)和组合式治理(R4)。审视最近的免训练方法(第2.3节 (https://arxiv.org/html/2606.17591#S2.SS3)),我们发现虽然个别需求正被逐步解决,但没有一种现有方法满足全部四个条件。这一发现与SkillsBench(Li et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib7))的并发经验证据一致,该研究表明对于静态程序知识包,策展技能显著提升智能体性能,而自生成技能则不能——从而将技能策确定位为影响结果的设计轴线。

我们提出通过一个三层架构来闭合循环(第3节 (https://arxiv.org/html/2606.17591#S3)):*规则*捕获精炼经验,*证据*日志跟踪每条规则在各回合间的可靠性,*技能*管理应用哪些规则、如何解决冲突以及何时弃权。三个策展角色——评论家、提议者和策展人——通过一个反馈驱动循环连接这些层,世界结果驱动知识生命周期决策。每一层都由其下层的失败模式驱动:仅有规则不能让智能体知道信任哪些;仅有每规则的证据无法处理组合问题;只有操作于证据之上的技能才能提供原则性治理。

我们在金融预测上进行验证(第4节 (https://arxiv.org/html/2606.17591#S4)),其中世界反馈自然丰富、客观、嘈杂、延迟且非平稳。结果展示了显著模式:相同的积累经验要么降低性能,要么显著提升性能,完全取决于满足了哪些需求。

我们的贡献是:(1)将“保持-遗忘困境”作为从非平稳世界反馈中进行语言RL的核心挑战框架;(2)四个需求(R1–R4)刻画了现有方法中经验提取与洞察治理之间的差距;(3)一个带有反馈驱动策展循环的三层架构,旨在弥合这一差距;(4)经验证据表明——是治理,而非积累经验的数量——决定了智能体是提升还是降低性能。

## 2 问题:从世界反馈中学习

### 2.1 保持-遗忘困境

当智能体在非平稳环境中从世界反馈积累经验时,它面临一个根本性张力:

- •**保留所有信息** → 智能体的上下文充满陈旧和矛盾的规则。错误规则在错误时间触发,产生自信但错误的输出。性能降至零样本以下——经验反而有害。
- •**丢弃失败内容** → 当条件重现时(在非平稳环境中,条件确实会重现),智能体没有之前有效方案的记忆。它从头重新学习,付出相同代价。

这一困境出现在任何世界反馈非平稳的场景:金融市场表现出制度转换,机器人控制环境因磨损和扰动而变化,需求模式随季节和政策变化漂移。问题不在于积累的经验是否会最终变得陈旧,而在于当它变得陈旧时智能体如何管理它。

### 2.2 有效学习的必要条件

我们识别出任何系统必须满足的四个必要条件,以应对保持-遗忘困境:

#### R1. 结果驱动评估。

系统必须基于观察到的结果系统地评估存储的知识是否真的有帮助——不仅仅是任务是否成功,而是**知识如何影响**智能体的推理。没有这一点,智能体无法区分有用知识和噪音。SkillsBench(Li et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib7))报告策展技能显著提升智能体性能,而自生成技能则不能,这表明程序知识的审查对静态技能包很重要。我们的R1问的是互补的动态设置问题:如何随着世界结果的到来持续审查规则。

#### R2. 持久结构化证据。

评估信号必须跨回合积累,并保持与它们所涉及的具体知识的关联。单一回合噪声太大,无法得出结论;跨回合证据才能区分信号和噪声。当知识被修改或淘汰时,证据线索必须保留——否则系统将失去未来决策的基础。Hindsight(Latimer et al., 2025 (https://arxiv.org/html/2606.17591#bib.bib8))通过其观点网络展示了跟踪信念强度的价值,其中置信度分数随新证据到来而演化。然而,标量置信度分数丢弃了结构化证据线索:当一个信念的置信度从0.85下降到0.55时,系统没有保留关于**哪些事实**导致了变化或在**什么条件下**的记录。

#### R3. 非单调知识生命周期。

系统必须能够添加和停用知识。关键的是,停用不应意味着删除——废弃的知识及其证据应被保留,这样系统才不会忘记它学到的东西。这解决了困境:停用的规则不会导致负迁移,但它们的证据防止了灾难性遗忘。AGM信念修正框架(Alchourrón et al., 1985 (https://arxiv.org/html/2606.17591#bib.bib11))形式化了这为什么重要:相关性假设(最小变化)和核心保留(无不当删除)提供了数学保证,确保知识移除保留最大信息。最近的系统如Kumiho(Park, 2026 (https://arxiv.org/html/2606.17591#bib.bib10))证明了这些形式保证对于智能体记忆图在操作上是可行的。

#### R4. 组合式治理。

个体规则之间相互影响:它们可能冲突、加强或仅在特定条件下适用。系统需要一个更高阶的机制——我们称之为*技能*——来管理应用哪些规则、如何解决冲突以及何时弃权。没有这一点,智能体将受制于恰好最匹配的规则。SkillsBench(Li et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib7))报告全面技能集可能降低智能体性能,而聚焦技能集则提升性能,并明确将技能组合识别为一个开放问题。

### 2.3 现有方法的差距

在我们审查的免训练语言学习方法中(表1 (https://arxiv.org/html/2606.17591#S2.T1)),个体需求正被逐步满足,但统一解决方案仍然难以捉摸。

表1:免训练语言强化学习方法满足的需求。现有方法在经验提取上投入巨大,但在洞察治理上投入不足。

**反思性积累**(Shinn et al., 2023 (https://arxiv.org/html/2606.17591#bib.bib1);Allard et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib4))在每回合后从错误中提取语言反馈,并将其追加到智能体上下文。反思由任务结果触发(在轨迹级别部分满足R1),但存储的反思从未在后续结果中被进一步评估——所有积累的经验都被保留并平等对待,无论任何特定反思在后续是有帮助还是有害。

**反思性精炼**(Zhao et al., 2023 (https://arxiv.org/html/2606.17591#bib.bib2);Cai and others, 2025 (https://arxiv.org/html/2606.17591#bib.bib3))扩展了反思性积累,添加了重要性评分和原位规则修改。这部分满足R1(存在标量评估信号)和部分满足R3(规则被修改而非仅添加)。然而,原位修改破坏了证据:当一条规则被重写时,所有先前积累的评估信号失效,需要昂贵的重评估来重建置信度。

**轨迹信息提示**(Fang et al., 2025 (https://arxiv.org/html/2606.17591#bib.bib5))引入了轨迹上的自动化因果归因,通过原则性的结果驱动评估满足R1。提示携带结构化来源,并在存储时通过去重、冲突解决和合并进行整合(部分R3);在检索时,LLM引导的选择器根据任务上下文和优先级过滤(部分R4)。然而,存储的提示从未从后续回合积累额外证据,系统合并或覆盖提示而非使其弃用——留下R2未满足,R3仅通过修改处理。

**Meta-MDP经验库**(Cai et al., 2025 (https://arxiv.org/html/2606.17591#bib.bib6))将免训练学习建模为Meta-MDP,具有两级评估——轨迹级别的语义评论家和库级别的真实奖励——清晰满足R1。库分为*golden*(精炼成功)和*warning*(失败教训)区域,明确保留失败知识(部分R3);但区域分配在输入时固定,缺少证据驱动的降级。R2未满足:更新器将语义相似的条目合并为一条记录,抹去了哪些源轨迹贡献了以及什么条件下。检索是三级层次top-k(部分R4),没有冲突解决或弃权。

互补的基准证据强化了治理差距是真实的。SkillsBench(Li et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib7))是一个静态评估——技能在每个任务中一次性注入,没有跨回合反馈,因此它本身不是一种语言RL方法——但它发现*策展*技能包带来+16.2个百分点的通过率提升,而*自生成*技能平均给出-1.3个百分点,并且聚焦技能优于全面技能。第一个结果表明策展质量而非技能数量驱动提升;第二个结果表明技能组合是一个真实的设计轴线。两者都推动了R1(质量检查)和R4(组合),并且SkillsBench明确将生命周期和组合治理识别为开放问题。

现有语言RL方法的关键模式:它们在**提取**上投入巨大——如何从经验中产生好规则——但在**治理**上投入不足——如何管理已存在的规则。R1(评估)是最发达的,从基于邻近性的信用分配到确定性验证。但R2(持久证据)、R3(非单调生命周期)和R4(组合式治理)仍然大部分未被满足。

### 2.4 高级智能体记忆系统

并行的工作线开发了任何学习智能体所需的内存基础设施来存储、检索和更新知识。这些系统提供了我们的架构所假定的存储和检索原语;我们的贡献是位于顶部的反馈驱动策展循环。

**Hindsight**(Latimer et al., 2025 (https://arxiv.org/html/2606.17591#bib.bib8))是最相关的架构:四个知识网络(世界、经验、观点、观察)具有三个操作——*retain, recall, reflect*——以及一个持有进化置信度分数的观点网络。这一范式为内存管理提供了正确的结构,但*reflect*通过事实一致性而非结果驱动评估来更新信念,并且标量置信度丢弃了结构化证据线索——当分数下降时,系统无法重建原因。

**IMPACT-CYCLE**(Kong et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib9))展示了在多智能体监督系统用于长视频语义记忆时,来源日志和依赖闭包校正如何维持持久证据(R2)与局部非单调更新(R3)。每个声明带有一个依赖图,校正仅传播给结构上依赖的声明。然而,IMPACT-CYCLE在单会话内校正事实声明,而非跨回合管理预测性规则。

在形式层面,AGM信念修正框架(Alchourrón et al., 1985 (https://arxiv.org/html/2606.17591#bib.bib11))为知识生命周期提供了数学保证。相关性假设确保在修正期间最小变化;核心保留防止不适当删除。最近的系统如Kumiho(Park, 2026 (https://arxiv.org/html/2606.17591#bib.bib10))

相似文章

重新思考自进化大语言模型智能体的持续经验内化

arXiv cs.CL

本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。

当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化

arXiv cs.LG

本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。