闭环反馈：从经验提取到洞察治理的言语强化学习

arXiv cs.AI 2026/06/17 04:00 论文

摘要

本文识别了在非平稳环境中运行的 LLM 智能体在言语强化学习中面临的保留-遗忘困境，并提出了一种带有反馈驱动策展循环的三层架构，以管理洞察的提取和应用。

arXiv:2606.17591v1 公告类型：新提交摘要：免训练言语强化学习使 LLM 智能体能够从世界反馈（如动态任务结果、市场回报或需求预测等客观信号）中学习——通过从经验中提取言语规则并将其作为上下文注入，从而在不改变参数的情况下更新智能体的行为。然而，在非平稳环境中，这些智能体面临保留-遗忘困境：保留过时的洞察会导致负迁移，而丢弃它们则会在条件重复出现时引发灾难性遗忘。我们识别出应对这一困境的四个要求——结果驱动评估、持久结构化证据、非单调知识生命周期以及组合治理——并表明现有方法在经验提取上投入过多，而在洞察治理上投入不足。我们提出一种三层架构——规则、证据和技能——通过一个反馈驱动的策展循环连接，从而弥合治理差距。规则从世界结果中捕获蒸馏后的经验；证据日志跟踪每个规则在不同回合中的可靠性；技能管理哪些规则应被应用、如何解决冲突以及何时放弃。以金融预测为案例研究，其中世界反馈自然丰富、嘈杂且非平稳，我们展示了相同的累积经验要么使性能低于零样本基线，要么显著提高准确性和风险调整后的回报，这取决于策展循环是否存在。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:37

# 从经验提取到洞察治理：语言强化学习中的知识管理
来源：https://arxiv.org/html/2606.17591
Xing ZhangYulong ZhangLi ShaoXiaofeng ShiGuanghui WangPeiyang He

###### 摘要

免训练语言强化学习使LLM智能体能够从世界反馈中学习——即动态任务结果、市场回报或需求预测等客观信号——通过从经验中提取语言规则并将其注入上下文，从而在不改变参数的情况下更新智能体行为。然而，在非平稳环境中，这些智能体面临一个“保持-遗忘”困境：保留过时见解会导致负迁移，而丢弃它们则会在条件重现时造成灾难性遗忘。我们识别出应对这一困境的四个必要条件——结果驱动评估、持久结构化证据、非单调知识生命周期和组合式治理——并指出现有方法在经验提取上投入过多，而在洞察治理上投入不足。我们提出一个三层架构——规则、证据和技能——通过反馈驱动的策展循环连接，弥补治理缺口。规则从世界结果中捕获精炼经验；证据日志跟踪每条规则在各回合间的可靠性；技能管理应用哪些规则、如何解决冲突以及何时弃权。以金融预测作为案例研究，世界反馈在自然环境中丰富、嘈杂且非平稳，我们展示了相同的积累经验要么降低性能至零样本基线以下，要么显著提升准确率和风险调整后收益，这完全取决于是否存在策展循环。

LLM Agents, World Feedback, Knowledge Governance, Verbal Reinforcement Learning, Agent Memory

## 1 引言

LLM智能体越来越多地运行在*世界反馈*——来自真实世界交互的客观信号，如动态任务结果、市场回报或需求预测——在智能体行动之后到达的领域。越来越多的研究将这种世界反馈视为第一类学习信号，使智能体能够通过从经验中提取语言规则并将其注入上下文来改进，而无需梯度更新（Shinn et al., 2023 (https://arxiv.org/html/2606.17591#bib.bib1)；Zhao et al., 2023 (https://arxiv.org/html/2606.17591#bib.bib2)；Cai and others, 2025 (https://arxiv.org/html/2606.17591#bib.bib3)；Allard et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib4)）。这一范式——*从世界反馈中进行语言强化学习*——更新智能体的上下文而非参数，提供了一种可解释且模块化的微调替代方案。

但一个根本问题尚未被充分探索：**在非平稳环境中，积累的经验可能有害无益。** 在一种机制下有效的规则可能在条件变化时失效——而大多数真实世界的反馈环境都是非平稳的。一个存储所有信息的智能体会被矛盾上下文淹没；一个丢弃失败经验的智能体在条件重现时会遗忘曾经学到的教训。我们称此为“保持-遗忘困境”，并认为这是从非平稳世界反馈中学习的智能体的核心设计挑战。

我们识别出一个学习系统必须满足的四个必要条件来应对这一困境（第2.2节 (https://arxiv.org/html/2606.17591#S2.SS2)）：结果驱动评估（R1）、持久结构化证据（R2）、非单调知识生命周期（R3）和组合式治理（R4）。审视最近的免训练方法（第2.3节 (https://arxiv.org/html/2606.17591#S2.SS3)），我们发现虽然个别需求正被逐步解决，但没有一种现有方法满足全部四个条件。这一发现与SkillsBench（Li et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib7)）的并发经验证据一致，该研究表明对于静态程序知识包，策展技能显著提升智能体性能，而自生成技能则不能——从而将技能策确定位为影响结果的设计轴线。

我们提出通过一个三层架构来闭合循环（第3节 (https://arxiv.org/html/2606.17591#S3)）：*规则*捕获精炼经验，*证据*日志跟踪每条规则在各回合间的可靠性，*技能*管理应用哪些规则、如何解决冲突以及何时弃权。三个策展角色——评论家、提议者和策展人——通过一个反馈驱动循环连接这些层，世界结果驱动知识生命周期决策。每一层都由其下层的失败模式驱动：仅有规则不能让智能体知道信任哪些；仅有每规则的证据无法处理组合问题；只有操作于证据之上的技能才能提供原则性治理。

我们在金融预测上进行验证（第4节 (https://arxiv.org/html/2606.17591#S4)），其中世界反馈自然丰富、客观、嘈杂、延迟且非平稳。结果展示了显著模式：相同的积累经验要么降低性能，要么显著提升性能，完全取决于满足了哪些需求。

我们的贡献是：（1）将“保持-遗忘困境”作为从非平稳世界反馈中进行语言RL的核心挑战框架；（2）四个需求（R1–R4）刻画了现有方法中经验提取与洞察治理之间的差距；（3）一个带有反馈驱动策展循环的三层架构，旨在弥合这一差距；（4）经验证据表明——是治理，而非积累经验的数量——决定了智能体是提升还是降低性能。

## 2 问题：从世界反馈中学习

### 2.1 保持-遗忘困境

当智能体在非平稳环境中从世界反馈积累经验时，它面临一个根本性张力：

- •**保留所有信息** → 智能体的上下文充满陈旧和矛盾的规则。错误规则在错误时间触发，产生自信但错误的输出。性能降至零样本以下——经验反而有害。
- •**丢弃失败内容** → 当条件重现时（在非平稳环境中，条件确实会重现），智能体没有之前有效方案的记忆。它从头重新学习，付出相同代价。

这一困境出现在任何世界反馈非平稳的场景：金融市场表现出制度转换，机器人控制环境因磨损和扰动而变化，需求模式随季节和政策变化漂移。问题不在于积累的经验是否会最终变得陈旧，而在于当它变得陈旧时智能体如何管理它。

### 2.2 有效学习的必要条件

我们识别出任何系统必须满足的四个必要条件，以应对保持-遗忘困境：

#### R1. 结果驱动评估。

系统必须基于观察到的结果系统地评估存储的知识是否真的有帮助——不仅仅是任务是否成功，而是**知识如何影响**智能体的推理。没有这一点，智能体无法区分有用知识和噪音。SkillsBench（Li et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib7)）报告策展技能显著提升智能体性能，而自生成技能则不能，这表明程序知识的审查对静态技能包很重要。我们的R1问的是互补的动态设置问题：如何随着世界结果的到来持续审查规则。

#### R2. 持久结构化证据。

评估信号必须跨回合积累，并保持与它们所涉及的具体知识的关联。单一回合噪声太大，无法得出结论；跨回合证据才能区分信号和噪声。当知识被修改或淘汰时，证据线索必须保留——否则系统将失去未来决策的基础。Hindsight（Latimer et al., 2025 (https://arxiv.org/html/2606.17591#bib.bib8)）通过其观点网络展示了跟踪信念强度的价值，其中置信度分数随新证据到来而演化。然而，标量置信度分数丢弃了结构化证据线索：当一个信念的置信度从0.85下降到0.55时，系统没有保留关于**哪些事实**导致了变化或在**什么条件下**的记录。

#### R3. 非单调知识生命周期。

系统必须能够添加和停用知识。关键的是，停用不应意味着删除——废弃的知识及其证据应被保留，这样系统才不会忘记它学到的东西。这解决了困境：停用的规则不会导致负迁移，但它们的证据防止了灾难性遗忘。AGM信念修正框架（Alchourrón et al., 1985 (https://arxiv.org/html/2606.17591#bib.bib11)）形式化了这为什么重要：相关性假设（最小变化）和核心保留（无不当删除）提供了数学保证，确保知识移除保留最大信息。最近的系统如Kumiho（Park, 2026 (https://arxiv.org/html/2606.17591#bib.bib10)）证明了这些形式保证对于智能体记忆图在操作上是可行的。

#### R4. 组合式治理。

个体规则之间相互影响：它们可能冲突、加强或仅在特定条件下适用。系统需要一个更高阶的机制——我们称之为*技能*——来管理应用哪些规则、如何解决冲突以及何时弃权。没有这一点，智能体将受制于恰好最匹配的规则。SkillsBench（Li et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib7)）报告全面技能集可能降低智能体性能，而聚焦技能集则提升性能，并明确将技能组合识别为一个开放问题。

### 2.3 现有方法的差距

在我们审查的免训练语言学习方法中（表1 (https://arxiv.org/html/2606.17591#S2.T1)），个体需求正被逐步满足，但统一解决方案仍然难以捉摸。

表1：免训练语言强化学习方法满足的需求。现有方法在经验提取上投入巨大，但在洞察治理上投入不足。

**反思性积累**（Shinn et al., 2023 (https://arxiv.org/html/2606.17591#bib.bib1)；Allard et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib4)）在每回合后从错误中提取语言反馈，并将其追加到智能体上下文。反思由任务结果触发（在轨迹级别部分满足R1），但存储的反思从未在后续结果中被进一步评估——所有积累的经验都被保留并平等对待，无论任何特定反思在后续是有帮助还是有害。

**反思性精炼**（Zhao et al., 2023 (https://arxiv.org/html/2606.17591#bib.bib2)；Cai and others, 2025 (https://arxiv.org/html/2606.17591#bib.bib3)）扩展了反思性积累，添加了重要性评分和原位规则修改。这部分满足R1（存在标量评估信号）和部分满足R3（规则被修改而非仅添加）。然而，原位修改破坏了证据：当一条规则被重写时，所有先前积累的评估信号失效，需要昂贵的重评估来重建置信度。

**轨迹信息提示**（Fang et al., 2025 (https://arxiv.org/html/2606.17591#bib.bib5)）引入了轨迹上的自动化因果归因，通过原则性的结果驱动评估满足R1。提示携带结构化来源，并在存储时通过去重、冲突解决和合并进行整合（部分R3）；在检索时，LLM引导的选择器根据任务上下文和优先级过滤（部分R4）。然而，存储的提示从未从后续回合积累额外证据，系统合并或覆盖提示而非使其弃用——留下R2未满足，R3仅通过修改处理。

**Meta-MDP经验库**（Cai et al., 2025 (https://arxiv.org/html/2606.17591#bib.bib6)）将免训练学习建模为Meta-MDP，具有两级评估——轨迹级别的语义评论家和库级别的真实奖励——清晰满足R1。库分为*golden*（精炼成功）和*warning*（失败教训）区域，明确保留失败知识（部分R3）；但区域分配在输入时固定，缺少证据驱动的降级。R2未满足：更新器将语义相似的条目合并为一条记录，抹去了哪些源轨迹贡献了以及什么条件下。检索是三级层次top-k（部分R4），没有冲突解决或弃权。

互补的基准证据强化了治理差距是真实的。SkillsBench（Li et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib7)）是一个静态评估——技能在每个任务中一次性注入，没有跨回合反馈，因此它本身不是一种语言RL方法——但它发现*策展*技能包带来+16.2个百分点的通过率提升，而*自生成*技能平均给出-1.3个百分点，并且聚焦技能优于全面技能。第一个结果表明策展质量而非技能数量驱动提升；第二个结果表明技能组合是一个真实的设计轴线。两者都推动了R1（质量检查）和R4（组合），并且SkillsBench明确将生命周期和组合治理识别为开放问题。

现有语言RL方法的关键模式：它们在**提取**上投入巨大——如何从经验中产生好规则——但在**治理**上投入不足——如何管理已存在的规则。R1（评估）是最发达的，从基于邻近性的信用分配到确定性验证。但R2（持久证据）、R3（非单调生命周期）和R4（组合式治理）仍然大部分未被满足。

### 2.4 高级智能体记忆系统

并行的工作线开发了任何学习智能体所需的内存基础设施来存储、检索和更新知识。这些系统提供了我们的架构所假定的存储和检索原语；我们的贡献是位于顶部的反馈驱动策展循环。

**Hindsight**（Latimer et al., 2025 (https://arxiv.org/html/2606.17591#bib.bib8)）是最相关的架构：四个知识网络（世界、经验、观点、观察）具有三个操作——*retain, recall, reflect*——以及一个持有进化置信度分数的观点网络。这一范式为内存管理提供了正确的结构，但*reflect*通过事实一致性而非结果驱动评估来更新信念，并且标量置信度丢弃了结构化证据线索——当分数下降时，系统无法重建原因。

**IMPACT-CYCLE**（Kong et al., 2026 (https://arxiv.org/html/2606.17591#bib.bib9)）展示了在多智能体监督系统用于长视频语义记忆时，来源日志和依赖闭包校正如何维持持久证据（R2）与局部非单调更新（R3）。每个声明带有一个依赖图，校正仅传播给结构上依赖的声明。然而，IMPACT-CYCLE在单会话内校正事实声明，而非跨回合管理预测性规则。

在形式层面，AGM信念修正框架（Alchourrón et al., 1985 (https://arxiv.org/html/2606.17591#bib.bib11)）为知识生命周期提供了数学保证。相关性假设确保在修正期间最小变化；核心保留防止不适当删除。最近的系统如Kumiho（Park, 2026 (https://arxiv.org/html/2606.17591#bib.bib10)）

闭环反馈：从经验提取到洞察治理的言语强化学习

相似文章

重新思考自进化大语言模型智能体的持续经验内化

通过反思增强自蒸馏在稀有成功但反馈丰富的场景中学习

当LLM奖励设计失败：稀疏结构化强化学习的诊断驱动细化

学习细化隐藏状态以实现可靠的LLM推理

何时蒸馏与蒸馏什么：面向多轮智能体的选择性后见蒸馏

提交意见反馈