面向长程语言智能体可验证强化学习的策略条件化反事实信用

arXiv cs.LG 2026/06/05 04:00 论文

摘要

提出了CVT-RL，一种带有策略条件化反事实贡献估计和可验证奖励的约束策略梯度算法，提高了长程语言智能体的可靠性并减少了奖励篡改。

arXiv:2606.05263v1 公告类型：新摘要：具有可验证奖励的强化学习改善推理和工具使用，但长程语言智能体仍会学习到未经支持的证据链、信念漂移以及满足终端检查的捷径行为。现有过程奖励大多具有相关性：它们奖励检索、反思或验证步骤，而未估计在特定干预下该步骤是否有助于最终验证成功。我们提出CVT-RL，一种带有密集可验证奖励、干预有效性门控和策略条件化反事实贡献（PCCC）估计器的约束策略梯度算法。删除、语义替换、证据替换和工具输出扰动定义了独立的受控干预；从冻结参考策略中采样续接，并使用选择调整的双重稳健估计器增强优势。信念控制仅使用前缀可观测标签，而增广拉格朗日方法约束未经支持的声明、跳过验证、工具篡改和不安全调用。在长上下文问答、ALFWorld、ScienceWorld以及Web/工具任务上，CVT-RL将平均任务成功率从计算匹配的非因果强化学习的71.8%和信息匹配的反事实过程基线的75.4%提升至78.9%，证据F1值从信息匹配基线的78.9提升至82.8，并将测量到的篡改从7.2%降低至3.9%。独立人类审计估计CVT-RL的篡改率为4.6%，而信息匹配基线为8.1%，自适应探测器规避攻击仅将篡改率提升至7.1%。分层bootstrap和混合效应检验在Holm校正后所有主要指标的p<0.01。精心设计的反事实信用与有效性门控、诊断和可验证约束相结合，为语言智能体更可靠的长程强化学习提供了可复现的路径。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:09

# 基于策略条件的反事实信用机制：面向长周期语言智能体的可验证强化学习
来源：https://arxiv.org/html/2606.05263

###### 摘要

基于可验证奖励的强化学习虽然提升了推理和工具使用能力，但长周期语言智能体仍会学习到无证据支持的信息链、信念漂移以及仅满足终端检查的捷径行为。现有的过程奖励大多属于相关性范畴：它们奖励类似检索、反思或验证的步骤，但并未估计在特定干预条件下该步骤对最终可验证成功是否有所贡献。我们提出**CVT-RL**，一种结合密集可验证奖励、干预有效性门控以及**策略条件的反事实贡献**（PCCC）估计器的约束策略梯度算法。删除、语义替换、证据替换和工具输出扰动定义了四种独立的受控干预；后续轨迹由冻结的参考策略采样生成，并使用选择调整后的双重稳健估计器增强优势函数。信念控制仅使用前缀可观测标签，而增广拉格朗日法约束无支持的主张、跳过验证、工具篡改和不安全调用。在长上下文问答、ALFWorld、ScienceWorld以及网页/工具任务上，CVT-RL将平均任务成功率从计算量匹配的非因果RL的71.8%和信息量匹配的反事实过程基线的75.4%提升至78.9%，证据F1值从78.9提升至82.8（相较于信息量匹配基线），并将测量的奖励攻击行为从7.2%降至3.9%。独立的人工审计估计CVT-RL的奖励攻击率为4.6%，而信息量匹配基线为8.1%；自适应检测器规避攻击仅将攻击率提升至7.1%。分层自助法和混合效应检验在 Holm 校正后所有主要指标的 p 值均小于0.01。精心设计的反事实信用机制，结合有效性门控、诊断和可验证约束，为构建更可靠的长周期语言智能体强化学习提供了一条可复现的途径。

**关键词：** 强化学习；语言智能体；因果推断；可验证奖励；约束优化；奖励攻击

## 1 引言

大语言模型（LLM）智能体通过交替使用自然语言推理、检索、工具调用、验证和最终答案来完成任务。强化学习后训练是这一进展的核心，从 RLHF 和偏好优化 [1, 2, 3, 4] 到思维链、自一致性以及工具使用 [5, 6, 7, 8, 9] 皆是如此。长周期智能体暴露了仅基于答案的基准测试所隐藏的失败模式：策略可能跳过验证、引用无证据支持的信息、重复空操作、利用元数据或修改评估器可见的构件，同时仍能获得终端奖励。

近期工作提供了相关组件。密集长上下文奖励减少了稀疏梯度失败 [10, 11, 12]；信任域更新稳定了LLM强化学习 [13, 14, 15]；信念瓶颈或偏差惩罚减少了主动推理漂移 [16, 17]；可验证元推理奖励改进了智能体 [18]。然而，这些方法很少询问在指定干预和延续策略下，中间步骤是否改变了最终可验证成功的概率。

我们通过 **CVT-RL** 回答了这个问题。我们并未声称要恢复在演化训练策略下的无条件路径特定效应。对于步骤 \(a_t\) 和历史 \(h_t\)，PCCC 估计当 \(a_t\) 被替换为干预特定的反事实动作 \(a_t^{0,k}\)，且轨迹的其余部分由冻结的延续策略 \(\mu\) 完成时，最终可验证成功的受控变化。PCCC 是一个稳定的信用替代指标，而非精确的策略梯度因果效应。该算法将 PCCC 与可验证奖励、泄漏受控的信念监督以及约束信任域更新相结合。

**贡献。** (i) 我们为删除、语义替换、证据替换和工具输出扰动定义了独立的 PCCC 估计目标，并添加了干预有效性门控以减少分布外反事实。(ii) 我们阐述了序列语言轨迹的识别假设、选择校正、 nuisance 模型训练、重叠诊断以及失败模式。(iii) 我们为 top-M 投影提供了全词汇 KL 条件。(iv) 我们评估了计算量匹配和信息量匹配的反事实基线、检测器留出和人工审计的奖励攻击、自适应检测器规避、每种子基准测试不确定性、刷新周期敏感性以及模型规模迁移，表明收益并非仅由额外轨迹、结构化监督或检测器复用所解释。

参见图注图1：CVT-RL 系统概览。该图可视化了从任务输入、检索和工具使用，到候选步骤选择、干预有效性门控、冻结策略反事实延续、基于验证器的 PCCC 估计，以及信任域约束策略更新的端到端数据流。
## 2 相关工作

**语言模型中的强化学习与推理。** 人类和 AI 反馈的强化学习使语言模型与偏好对齐，而 DPO 及相关目标则避免了显式的在线强化学习 [1, 2, 3, 4, 5]。思维链、零样本推理、自一致性、ReAct、Reflexion 和 Toolformer 暴露了中间计算，但并不能保证忠实或必要的推理 [6, 7, 8, 9, 19, 20]。具有可验证奖励的强化学习改进了数学、代码和推理模型 [21, 22, 23, 24]，但终端正确性可能强化捷径。

**基础、检索与智能体。** 检索增强生成和密集检索将语言模型输出锚定到外部语料库 [25, 26, 27, 28]。长上下文基准测试表明，大窗口并不能确保证据选择 [29, 30, 31, 32]。具身、科学、网页及 API 智能体基准测试评估了与工具的多步交互 [33, 34, 35, 36, 37, 38, 39, 40]。长上下文强化学习和元推理奖励推动了密集过程监督，但因果信用仍不明确 [10, 11, 12, 18]。

**稳定、安全与因果强化学习。** 信任域和近端策略梯度稳定了优化 [41, 42, 13, 14]；约束强化学习控制期望成本 [43, 44, 45, 46]。离线到在线强化学习、保守价值学习、隐式 Q 学习、扩散数据生成和动作分块解决了稀疏的长周期奖励问题 [47, 48, 49, 50, 51]。因果推断和双重稳健评估将干预与相关性分离 [52, 53, 54, 55, 56, 57]。奖励规范错误研究表明，能力强的智能体会利用有缺陷的目标 [58, 59, 60, 61]。

## 3 方法

### 3.1 约束长周期智能体

我们将智能体建模为一个部分可观测的约束马尔可夫决策过程 \(\mathcal{M} = (\mathcal{S}, \mathcal{O}, \mathcal{A}, P, R, C, \gamma)\)。在时刻 \(t\)，策略观察历史 \(h_t = (o_0, a_0, \ldots, o_t)\) 并采样

\[
a_t \in \{\texttt{THINK}, \texttt{SEARCH}, \texttt{READ}, \texttt{VERIFY}, \texttt{ACT}, \texttt{FINAL}\} \times \mathcal{X},
\tag{1}
\]

其中 \(\mathcal{X}\) 是文本或结构化工具参数。成本 \(c_{j,t}\) 衡量无支持的主张、跳过验证、评估器篡改、不安全工具调用、重复空操作以及预算超支：

\[
\max_{\theta} J_R(\pi_{\theta}) = \mathbb{E}_{\tau \sim \pi_{\theta}} \sum_{t=0}^T \gamma^t r_t, \quad \mathrm{s.t.} \quad J_{C_j}(\pi_{\theta}) = \mathbb{E}_{\tau \sim \pi_{\theta}} \sum_{t=0}^T \gamma^t c_{j,t} \leq d_j.
\tag{2}
\]

密集奖励为

\[
r_t = \lambda_y r_t^{\mathrm{ans}} + \lambda_e r_t^{\mathrm{evi}} + \lambda_m r_t^{\mathrm{meta}} + \lambda_b r_t^{\mathrm{bel}} + \lambda_{\Delta} r_t^{\mathrm{pccc}} - \lambda_h r_t^{\mathrm{hack}}.
\tag{3}
\]

默认权重为 \((1.0, 0.45, 0.18, 0.25, 0.60, 0.80)\)，并在第4.5节中进行了变化。\(r_t^{\mathrm{ans}}\) 是精确匹配、单元测试通过或环境成功。\(r_t^{\mathrm{evi}}\) 是支持文档 F1 和蕴含的调和均值。\(r_t^{\mathrm{meta}}\) 仅在计划-探索-验证模式降低验证器不确定性时给予奖励。\(r_t^{\mathrm{hack}}\) 是元数据泄露、评估器修改、无支持终结和可疑工具编辑的最大检测器得分。

### 3.2 策略条件的反事实贡献

令 \(\mu\) 为一个冻结的延续策略，通常是上一轮外迭代中的参考模型。对于干预族 \(k \in \mathcal{K}\)，\(g_k(h_t, a_t, u)\) 使用随机性 \(u\) 产生一个反事实动作 \(a_t^{0,k}\)。我们使用四个干预族：删除、中性语义改写、证据替换和工具输出扰动。它们的估计目标不合并：

\[
\Delta_t^{k,\mu}(h_t, a_t) = \mathbb{E}_{u, \tau_{t+1:T} \sim \mu} \left[ Y\{h_t, a_t, \tau_{t+1:T}\} \right] - \mathbb{E}_{u, \tau_{t+1:T} \sim \mu} \left[ Y\{h_t, g_k(h_t, a_t, u), \tau_{t+1:T}\} \right].
\tag{4}
\]

\(Y \in [0,1]\) 是最终可验证的成功。如果 \(\mu \neq \pi_{\theta}\)，PCCC 衡量在参考延续下的有用性；它正则化信用分配，但不能证明在任意未来延续下会有所改进。聚合奖励使用 \(\Delta_t^{\mu} = \sum_k w_k \Delta_t^{k,\mu}\)，其中 \(w = (0.25, 0.20, 0.30, 0.25)\)。

#### 识别与估计器。

对于选定步骤 \(S_t = 1\)，\(\Delta_t^{k,\mu}\) 的识别需要：一致性；观测动作和干预动作的正性；条件于 \(h_t\)、验证器状态、工具状态和候选选择特征的序列可交换性；固定的干预分布 \(g_k\) 独立于除 \((h_t, a_t)\) 之外的结果；以及选定步骤的偏差校正。为了减少离支撑干预，每个提议在 rollout 之前通过一个有效性门控 \(\nu_t^k = \mathbb{I}[\mathrm{syntax} \land \mathrm{schema} \land s_{\mathrm{sup}} \geq 0.35 \land s_{\mathrm{ent}} \geq 0.55]\)。隐藏的环境状态、无效干预和验证器失败仍可能使估计有偏，因此我们在表5中报告了重叠和有效性诊断。

我们使用梯度范数、验证器分歧、工具相关性和新颖性选择最多 \(L=8\) 个候选步骤。令 \(q_{\omega}(S_t=1|h_t, a_t)\) 为校准后的选择概率，裁剪至 \([0.15, 1]\)。结果模型 \(m_{\phi}^k(h, a) = \mathbb{E}[Y|h, a, \mu, k]\)

面向长程语言智能体可验证强化学习的策略条件化反事实信用

相似文章

Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards

考虑修改的价值学习用于强化学习中的奖励黑客缓解

@dair_ai：MIT推荐的关于可验证奖励强化学习部分的热门文章，大家一直在讨论。RLVR只优化…

不仅关乎位置，更关乎时机：RLVR中的时间调度

通过反事实推理路径减少信用分配方差

提交意见反馈