BiPACE: 面向LLM智能体的双模拟引导策略优化与动作反事实估计

arXiv cs.CL 论文

摘要

BiPACE提出了一种即插即用的优势估计器,用于修复LLM智能体逐步分组强化学习中的状态-动作信用分配错配问题。该方法利用双模拟引导的状态聚类和动作反事实估计,在ALFWorld、WebShop和TextCraft基准上,配合Qwen2.5模型实现了显著的性能提升。

arXiv:2606.25556v1 Announce Type: new 摘要:逐步分组强化学习是一种有吸引力的方法,用于训练长程LLM智能体而无需学习评论家:它重用多个采样轨迹来估计局部优势。其弱点不太明显但更为根本:每个组相对估计器都假定其比较的步骤在信用分配上是等价的。我们表明,当前的智能体变体通过状态-动作信用分配错配违反了这一假设。观测哈希划分在状态侧过于精细,产生零步级信号的单例组,而单个组内均值在动作侧过于粗糙,将状态值估计与动作特定信用混在一起。我们提出BiPACE(基于双模拟引导与动作反事实估计的策略优化),这是一种即插即用的优势估计器,无需添加评论家、辅助损失或额外采样即可修复两侧问题。BiGPO根据演员自身隐藏状态几何中的余弦距离对步骤进行聚类,这是一种经验性的策略诱导的双模拟代理,显著降低了观测哈希留下的单例率。然后,PACE使用动作条件化的同伴基线在每个行为簇内重新中心化回报;其Q风格的实例非参数地估计局部Q(s,a)-V(s)。在ALFWorld/Qwen2.5-7B上,BiPACE_Q将整体验证成功率从GiGPO的90.8提高到$97.1\pm0.9$(三个随机种子),并在每个种子上都超过95%阈值,而GiGPO在相同预算内从未达到。在Qwen2.5-1.5B上达到$93.5\pm1.2$,而GiGPO为86.7;在WebShop和TextCraft上,它在两种模型规模下均优于GRPO和GiGPO。经测量,BiPACE特有的开销为单次训练步骤实际时间的11.3%。然而,它将估计器的比较单元从表面身份转变为近似行为等价性加上动作侧反事实。代码可在 https://github.com/TianxiangZhao/BiPACE 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/25 05:12

# 基于双模拟与动作反事实估计的LLM智能体策略优化

**来源**: https://arxiv.org/html/2606.25556

\\@ifundefinedcolor linkblue\\@ifundefinedcolorcodegray\\@ifundefinedcolortblhead\\@ifundefinedcolortblgroup\\@ifundefinedcolortblours\\@ifundefinedcolortblref

王涵阳¹,† 任伟杰³ 张宇翔² 曹鼎⁴ 曾智钊⁵ 曾柯⁵ 赵天翔²,\*
¹芝加哥大学 ²香港科技大学(广州) ³斯坦福大学 ⁴中国科学技术大学 ⁵美团
[email protected] [email protected] [email protected] [email protected] {zengzhizhao,zengke02}@meituan.com [email protected]
†第一作者 \*通讯作者

###### 摘要

基于步骤分组的强化学习是训练长程LLM智能体的一种有吸引力的方式,无需学习评论家网络:它通过复用多个采样轨迹来估计局部优势。但其弱点虽不显眼却更为根本:每个组内相对估计器都假设其所比较的步骤在信用分配上是等价的。我们证明,当前的智能体变体由于*状态-动作信用错配*而违反了这一假设。在状态侧,基于观测哈希的分组过于精细,产生了孤立的单例组,导致无步骤级信号;而在动作侧,单一组内均值又过于粗糙,将状态值估计与特定动作的信用混合在一起。我们提出**BiPACE**(*基于双模拟引导与动作反事实估计的策略优化*),这是一种即插即用的优势估计器,无需添加评论家网络、辅助损失或额外采样即可修复上述两侧问题。**BiGPO**利用智能体自身隐藏状态的几何结构(即余弦距离)对步骤进行聚类,这是一种基于策略的经验性双模拟代理,显著降低了观测哈希留下的单例率。**PACE**随后在每个行为聚类内,利用基于动作条件的对等基线对回报进行中心化处理;其Q风格实例通过非参数方式估计了局部的 $\widehat{Q}(s,a) - \widehat{V}(s)$。在ALFWorld/Qwen2.5-7B上,**BiPACE**将整体验证成功率从GiGPO报告的90.8提升至 **97.1±0.9**(三个种子),并且每个种子均突破95%的阈值,而GiGPO在相同预算内从未做到。在Qwen2.5-1.5B上,其达到 **93.5±1.2**,而GiGPO为86.7。在WebShop和TextCraft上,两种模型规模下均优于GRPO和GiGPO。从系统角度看,其变化很小:在单次ALFWorld/Qwen2.5-7B训练步长中,BiPACE特定部分的耗时仅占11.3%。然而,它将估计器的比较单元从表面身份转变为近似行为等价性加上动作侧反事实。代码见 https://github.com/TianxiangZhao/BiPACE。

参见说明 图1:**BiPACE**与GiGPO在不同基准和模型规模上的对比。**上**:训练过程中的验证成功率;圆点和徽章标记每种方法的峰值以及**BiPACE**相对于GiGPO的差距。**下**:达到固定成功阈值所需的步数(越低越好),加速比 = steps_GiGPO / steps_BiPACE;斜线柱表示从未达到的阈值。多种子聚合结果见表2和表3。

## 1. 引言

大语言模型的强化学习后训练近期已从单轮推理迈入更困难的*智能体*领域:长程、部分可观测、多轮交互——涉及工具、网页、模拟家庭和游戏。核心障碍在于如何将稀疏的终端奖励分配给那些决定轨迹成败的中间决策(Wang等人,2025)。基于分组的强化学习方法,如RLOO风格的留一估计器(Kool等人,2019;Ahmadian等人,2024)和GRPO(Shao等人,2024),因无需学习价值网络而颇具吸引力。最近的智能体变体如GiGPO(Feng等人,2025)和HGPO(He等人,2026)将此思想推向步骤级别,通过比较组内采样步骤的回报。然而,它们的性能依赖于一个常被视为实现细节的选择:哪些步骤被分到同一组进行比较。这些估计器共享一个隐含假设:如果两个步骤记录被放入同一组,那么它们在信用分配上是可互换的。在长程智能体环境中,这一假设以两种耦合的方式失效。

**状态侧**:观测同一性是一个便利但过于稀疏的价值等价性代理。当分组的步骤共享延续价值时,组基线才可靠——这一条件由*双模拟*形式化(Givan等人,2003;Fern等人,2004);而观测键要求的分组严格细于双模拟所需的等价性,将许多可复用的状态分割成孤立的单例。

**动作侧**:即使状态可比,通常的组内均值也对所有动作分配相同的基线,忽略了来自同一状态的不同动作可能导向不同的未来。我们将这种两侧失效称为**状态-动作信用错配**。这种错配在训练期间可通过单例比例独立于最终任务奖励而测量。在我们在ALFWorld上的GiGPO复现中,第10次迭代时有34.2%的步骤组是单例,且该比例在第140次迭代时仍保持20.7%。由于单例聚类产生零步骤级优势,精确观测哈希在策略最需要时丢弃了局部信号。在TextCraft上,由于观测更稀疏,精确哈希隔离了更多记录,暴露出的匹配对更少(详见4.2节)。

我们提出**BiPACE**(*基于双模拟引导与动作反事实估计的策略优化*),这是一种即插即用的优势估计器,将步骤级信用视为两个局部问题:状态聚合和基于动作条件的信用分配。

- 在状态侧,**BiGPO**用基于策略归一化隐藏状态 $\phi_\theta(s_t)$(取自固定后层,见附录I和H)的余弦聚类替换观测哈希,这是Castro等人(2021)行为度量的一种经验性代理。
- 在动作侧,PACE将每个行为聚类按执行的动作进一步划分,并用相同动作的对等估计增强聚类均值基线,在每个聚类内形成非参数的 $\widehat{Q}(s,a) - \widehat{V}(s)$ 优势。两部分相互耦合:PACE需要行为上可比的状态对等,而这正是BiGPO提供的。

我们的主要贡献总结如下:

- **识别状态-动作信用错配**。我们证明步骤级分组强化学习混淆了状态聚合与基于动作条件的信用分配,且精确观测哈希是错误的等价关系,将可复用状态分割成无步骤级信号的单例。
- **提出即插即用的优势估计器**。我们引入BiPACE,它进行了两个局部替换:BiGPO将智能体隐藏特征作为策略诱导的双模拟代理进行聚类,PACE在每个聚类内增加基于动作条件的对等基线。
- **分析估计器**。我们在MICo-Lipschitz假设下将状态侧偏差界限为 $O(\varepsilon)$,将GiGPO恢复为 $\varepsilon=0$ 的极限,量化单例信号损失,并证明在精确双模拟下Q风格PACE是精确的。
- **实现强实证性能**。BiPACE在ALFWorld/Qwen2.5-7B上提升+6.3个百分点(97.1±0.9 vs. 90.8),在1.5B上提升+6.8个百分点,并在WebShop和TextCraft上两种模型规模下均优于GRPO和GiGPO,而步骤开销仅为11.3%。

## 2. 相关工作

#### 面向LLM智能体的组内相对强化学习

BiPACE建立在无评论家网络的组内相对强化学习基础上,包括GRPO(Shao等人,2024)、GiGPO(Feng等人,2025)和HGPO(He等人,2026)。这些方法比较组内采样回报,但保持状态等价关系为离散的;BiPACE用策略诱导的行为划分替换该关系。状态侧遵循价值保持的双模拟观点(Fern等人,2004;Castro等人,2021;Zhang等人,2020),而PACE则提供了COMA/CCPO及相关工作中研究的基于动作条件反事实基线的非参数类比(Foerster等人,2018;Li等人,2026b)。其他智能体信用方法改变学习信号或优化器(Tan等人,2026;Liu等人,2025;Wei等人,2025;Yu等人,2025);BiPACE则改变哪些步骤记录被比较。扩展讨论见附录A。

## 3. 方法:BiPACE

本节首先隔离BiPACE所针对的估计问题,然后描述构成该方法的两处局部替换。

### 3.1 估计器设定

对于每个提示组 $p$,GRPO采样轨迹 $\{\tau^{(g)}\}_{g=1}^G$ 并在组内标准化终端回报:

$$A^\mathrm{ep}(\tau^{(g)}) = \frac{R(\tau^{(g)}) - \mu_p}{\sigma_p + \delta}, \quad \mu_p, \sigma_p \text{ over } \{R(\tau^{(g)})\}_{g=1}^G. \tag{1}$$

GiGPO通过收集同一提示组内的所有步骤记录并按精确观测哈希进行划分来添加步骤级项:

$$\mathcal{C}_p = \big\{\, \{ i: \mathrm{hash}(s^{(i)}) = h \}: h \in \mathrm{Hash}(\{s^{(i)}\}_{i \in p}) \,\big\}.$$

对于每个聚类 $C \in \mathcal{C}_p$,它局部归一化剩余回报 $R_t^{(i)}$:

$$A^\mathrm{step}(i) = \frac{R_t^{(i)} - \mu_C}{\sigma_C + \delta}, \quad i \in C. \tag{2}$$

BiPACE保持此训练循环不变,仅替换公式(2)中使用的划分和局部基线。关于智能体决策过程、GRPO和双模拟的额外背景见附录B。

### 3.2 状态-动作信用错配

GiGPO通过在共享相同当前观测的步骤组内计算步骤级优势来改进轨迹级GRPO。这一设计假设同组内的两个步骤记录在信用分配上是可交换的。在智能体任务中,该假设以两种互补方式失效。

**状态侧**:精确观测同一性作为价值等价性的代理过于严格:仅在表面形式上不同的观测会被分入不同组,即使它们诱导相同的延续价值。当精确键划分产生单例组时,公式(2)中的组内基线退化为零,该步骤不贡献任何步骤级梯度。

**动作侧**:即使组中包含行为可比的状态,计算单一聚类均值会使每个步骤都针对同一个数值进行评估,而忽略所执行的动作。来自同一状态邻域的两个动作可能导向不同的未来,因此它们的优势应该不同;但减去共同均值无法区分它们。所需量是局部优势 $Q(s,a)-V(s)$:聚类均值作为状态值估计 $V(s)$,而汇集相同动作的对等样本得到动作值估计 $Q(s,a)$,从而在不改变状态级基线的情况下分离出特定动作的信用。

BiPACE联合解决这两侧问题。在状态侧,**BiGPO**用基于智能体自身隐藏状态的行为划分替换观测哈希划分。在动作侧,PACE用相同动作的对等估计增强聚类均值基线,在每个聚类内形成 $Q(s,a)-V(s)$ 优势。

### 3.3 BiPACE 总览

参见说明 图2:方法总览。BiPACE对GiGPO步骤级估计器进行两处局部替换。**左**:一个提示组跨 $G$ 条轨迹提供步骤记录 $(s_t^{(i)}, a_t^{(i)}, R_t^{(i)})$;色块表示双模拟类别。**中**:BiGPO提取智能体归一化隐藏状态 $\phi_\theta(s)$(取自固定后层)并按余弦距离聚类,形成行为状态邻域 $\mathcal{C}_1, \mathcal{C}_2, \ldots$。**右**:PACE将每个聚类按执行的动作键分割,并计算每动作的对等基线;Q风格形式估计 $\widehat{Q}(s,a)-\widehat{V}(s)$。仅有步骤级优势改变;PPO目标不变。

**BiPACE一句话总结**:对于每个提示组,BiPACE首先根据智能体自身隐藏状态几何(BiGPO)对步骤记录进行聚类,然后在每个聚类内基于执行的动作条件计算步骤级基线(PACE)。优势估计器之外的一切与GiGPO相同。图2追溯了完整流程;两个组件并非简单堆叠,而是相互组合,因为PACE的每动作基线需要BiGPO提供的行为上一致的对等池。第3.4节和第3.5节分别详述二者。

### 3.4 使用BiGPO的状态侧分组

BiGPO背后的关键见解是:智能体自身的隐藏状态已经编码了行为相似性——无论表面形式如何,策略以相同方式处理的观测会在后层表示空间中紧密聚类。精确观测哈希忽略了这一几何结构(将任何表面不同的观测视为不可比较,即使策略对它们做出相同响应;见3.2节),并常规性地丢弃了步骤级RL设计所要利用的局部信号。BiGPO用源自该表示的软行为划分替换精确哈希。

具体地,令 $f_\theta: \mathcal{S} \to \mathbb{R}^D$ 为将当前提示 $s_t$ 映射到智能体LLM在最终提示令牌处隐藏状态的函数,取自每个骨干网络一次性选定的固定后中间层(Qwen2.5-7B为第-8层,Qwen2.5-1.5B为第-12层;校准细节见附录I和H)。我们使用归一化表示 $\phi_\theta(s) = f_\theta(s) / \|f_\theta(s)\|_2$。该表示随被优化的策略移动——

相似文章

面向长视界语言智能体的里程碑引导策略学习

arXiv cs.CL

本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。

PolicyBank:为LLM智能体演进策略理解

arXiv cs.CL

PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。

通过反事实推理路径减少信用分配方差

arXiv cs.LG

提出隐式行为策略优化(IBPO),一种基于反事实比较的信用分配框架,通过将稀疏的终端奖励转化为对步骤敏感的学习信号,提升了大型语言模型在多步推理任务中的训练稳定性和性能。

GAGPO:广义优势分组策略优化

arXiv cs.AI

GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。