打破僵局:用于社交语言智能体的双尺度进化策略训练

arXiv cs.CL 论文

摘要

本文提出了双尺度进化策略训练(DEPT),旨在解决社交语言智能体的进化僵局问题,利用非对称优势重塑技术在自博弈过程中恢复梯度信号。

arXiv:2605.08721v1 公告类型:新发布 摘要:虽然带有可验证奖励的强化学习(RLVR)在封闭性任务中已被证明是有效的,但通过自博弈将其扩展到开放性的社交语言游戏时,暴露出一个关键问题:进化僵局。由于策略空间广阔,语言智能体经常收敛于同质化的行为,导致比赛结果趋于确定性,从而消除了策略进化所需的梯度信号。为了解决这一问题,我们提出了用于社交语言游戏的双尺度进化策略训练(DEPT)。DEPT 引入了一种时间尺度的进化感知机制,通过量化双尺度价值基线发散以及比赛熵来检测僵局。在感知到崩溃后,它会激活非对称优势重塑技术,以动态调节优化景观进行干预。因此,我们的方法有效地恢复了梯度信号,并强制执行持续的战略性探索。在多个社交语言游戏上的大量实验表明,DEPT 优于强大的基线方法,避免了策略退化,并推动了社交语言智能体的持续进化。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 06:55

# 社交语言智能体的双尺度进化策略训练

**来源:** https://arxiv.org/html/2605.08721

**作者:** Minzheng Wang${}^{1,2}$, Run Luo${}^{2}$, Yanbo Wang${}^{1,2}$, Zichen Liu${}^{3}$, Yuqiao Tan${}^{1,2}$, Tao Tan${}^{4}$, Xu Nan${}^{1}$, Yinhe Zheng${}^{4}$, Wenji Mao${}^{1,2}$

${}^{1}$ 中国科学院自动化研究所,模式识别国家重点实验室 (MAIS)
${}^{2}$ 中国科学院大学人工智能学院
${}^{3}$ 新加坡国立大学
${}^{4}$ Ritzz-AI

**邮箱:** {wangminzheng2023, wenji.mao}@ia.ac.cn

###### 摘要

尽管基于可验证奖励的强化学习(RLVR)在封闭端任务中已被证明有效,但通过自博弈将其扩展到开放端社交语言游戏时,揭示了一个关键问题:进化僵局。由于策略空间巨大,语言智能体经常收敛到同质化的行为,导致匹配结果确定化,从而消除了策略进化所需的梯度信号。为了解决这一问题,我们提出了用于社交语言游戏的**双尺度进化策略训练(DEPT)**。DEPT 引入了一种**时间尺度进化感知**机制,通过量化双尺度值基线发散和匹配熵来检测僵局。在感知到崩溃后,它激活**非对称优势重塑**以动态调制优化景观进行干预。因此,我们的方法有效地恢复了梯度信号并强制进行持续的策略探索。在多种社交语言游戏上的广泛实验表明,DEPT 优于强大的基线方法,避免了策略退化,推动了社交语言智能体的持续进化。

打破僵局:社交语言智能体的双尺度进化策略训练

Minzheng Wang${}^{1,2}$, Run Luo${}^{2}$, Yanbo Wang${}^{1,2}$, Zichen Liu${}^{3}$, Yuqiao Tan${}^{1,2}$, Tao Tan${}^{4}$, Xu Nan${}^{1}$, Yinhe Zheng${}^{4}$, Wenji Mao${}^{1,2}$†

† 通讯作者。
${}^{1}$ 中国科学院自动化研究所,模式识别国家重点实验室 (MAIS)
${}^{2}$ 中国科学院大学人工智能学院
${}^{3}$ 新加坡国立大学
${}^{4}$ Ritzz-AI
**邮箱:** {wangminzheng2023, wenji.mao}@ia.ac.cn

## 1 引言

基于可验证奖励的强化学习(RLVR)已成为释放大型语言模型(LLMs)推理潜力的重要范式,在数学和代码生成等静态问题解决任务中展现出卓越的能力 (Guo et al., 2025; Team et al., 2025; Yue et al., 2025; Liu et al., 2025b)。然而,这些任务本质上是封闭端的问题解决,具有确定性的正确答案和 straightforward 的问答特征。在现实中,社会决策要复杂得多,通常处于充满利益冲突和动态交互的开放端语境中 (FAIR et al., 2022; Park et al., 2023; Yang et al., 2025b)。在这种动态的社会语境下,LLMs 不仅进行连贯的逻辑推理,还执行长_horizon_规划,实时推断对手意图,并处理诸如谈判 (Bianchi et al., 2024; Hua et al., 2024)、欺骗 (Hagendorff, 2023; Xue et al., 2024) 和讨价还价 (Xia et al., 2024; Abdulhai et al., 2025) 等复杂的社会信号。因此,对于语言智能体而言,封闭端问题解决能力与开放端社会智能之间存在显著差距 (Zhou et al., 2024; Wang et al., 2025a)。

> 图 1: (a) DEPT 保持高结果熵,而基线方法崩溃为确定性分布。(b) DEPT 维持有效的梯度信号,而基线方法遭受梯度消失。(c, d) DEPT 取得 superior 性能,有效解决了开放端社交语言游戏中的策略退化问题。

社交策略游戏为在开放端任务中练习这种社交能力提供了理想的测试平台:它们自然地模拟了动态社会语境和复杂的决策行为,同时游戏结果(即胜/负/平)由规则客观决定——这与 RLVR 范式完美契合,无需昂贵的人工标注 (Duan et al., 2024; Hua et al., 2024; Guertler et al., 2025)。更重要的是,这一特性使得自博弈成为扩展 LLM 能力的有效途径 (Silver et al., 2018; Bansal et al., 2018; Chen et al., 2024; Liu et al., 2025a)。使用单个 LLM 同时扮演游戏中的双方玩家,并通过零和竞争持续优化,自博弈可以克服后训练中的数据稀缺瓶颈,同时通过社交决策技能的对手共进化建立内在的自动课程。

现有的自博弈 RLVR 方法 (Liu et al., 2025a; Yuan et al., 2025) 通过在动作空间有限的游戏(如井字棋、库恩扑克)中设计角色特定的优势估计,取得了显著的成功。然而,这些方法在处理涉及自由形式自然语言交互的开放端社交游戏时遇到困难,后者构成了巨大的动作空间,通常需要言语影响对手才能成功。在这种无界策略空间中缺乏有效引导,智能体容易陷入次优解。这使得训练过程极易遭遇**进化僵局**,即认知智能体在决策中遇到的停滞状态 (Laird, 2019; Sumser et al., 2023),表现为自博弈 RLVR 方法的匹配结果分布确定化。在这种情况下,值基线收敛到静态期望回报,导致优势函数趋近于零,进而导致策略梯度消失,将智能体锁定在次优状态(如图 1(a)(b) 所示)。

为了打破僵局,开发一种在自博弈过程中进行进化感知和干预的有效机制至关重要。针对上述问题,我们提出了一种**双尺度进化策略训练(DEPT)**方法,以动态感知进化状态并自适应调制优化景观。具体而言,我们引入了一种**时间尺度进化感知**机制,维护平行的值基线:对近期波动敏感的快速基线和锚定于长期趋势的慢速基线。通过测量这些基线之间的发散以及匹配结果熵,我们得出了可量化的进化僵局指标。为了恢复有效梯度,我们提出了**非对称优势重塑**。通过锚定稳定的慢速基线并自适应融合来自快速基线的历史值边界,该机制构建了对比优势信号。它有效地惩罚主导结果并放大罕见轨迹,从而强制进行探索。我们的方法有效干预了进化僵局并恢复了梯度景观,驱动持续的策略进化。在多个社交语言游戏上的实验结果表明,DEPT 优于强大的基线方法。

我们的贡献总结如下:
(1) 我们为社交语言游戏提出了 DEPT,这是首个在自博弈 RLVR 中动态感知进化僵局并进行干预的方法。
(2) 我们的方法开发了时间尺度进化感知和非对称优势重塑机制,利用双值基线量化进化状态并恢复有效梯度信号。
(3) 广泛实验表明,DEPT 优于现有的 SOTA 方法,在有效防止策略退化的同时驱动持续的共进化。

## 2 预备知识

### 2.1 任务公式化

社交语言游戏任务被建模为双人零和马尔可夫博弈 (Littman, 1994) $\mathcal{G}=(\mathcal{S}, \mathcal{A}_0, \mathcal{A}_1, \mathcal{T}, \mathcal{R})$。状态空间 $\mathcal{S}$ 表示交互语境,$\mathcal{A}_0, \mathcal{A}_1$ 表示每个玩家的行动空间,由开放端的自然语言话语组成。在状态 $s_t$ 下,活跃玩家 $p=t \bmod 2$ 接收到包含交互历史及其特定于智能体的私有信息的部分观测 $o_t$,然后从其策略 $\pi_p(\cdot \mid o_t)$ 中采样话语 $a_t^{(p)}$。环境通过 $\mathcal{T}$ 转移到 $s_{t+1}$。一个 episode 形成一个轨迹 $\tau=\{(s_t, a_t^{(p)})\}_{t=0}^T$,在终端时间步 $T$ 结束,此时每个智能体根据其私有目标接收奖励 $R_p(\tau)$。零和性质要求 $R_0(\tau)+R_1(\tau)=0$,在智能体之间形成直接竞争。通常,获胜奖励为 $+1$,失败奖励为 $-1$,平局奖励为 $0$。每个智能体旨在学习一个策略 $\pi_p$ 以最大化其期望回报:$\mathbb{E}_{\tau \sim \pi_0, \pi_1}[R_p(\tau)]$。

### 2.2 自博弈 RLVR

自博弈训练单个策略 LLM $\pi_\theta$ 同时扮演两个玩家,角色条件化通过指定模型扮演 $p_0$ 还是 $p_1$ 的系统提示实现。在每个回合中,活跃玩家生成 $y_t^{(p)} \sim \pi_\theta(\cdot \mid o_t, p)$,其中 $y_t^{(p)}=\langle\text{think}\rangle c_t \langle/\text{think}\rangle \langle\text{act}\rangle a_t^{(p)} \langle/\text{act}\rangle$ 遵循先推理后行动范式 (Yao et al., 2023),这通过格式奖励严格执行以保证有效性,其中 $c_t$ 表示推理过程,$a_t^{(p)}$ 是可执行行动。这种共享参数方法创建了自动课程:随着策略改进,它同时面对更强的对手。

**角色条件优势估计 (Role-conditioned Advantage Estimation)。** 朴素策略梯度存在高方差问题,这在对手不断进化的自博弈中尤为严重。此外,许多游戏表现出固有的角色不对称性(例如,先手优势),即使在最优玩法下,每个角色的期望回报也不同。全局基线难以准确估计两个角色的期望,导致梯度偏差。为了解决这个问题,角色条件优势估计 (RAE) (Liu et al., 2025a; Yuan et al., 2025) 为每个角色维护单独的基线 $b_p$,估计特定角色的期望回报 $\mathbb{E}[R_p(\tau)]$。优势计算为 $A_p(\tau)=R_p(\tau)-b_p$,产生方差减小的策略梯度:

$$
\nabla_\theta J(\theta)=\mathbb{E}_{\tau \sim \pi_\theta}\left[\sum_{p \in\{0,1\}}\sum_{t \in T_p}A_p(\tau) \cdot \nabla_\theta \log \pi_\theta(y_t^{(p)} \mid o_t, p)\right] \quad (1)
$$

其中 $T_p$ 表示玩家 $p$ 行动的回合。通过将回报围绕特定角色的期望居中,RAE 确保梯度更新反映真实的策略改进,而非固有的位置优势。

## 3 对僵局的实证调查

自博弈 RLVR 旨在通过迭代竞争促进持续改进。原则上,这种范式依赖动态的进化交互来保持匹配结果的多样性,确保有效策略优化所需的方差。然而,在开放端社交游戏中,我们观察到一个关键的失败模式:智能体展示了对游戏机制日益增长的掌握,但在策略智能方面却停滞不前。如图 2 所示,在 Qwen3-4B-Base 上的训练在游戏长度和奖励等基本指标上有所改善。然而,对抗固定 Gemini-2 对手的胜率呈现下降趋势,最终收敛到次优状态,未能表现出持续的性能提升。

为了诊断驱动这种僵局的内部动力学,我们引入了**匹配熵** $H_{\text{match}}^{(t)}$,它量化了在训练步 $t$ 下匹配结果的多样性,基于分布 $P^{(t)}=\{p_{\text{win}}, p_{\text{draw}}, p_{\text{loss}}\}$:

$$
H_{\text{match}}^{(t)}=-\frac{1}{\log \|P\|} \sum_{o \in P} p_o \log(p_o) \quad (2)
$$

> 图 2: 社交语言游戏(Negotiation)中自博弈 RLVR 的训练动态。虽然 (a) 训练奖励和 (b) 平均游戏长度表现出正常增长模式,表明基本游戏机制的学习,但 (c) 对于基线方法,对抗固定 Gemini-2.0 对手的胜率遭受显著崩溃。

图 1(a) 揭示了一种明显的崩溃模式:在短暂的初始探索阶段后,$H_{\text{match}}^{(t)}$ 迅速减少并保持接近零。这表明收敛到**进化僵局**,一种停滞状态,其中智能体因社交语言游戏巨大、无结构的策略空间而陷入次优解,使得充分探索有效策略(如细微的说服或欺骗)极其困难。从数学上讲,这种退化直接导致梯度信号的消失。在标准策略梯度方法中,更新依赖于优势函数 $A_p(\tau)=R_p(\tau)-b_p$,其中值基线 $b_p$ 估计期望回报 $\mathbb{E}[R_p]$。当匹配结果分布变得确定时(即,$H_{\text{match}}^{(t)} \to 0$),值基线收敛到常数回报($b_p \approx R_t$),导致优势消失:$A_t \to 0$。这减少了梯度,阻碍了从局部最优解中逃脱。

为了释放 LLMs 在社交语言游戏中的推理潜力,建立一种能够**感知**这种崩溃并**干预**以恢复梯度景观的机制至关重要。

> 图 3: DEPT 概述。框架包含两个组件:(1) 时间尺度进化感知...

相似文章

进化策略梯度

OpenAI Blog

OpenAI 推出进化策略梯度(EPG),这是一种元学习方法,通过进化而非直接学习策略来学习损失函数,使强化学习代理能够通过利用类似人类技能迁移的先验经验,更好地跨任务泛化。

CoEvolve:通过智能体-数据互进化训练LLM智能体

arXiv cs.CL

CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。

进化策略作为强化学习的可扩展替代方案

OpenAI Blog

OpenAI 提出进化策略(ES)作为一种可扩展的黑箱优化方法,可替代强化学习用于训练神经网络策略。进化策略通过将策略训练视为随机参数搜索来简化优化问题,该搜索基于奖励反馈反复采样并选择更优的参数配置。

面向长视界语言智能体的里程碑引导策略学习

arXiv cs.CL

本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。