可微分的基于信念的对手塑造 (D-BOS)

arXiv cs.AI 论文

摘要

本文介绍了一种可微分的基于信念的对手塑造(D-BOS)方法,这是一种一阶方法,将观察者的信念视为被塑造的状态,并通过信念更新动态进行微分,从而允许在隐藏角色多智能体环境中,最优策略自然地源于环境的奖励结构。

arXiv:2605.29042v1 公告类型:新 摘要:人类的协调常常依赖于通过战略行动影响他人信念的能力。在多智能体强化学习中,对手塑造试图复制这种影响,尽管现有方法通常作用于对手的参数、策略或价值空间。与此同时,隐藏角色游戏中的信念操纵技术往往依赖于硬编码的目标,例如欺骗或信念饱和。我们提出了一种可微分的基于信念的对手塑造(D-BOS)方法,这是一种一阶方法,将每个观察者的信念视为被塑造的对手状态,并通过 $k$ 步 softmax-Bayes 信念动态进行微分。我们的方法不明确奖励欺骗或合作行为,而是将信念状态作为塑造的目标。这使得最优策略能够自然地源于环境的奖励结构。这种信念空间公式通过微分对手信念更新提供对手塑造信号,并通过聚合多个观察者各自推断的信念轨迹上的梯度,自然地扩展到多个观察者。实验表明,D-BOS 在隐藏角色游戏中优于 PPO 和 BBM,且在混合动机设置中增益最大。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:12

# 基于可微分信念的对手塑造 来源:https://arxiv.org/html/2605.29042 Aarav G\. Sane 计算机科学系 普渡大学 sane0@purdue\.edu & Karthik Sivachandran 计算机科学系 普渡大学 ksivacha@purdue\.edu Rohan R\. Paleja 计算机科学系 普渡大学 rpaleja@purdue\.edu ###### 摘要 人类协调往往依赖于通过策略性行动影响他人信念的能力。在多智能体强化学习中,对手塑造试图复制这种影响,尽管现有方法通常在对策者的参数、策略或价值空间中运作。与此同时,隐藏角色游戏中的信念操纵技术通常依赖于硬编码的目标,例如欺骗或信念饱和。我们提出基于可微分信念的对手塑造(D-BOS),这是一种一阶方法,它将每个观察者的信念视为被塑造的对策者状态,并通过 \(k\) 步 softmax-Bayes 信念动力学进行微分。我们的方法并不显式奖励欺骗或合作行为,而是将信念状态作为塑造的目标。这使得最优策略能够从环境奖励结构中自然涌现。这种信念空间公式通过微分对策者的信念更新提供对手塑造信号,并通过聚合多个观察者各自推断的信念轨迹上的梯度,自然地扩展到多个观察者。实验表明,D-BOS 在隐藏角色游戏中优于 PPO 和 BBM,在混合动机设定中收益最大。

## 1 引言

人类通常会推理他人的想法,并利用这种推理来协调、说服、隐藏或透露信息。这种能力是心智理论的核心(Premack and Woodruff,1978 (https://arxiv.org/html/2605.29042#bib.bib19); Wimmer and Perner,1983 (https://arxiv.org/html/2605.29042#bib.bib28)),并已成为人类-智能体协作和人类-机器人团队计算模型的重要动机(Erdogan et al.,2022 (https://arxiv.org/html/2605.29042#bib.bib7); Paleja et al.,2023 (https://arxiv.org/html/2605.29042#bib.bib18))。在协作场景中,从共享自主性到异构策略的临时团队(Chen et al.,2020 (https://arxiv.org/html/2605.29042#bib.bib5); Paleja et al.,2022 (https://arxiv.org/html/2605.29042#bib.bib17)),有用的伙伴不仅仅是单独选择好行动的智能体,而是理解其行动如何改变他人想法的智能体(Shafto et al.,2014 (https://arxiv.org/html/2605.29042#bib.bib24); Ho et al.,2016 (https://arxiv.org/html/2605.29042#bib.bib11))。我们在隐藏角色部分可观测马尔可夫游戏中研究这个问题,例如 Avalon(Serrino et al.,2019 (https://arxiv.org/html/2605.29042#bib.bib23))、Rescue-the-General(Aitchison et al.,2021 (https://arxiv.org/html/2605.29042#bib.bib3))和多智能体 Coin Game(Raileanu et al.,2018 (https://arxiv.org/html/2605.29042#bib.bib21)),这些游戏是受控的多智能体测试平台,其中角色、意图和目标都是潜在的,智能体的行为会改变盟友和对手的后验信念。

当前的多智能体强化学习方法难以捕捉这种交互。现有的对手塑造算法(Foerster et al.,2018 (https://arxiv.org/html/2605.29042#bib.bib8); Aghajohari et al.,2024 (https://arxiv.org/html/2605.29042#bib.bib1); Zhao et al.,2022 (https://arxiv.org/html/2605.29042#bib.bib29); Willi et al.,2022 (https://arxiv.org/html/2605.29042#bib.bib27); Duque et al.,2025 (https://arxiv.org/html/2605.29042#bib.bib6))预见对策者的学习更新以优化回报,但它们在高维空间中运作,需要强假设,并且通常局限于双玩家设定。相反,像 BBM(Aitchison et al.,2021 (https://arxiv.org/html/2605.29042#bib.bib3))这样的信念操纵方法建模了隐藏信念,但依赖于短视的、预设的目标,如固定欺骗。这些局限性激发了一个自然的综合:智能体应该塑造对策者的信念,跨越多个步骤,完全由任务奖励驱动。将信念操纵从属于任务奖励,确保它作为最优玩法的一种工具性机制,而不是僵化的行为先验。

我们提出 **基于可微分信念的对手塑造(D-BOS)**,这是一种在信念空间中进行对手塑造的一阶方法。D-BOS 将每个观察者(即环境中的任何其他智能体)对隐藏角色的后验视为要被塑造的目标状态。它展开一个可微的 softmax-Bayes 更新 \(k\) 步,并通过得到的信念轨迹反向传播,从而显式优化诱导的未来信念状态的长期任务价值。因此,信念塑造的方向是自然决定的:在对抗性设定中,D-BOS 可以模糊智能体的角色,而在合作设定中,可以使正确的角色更容易推断。我们进一步分析了 D-BOS 如何在混合动机设定中导航,其中它可能需要向盟友揭示自身身份的同时向对手隐藏身份。

我们的贡献是:
- • **用于对手塑造的可微信念动力学**:D-BOS 通过 \(k\) 步 softmax-Bayes 信念更新反向传播,利用显式的 softmax Jacobian 产生时间延展的信念塑造梯度。
- • **信念空间中的 LOLA 视角**:我们证明,在贝叶斯观察者模型下,塑造信念等价于塑造对策者的诱导策略,产生与 LOLA 相同的元梯度结构,但具有低维的信念状态。
- • **二阶心智理论的误差界**:我们界定了二阶观察中的近似误差如何通过 \(k\) 步信念链传播到塑造梯度,揭示了更长的前瞻与信念模型准确性之间的权衡。
- • **隐藏角色实验**:我们在 Rescue-the-General、Avalon 变体和多智能体 CoinGame 中评估 D-BOS 与 PPO 和 BBM 的对比,以研究信念空间塑造是否能提高回报、信念轨迹和稳定性。

## 2 相关工作

我们将我们的方法定位在三条主要研究线的交汇处:主动对手塑造算法、用于信念操纵的心智理论计算模型,以及将可微信念更新嵌入神经架构中的方法。

##### 对手塑造
对手塑造研究一个学习者如何通过考虑其行动如何改变其他学习者的结果来改善自身的长期结果。LOLA(Foerster et al.,2018 (https://arxiv.org/html/2605.29042#bib.bib8))通过微分对策者的预期梯度步引入了这一思想,这产生了一个涉及混合二阶导数的元梯度,并且需要一个可微的对策者学习更新模型。随后的工作改进了这一基本公式:SOS(Letcher et al.,2019 (https://arxiv.org/html/2605.29042#bib.bib13))修改了塑造项以提高可微博弈中的稳定性;COLA(Willi et al.,2022 (https://arxiv.org/html/2605.29042#bib.bib27))解决了当两个智能体都使用对手感知更新时的一致性问题;POLA(Zhao et al.,2022 (https://arxiv.org/html/2605.29042#bib.bib29))使用近端公式来减少对策略参数化的敏感性。M-FOS(Lu et al.,2022 (https://arxiv.org/html/2605.29042#bib.bib14))则将对手塑造视为元学习问题,避免了特定的可微对策优化器。

其他工作简化或改变了被微分的对象。LOQA(Aghajohari et al.,2024 (https://arxiv.org/html/2605.29042#bib.bib1))假设对策者通过 softmax Q 值而不是显式的策略梯度学习者来行动。Advantage Alignment(Duque et al.,2025 (https://arxiv.org/html/2605.29042#bib.bib6))表明 LOLA 和 LOQA 风格的塑造项可以通过优势乘积表达,产生一阶算法。D-BOS 在精神上最接近这条工作线:它也寻求一阶塑造信号。与塑造优势函数不同,D-BOS 塑造一个具有已知 softmax-Bayes 更新的显式后验信念状态。这保留了对手塑造的视角,同时将可微更新映射迁移到隐藏角色信念动力学中。

##### 信念操纵与心智理论
信念操纵在隐藏角色和欺骗设定中得到了最直接的研究。贝叶斯信念操纵(BBM)(Aitchison et al.,2021 (https://arxiv.org/html/2605.29042#bib.bib3))是我们最接近的前身。在该框架中,智能体估计观察者对其角色的信念,并计算贝叶斯因子来量化特定动作所揭示的信息,如公式 (1) 所示。
\[
\rho = \frac{\pi_{z^*}(a|h_{i,j,i})}{\sum_{z \in \mathcal{Z}} \pi_z(a|h_{i,j,i}) P_{i,j}(A_i^z)}
\]
(1)
这里 \(\rho\) 是贝叶斯因子,\(\pi_{z^*}\) 是塑造智能体真实角色 \(z^*\) 下的似然,\(P_{i,j}\) 代表观察者的当前信念。\(h_{i,j,i}\) 表示二阶心智理论估计,即智能体 \(A_i\)(塑造智能体)认为智能体 \(A_j\)(观察者)认为 \(A_i\) 观察到了什么。这个值随后被转化为内在奖励信号,表示为 \(r_{int} = -\log(\rho)\),激励欺骗。虽然 BBM 提供了一种训练欺骗智能体的实际方法,但其塑造信号本质上是**短视**的,因为它是每一步独立计算的,并且依赖于预设的方向(欺骗)而不是环境的任务奖励。

更广泛地说,心智理论模型已被用于推断智能体的潜在目标、信念和未来行为。ToMnet(Rabinowitz et al.,2018 (https://arxiv.org/html/2605.29042#bib.bib20))学习从行为中建模其他智能体,Oguntola(Oguntola,2025 (https://arxiv.org/html/2605.29042#bib.bib16))形式化了跨越多个多智能体测试平台的递归心智理论。类似地,Alon et al. (2023)(Alon et al.,2023 (https://arxiv.org/html/2605.29042#bib.bib22))研究了递归推理如何在通信游戏中导致欺骗。这些工作主要作为被动观察者或启发式框架运作。它们并不产生可用于端到端强化学习的可微塑造梯度,这妨碍了它们作为主动对手塑造基线。

最后,虽然基于模型的对策建模(MBOM)(Yu et al.,2022 (https://arxiv.org/html/2605.29042#bib.bib15))使用环境模型来适应推理学习者,但它与 D-BOS 不同,因为它关注基于推断出的对策者策略的适应。此外,MBOM 需要训练一个显式的环境转移模型来模拟递归想象,而 D-BOS 是无环境模型的,只需要观察者信念更新的可微映射。

##### 可微信念更新
可微滤波方法表明,贝叶斯更新可以嵌入到神经计算中。QMDP-net(Karkus et al.,2017 (https://arxiv.org/html/2605.29042#bib.bib12))将贝叶斯滤波和 QMDP 规划编码为用于部分可观测控制的可微神经网络层。IPOMDP-net(Han and Gmytrasiewicz,2019 (https://arxiv.org/html/2605.29042#bib.bib9))将此思想扩展到具有交互信念更新的多智能体设定。这些方法使用可微信念来帮助智能体在其自身不确定性下进行规划。D-BOS 使用相同的计算能力服务于不同的目的:通过 **观察者** 的信念更新进行微分,以塑造该观察者未来将相信什么,以及智能体的行动如何影响这些信念动力学。这个区别在隐藏角色游戏中很重要,因为被优化的信念状态不仅是智能体自身的不确定性,而且是另一个智能体关于塑造者潜在角色的后验。

## 3 预备知识

我们研究 \(n\) 人 **部分可观测隐藏角色游戏**,这是随机博弈(Shapley,1953 (https://arxiv.org/html/2605.29042#bib.bib25))和部分可观测随机博弈(Hansen et al.,2004 (https://arxiv.org/html/2605.29042#bib.bib10))的一个特例。我们将每个游戏形式化为一个元组 \(\langle \mathcal{N}, \mathcal{Z}, \mathcal{S}, \{\mathcal{O}^i\}, \mathcal{A}, T, \{r^i\}, \Omega, \gamma \rangle\),其中 \(\mathcal{N} = \{1,\ldots,n\}\) 是智能体集合;\(\mathcal{Z} = \{0,\ldots,|\mathcal{Z}|-1\}\) 是一个有限的 **隐藏角色假设** 集合(例如,智能体身份或通信槽);\(\mathcal{S}\) 是共享的世界状态;\(\mathcal{O}^i\) 是智能体 \(i\) 的私有观测空间;\(\mathcal{A}\) 是联合动作空间;\(T: \mathcal{S} \times \mathcal{A} \to \Delta(\mathcal{S})\) 是转移核;\(r^i: \mathcal{S} \times \mathcal{A} \to \mathbb{R}\) 是智能体 \(i\) 的奖励;\(\Omega: \mathcal{S} \to \prod_i \Delta(\mathcal{O}^i)\) 是观测函数;\(\gamma \in (0,1)\) 是折扣因子。在每个回合开始时,一个潜在角色 \(z \in \mathcal{Z}\) 被采样并固定;智能体持有其分配角色的知识。所有智能体共享一个角色条件策略网络 \(\pi_\theta(a \mid o, z)\),该网络根据局部观测和角色假设输出动作概率。

为澄清我们框架内的交互动力学,我们区分两个主要实体:
- • **智能体**:我们称塑造并优化基于信念的元梯度的实体为智能体。
- • **观察者**:环境中所有其他参与者,其内部信念是塑造过程的目标,称为观察者。

在任何给定环境中,一个观察者维护一个关于可能角色分配 \(z \in \mathcal{Z}\) 的信念分布。虽然 \(\mathcal{Z}\) 的具体构成和大小根据环境规则而变化,但我们在数学公式中将 \(\mathcal{Z}\) 视为一个通用的离散集合。

### 3.1 对手学习意识学习(LOLA)

LOLA(Foerster et al.,2018 (https://arxiv.org/html/2605.29042#bib.bib8))研究双玩家设定下的博弈,其中一个智能体(智能体 1)考虑其自身策略参数 \(\theta_1\) 如何影响观察者(智能体 2)的预期更新,如公式 (2) 所示:
\[
\Delta\theta_1 = \nabla_{\theta_1} V_1(\theta_1, \theta_2 + \Delta\theta_2)
\]
(2)
在公式 (2) 中,\(V_1\) 是智能体的价值函数,\(\Delta\theta_2\) 是观察者的学习步。LOLA 通过这个参数更新进行优化,这通常需要二阶导数和对观察者学习动态的了解。

### 3.2 BBM 与二阶信念更新

BBM(Aitchison et al.,2021 (https://arxiv.org/html/2605.29042#bib.bib3))采用二阶心智理论(ToM)框架,其中智能体估计观察者关于智能体隐藏角色的后验。由于智能体无法直接访问观察者 \(j\) 对智能体 \(i\) 的私有视角,它必须估计观察者认为智能体能观察到什么。这个二阶观测估计记为 \(\hat{o}_{i,j,i}\)。智能体对观察者信念更新的近似定义在公式 (3) 中。

相似文章

FBOS-RL:反馈驱动的双目标协同强化学习

arXiv cs.LG

本文提出FBOS-RL,一个反馈驱动的双目标协同强化学习框架,通过使用反馈引导的探索和两个相互增强的训练目标——面向利用的策略对齐(EPA)和面向探索的能力培养(ECC)——来提升训练效率和性能上限,优于GRPO在大语言模型对齐和推理中的表现。

基于后验混合贝叶斯信念的正则化离线策略优化

arXiv cs.AI

本文介绍了后验混合贝叶斯信念(PhyB),这是一个将贝叶斯强化学习中的期望重新表述为动力学模型的凸组合的框架,从而能够实现具有有界目标差异和最新性能的高效正则化离线策略优化。

具有对手学习感知的学习

OpenAI Blog

OpenAI 提出了 LOLA (Learning with Opponent-Learning Awareness),一种多智能体强化学习方法,其中智能体能够塑造其他智能体的预期学习过程。该方法展示了在重复囚徒困境中合作的涌现现象,以及在博弈论设置中收敛到纳什均衡。

ALSO:面向社交智能体的对抗性在线策略优化

arXiv cs.AI

ALSO引入了一个多智能体社交模拟中的在线策略优化框架,将多轮交互建模为对抗性赌博机问题,并利用神经代理进行奖励预测。在Sotopia基准上的实验表明,它优于静态基线和现有优化方法。