当动作消失:自对弈强化学习中的对抗性动作移除

arXiv cs.LG 论文

摘要

本文研究了自对弈强化学习中的对抗性动作掩蔽,攻击者选择性移除受害者动作集中的合法动作。实验表明,在多个环境和算法下,该攻击比随机掩蔽或扰动基线造成的损害显著更大,且受害者即使在长时间训练后也无法恢复。

arXiv:2605.16312v1 公告类型:新 摘要:我们研究了自对弈强化学习中的对抗性动作掩蔽:攻击者选择性移除受害者动作集中的合法动作。与观察或动作扰动不同,移除操作在智能体行动前消除其决策选项。在从6到5531个信息状态的扑克游戏以及两个非扑克领域中的实验表明,学习到的掩蔽造成的损害显著大于随机掩蔽和学习到的扰动基线。该攻击对Q学习、PPO、NFSP、神经NFSP和DQN受害者均有效;可在智能体间转移;在自对弈中被放大;并且在长时间掩蔽训练后未见恢复。机制上,对手针对高价值决策点,由达到加权条件动作容量(CAC_w)和值加权改进CAC_v捕捉。这些结果揭示了动作可用性是自对弈RL中的一个独特的鲁棒性表面。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:40

# 自对弈强化学习中的对抗性动作移除
来源:https://arxiv.org/html/2605.16312
## 当动作消失时:自对弈强化学习中的对抗性动作移除

###### 摘要

本文研究自对弈强化学习中的对抗性动作屏蔽:攻击者选择性移除受害者动作集中的合法动作。与观察扰动或动作扰动不同,移除操作在智能体行动之前就消除了决策选项。在从6到5,531个信息状态的扑克游戏以及两个非扑克域中,学习到的屏蔽比随机屏蔽和学习的扰动基线造成显著更大的伤害。该攻击在Q学习、PPO、NFSP、神经NFSP和DQN受害者上均有效;可在不同智能体间迁移;自对弈会放大攻击效果;且在延长屏蔽训练后未见恢复。从机制上看,对抗者瞄准高价值决策点,这可通过到达加权应急动作容量(CACw)和值加权改进型CACv来刻画。这些结果将动作可用性确定为自对弈RL中一个独特的鲁棒性表面。

## 1引言

通过自对弈训练的多智能体强化学习(MARL)智能体在竞争性领域取得了强劲表现(Silver等人,2018 (https://arxiv.org/html/2605.16312#bib.bib7);Brown和Sandholm,2019 (https://arxiv.org/html/2605.16312#bib.bib11)),但它们对结构性环境变化的鲁棒性仍然知之甚少。关于对抗性攻击的先前工作主要集中在观察扰动(Huang等人,2017 (https://arxiv.org/html/2605.16312#bib.bib2);Gleave等人,2020 (https://arxiv.org/html/2605.16312#bib.bib1))或奖励操纵(Zhang等人,2020 (https://arxiv.org/html/2605.16312#bib.bib8))上。我们研究了一个不同的、更严重的攻击表面:*动作空间*本身。

一个选择性移除动作(禁用特定能力而非添加噪声)的对手,构成了与有界扰动在性质上不同的威胁。此类攻击自然会出现:硬件故障禁用执行器,监管变化限制策略,API弃用移除端点,沙箱限制智能体能力。我们将其形式化为一个双层优化问题,其中内循环在屏蔽动作条件下训练RL智能体,外循环训练一个对手来选择要移除哪些动作。

我们的关键发现是,对抗性屏蔽比随机移除*极其更高效*:在Leduc变体中,在可比支持下,学习到的移除造成的伤害最高达随机屏蔽的4.8倍。该机制通过选择性最小化到达加权应急动作容量(CACw)来运作——通过CACw与受害者奖励在不同预算水平之间的强相关性得到实验验证。

#### 贡献。

- • 我们将对抗性动作屏蔽形式化,并显示其在相同训练预算下,造成的伤害是学习的扰动(RARL风格)的4倍。
- • 我们展示了在五个算法(QL、PPO、NFSP、神经NFSP、DQN)上从6到5,531个信息状态的缩放情况,随着游戏复杂度的增加,对手的优势在Leduc家族中从2.2倍增至4.8倍。
- • 我们在两个非扑克环境(竞争性网格世界、资源收集)中验证了跨域通用性,确认该现象并非扑克特有。
- • 我们将该机制与CACw(r=0.80)和改进型CACv(r=0.81)联系起来,并显示受害者即使在延长训练后也无法恢复。

## 2相关工作

#### 对RL的对抗性攻击。

对RL的对抗性攻击最常见的是扰动观察(Huang等人,2017 (https://arxiv.org/html/2605.16312#bib.bib2);Gleave等人,2020 (https://arxiv.org/html/2605.16312#bib.bib1);Zhang等人,2021 (https://arxiv.org/html/2605.16312#bib.bib17);Sun等人,2022 (https://arxiv.org/html/2605.16312#bib.bib15))或投毒奖励(Zhang等人,2020 (https://arxiv.org/html/2605.16312#bib.bib8))。在多智能体设置中,近期工作研究了对抗性策略(Gleave等人,2020 (https://arxiv.org/html/2605.16312#bib.bib1))、针对合作MARL的稀疏或基于模型的攻击(Lin等人,2020 (https://arxiv.org/html/2605.16312#bib.bib23);Hu和Zhang,2022 (https://arxiv.org/html/2605.16312#bib.bib24))以及合谋策略级攻击者(Niu等人,2026 (https://arxiv.org/html/2605.16312#bib.bib25))。这些攻击操纵观察、策略或奖励,但保持合法动作集不变。我们转而研究对动作可用性本身的结构性攻击。

#### 鲁棒和动作鲁棒RL。

鲁棒MDP(Iyengar, 2005 (https://arxiv.org/html/2605.16312#bib.bib18);Nilim和El Ghaoui, 2005 (https://arxiv.org/html/2605.16312#bib.bib19))和约束MDP(Altman, 1999 (https://arxiv.org/html/2605.16312#bib.bib10))对环境中的不确定性或约束进行建模。鲁棒对抗RL(RARL)(Pinto等人,2017 (https://arxiv.org/html/2605.16312#bib.bib13))和动作鲁棒RL(Tessler等人,2019 (https://arxiv.org/html/2605.16312#bib.bib14))针对实际执行的动作的扰动进行训练。这些通道修改选定的动作;我们的对手在动作选择之前将其从合法集中移除。这一区别很重要:有界扰动保留了智能体选择的能力,而移除可能将决策点折叠成单动作集。

#### 鲁棒MARL防御。

近期鲁棒MARL方法训练智能体对抗结构性对手,包括针对时间耦合扰动的博弈论鲁棒训练(GRAD)(Liang等人,2024 (https://arxiv.org/html/2605.16312#bib.bib27))和故障切换MARL防御如MARTA(Mguni等人,2025 (https://arxiv.org/html/2605.16312#bib.bib28))。容错控制长期以来研究执行器故障和重构(Blanke等人,2006 (https://arxiv.org/html/2605.16312#bib.bib29));我们的设置可被视为一个学习的类比,其中故障是状态相关的且由对手选择。这些方法是互补的:它们提高了对扰动、故障或完整联合动作空间内对抗智能体的鲁棒性。我们的攻击改变了可行的动作集本身。这些防御的掩码感知版本是一个自然的方向,但现有的保证并不直接涵盖合法动作的状态相关移除。

#### 动作集与掩码。

无效动作掩码防止智能体选择不可能的动作(Huang和Ontañón,2022 (https://arxiv.org/html/2605.16312#bib.bib3))。决策理论规划长期以来研究结构性杠杆和动作应急性(Boutilier等人,1999 (https://arxiv.org/html/2605.16312#bib.bib22)),而赋能度量量化了智能体对未来结果的可控能力(Klyubin等人,2005 (https://arxiv.org/html/2605.16312#bib.bib30))。我们的CAC视角在精神上相关,但它是游戏局部和对抗性的:它衡量到达信息状态处剩余的多动作决策容量。我们的工作颠倒了通常的掩码动机:掩码不是安全或效率辅助,而是攻击者选择的能力移除。

#### 自对弈与不完全信息博弈。

自对弈可能过拟合、循环或利用非传递结构(Balduzzi等人,2019 (https://arxiv.org/html/2605.16312#bib.bib4);Lanctot等人,2019 (https://arxiv.org/html/2605.16312#bib.bib5))。遗憾最小化方法如CFR(Zinkevich等人,2007 (https://arxiv.org/html/2605.16312#bib.bib20))和Deep CFR(Brown等人,2019 (https://arxiv.org/html/2605.16312#bib.bib21))为不完全信息博弈提供了强大基线,而NFSP(Heinrich和Silver,2016 (https://arxiv.org/html/2605.16312#bib.bib12))结合了最优反应学习和平均策略跟踪。群体方法如PSRO(Lanctot等人,2017 (https://arxiv.org/html/2605.16312#bib.bib6))保持了多样性。我们表明,这些算法稳定器并不能解决不同的故障模式:当动作集本身被结构性缩减时,平均化和群体多样性无法恢复被消除的策略维度。

## 3问题形式化

#### 博弈模型。

考虑一个双人零和扩展式博弈Γ,信息集为I=I0∪I1。在信息集h∈Ip处,玩家p从合法动作A(h)中选择。玩家0是*受害者*;玩家1是对手。两者都通过自对弈学习。

#### 对手定义。

一个*动作移除对手*是一个映射M:I0→2A,在每个受害者信息集h处,选择要*保留*的动作子集M(h)⊆A(h)。受害者只观察到M(h),且不知道对手的存在。形式上:

- • 输入:信息集h,合法动作A(h),当前玩家p。
- • 输出:M(h)⊆A(h)且|M(h)|≥1(至少保留一个动作)。
- • 约束:|supp(M)|=|{h:|M(h)|<|A(h)|}|≤k(预算)。
- • 目标:最小化受害者的期望值V0(πM*)。

#### 双层优化。

对手和受害者通过一个双层问题交互:

内层:πM* = arg maxπ E[∑t rt | π, M]    (1)
外层:M* = arg min_{M∈C_k} V0(πM*)    (2)
其中C_k = {M: |supp(M)| ≤ k}。内循环在对手的掩码下通过RL训练受害者;外循环通过REINFORCE以信号−V0更新对手。实践中,我们交替进行:500个episode的内层训练,然后一个对手梯度步,总共20–25个外循环迭代。

#### 对手实现。

*表格型*:偏好表θ(h,a),其中p_remove(a|h)=softmax(θ(h,·));移除概率最高的动作被移除。通过REINFORCE更新。*神经型*:MLP f_φ: R^d → Δ^{|A|+1},将状态特征映射到|A|个移除选择加上“不移除”的分布。通过REINFORCE以均值奖励基线训练。

#### 与CACw的联系。

定义*到达加权应急动作容量*:

CACw(M) = ∑_{h∈I0} ρ(h) · 1[|M(h)|>1]

其中ρ(h)是当前玩法下h的到达概率。CACw衡量*剩余的*多动作容量:一个未被掩码且至少有两个保留动作的决策状态贡献正容量,而一个被折叠为单动作的状态贡献零容量。因此,更强的攻击通过将高到达决策点变成强制动作来降低CACw。对手的值最小化目标(2 (https://arxiv.org/html/2605.16312#S3.E2))可以分解:在状态h处掩码大约将V0减少ρ(h)·δ(h),其中δ(h)=|Q(h,a*)−Q(h,a_forced)|是在h处的*值差距*。这启发了一个改进型度量:

CACv(M) = ∑_{h∈I0} ρ(h)·δ(h)·1[|M(h)|>1]

经验上,CACv与受害者奖励的相关性为r=0.81,而CACw为r=0.77(第5.4节 (https://arxiv.org/html/2605.16312#S5.SS4))。

#### 确定性利用吸引子(DEA)。

###### 命题1(DEA收敛)。

在自对弈Q学习中,CACw=0且使用ε-贪婪(ε>0,α∈(0,1)):(i) 受害者的策略收敛到每个信息集处的唯一强制动作;(ii) 对手的Q值收敛到Q* = V(BR(σ*));(iii) (σ*, BR(σ*))是一个稳定不动点。

*证明概要。*强制动作使受害者的策略与Q值无关。对手面临一个平稳MDP;Q学习在标准条件下收敛。该对是稳定的:没有玩家能单方面偏离。

###### 命题2(伤害界)。

设M通过保留一个单例动作af(h*)来掩码一个单个信息集h*。相对于未掩码玩法,受害者的值损失有下界:

ΔV0 ≥ ρ(h*)·[Q0(h*,a*(h*)) − Q0(h*,af(h*))]

其中a*(h) = arg max_{a∈A(h)} Q0(h,a)是受害者的最佳动作,af(h)是掩码在h处强制的动作,ρ(h)是到达概率。对于一个预算为k、支持集S=supp(M)的对手,加性近似为:

ΔV0(M) ≈ ∑_{h∈S} ρ(h)·[Q0(h,a*(h)) − Q0(h,af(h))]

并且有上界:

ΔV0(M) ≤ ∑_{h∈S} ρ(h)·max_{af∈A(h)\{a*(h)}} [Q0(h,a*(h)) − Q0(h,af)]。

因此,一个贪婪的对手选择具有高ρ(h)δ(h)的状态,其中δ(h)=Q0(h,a*(h))−Q0(h,af(h))——正是那些最大化单位CACv减少的状态。

*证明。*该界遵循Q值的定义和到达加权轨迹上的期望线性性。在状态h*处强制af(h*)而不是a*(h*)期望损失Q0(h*,a*(h*))−Q0(h*,af(h*)),由ρ(h*)加权。在掩码状态位于独立分支的简化假设下,得出的覆盖目标暗示了一个近似的贪婪结构。¹⁾该独立性假设在扩展式博弈中仅是近似的:掩码一个状态会改变下游的到达概率和Q值。

#### 理论范围。

命题1–2提供了*充分条件*和*局部界*,并非最优对手的完整刻画。伤害界是每个状态且加性的,忽略了跨状态交互(掩码状态h可能改变下游状态的到达概率和Q值)。全局刻画需要解决一个组合优化问题,涉及(|I0| choose k)种掩码配置——通过归约为加权最大覆盖问题,通常是NP难的。在近似独立条件下,值差距分解启发了一个基于高ρ·δ状态的贪婪启发式;我们并未声称在任意扩展式博弈中具有通用近似保证。我们视这些界为解释*为什么*对手有效,而非完全刻画*它能在多大程度上*有效。

## 4方法

#### 自对弈协议。

两个玩家共享

相似文章

神经网络策略的对抗性攻击

OpenAI Blog

OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。

用对抗样本攻击机器学习

OpenAI Blog

本文讨论了针对机器学习模型的对抗攻击,并展示了梯度掩蔽(一种试图拒绝攻击者访问有用梯度的防御技术)为何从根本上是无效的。论文表明,攻击者可以通过训练能够模拟被防御模型行为的替代模型来绕过梯度掩蔽,最终使这一防御策略失效。

策略感知模拟器学习的理论基础与高效算法

arXiv cs.LG

本文提出了一种用于基于模型的强化学习中模拟器学习的策略鲁棒性目标,将其建模为模型玩家与对抗性策略玩家之间的极小极大博弈。提供了理论保证和可证明收敛的算法,实验表明预测误差在关键区域降低1.5-2.2倍,并提升了策略从模拟到真实世界的迁移效果。

对齐篡改:人类反馈强化学习如何被利用来优化失调偏见

Hugging Face Daily Papers

本文介绍了一种名为“对齐篡改”的漏洞,该漏洞存在于人类反馈强化学习(RLHF)中,语言模型可通过操纵偏好数据集来放大失调偏见,并通过实验在性别歧视、品牌推广及目标寻求等多种偏见上进行了验证,同时指出现有缓解技术并不足以解决此问题。