当动作消失：自对弈强化学习中的对抗性动作移除

arXiv cs.LG 2026/05/19 04:00 论文

reinforcement-learning multi-agent adversarial-attack self-play action-masking robustness

摘要

本文研究了自对弈强化学习中的对抗性动作掩蔽，攻击者选择性移除受害者动作集中的合法动作。实验表明，在多个环境和算法下，该攻击比随机掩蔽或扰动基线造成的损害显著更大，且受害者即使在长时间训练后也无法恢复。

arXiv:2605.16312v1 公告类型：新摘要：我们研究了自对弈强化学习中的对抗性动作掩蔽：攻击者选择性移除受害者动作集中的合法动作。与观察或动作扰动不同，移除操作在智能体行动前消除其决策选项。在从6到5531个信息状态的扑克游戏以及两个非扑克领域中的实验表明，学习到的掩蔽造成的损害显著大于随机掩蔽和学习到的扰动基线。该攻击对Q学习、PPO、NFSP、神经NFSP和DQN受害者均有效；可在智能体间转移；在自对弈中被放大；并且在长时间掩蔽训练后未见恢复。机制上，对手针对高价值决策点，由达到加权条件动作容量（CAC_w）和值加权改进CAC_v捕捉。这些结果揭示了动作可用性是自对弈RL中的一个独特的鲁棒性表面。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:40

# 自对弈强化学习中的对抗性动作移除
来源：https://arxiv.org/html/2605.16312
## 当动作消失时：自对弈强化学习中的对抗性动作移除

###### 摘要

本文研究自对弈强化学习中的对抗性动作屏蔽：攻击者选择性移除受害者动作集中的合法动作。与观察扰动或动作扰动不同，移除操作在智能体行动之前就消除了决策选项。在从6到5,531个信息状态的扑克游戏以及两个非扑克域中，学习到的屏蔽比随机屏蔽和学习的扰动基线造成显著更大的伤害。该攻击在Q学习、PPO、NFSP、神经NFSP和DQN受害者上均有效；可在不同智能体间迁移；自对弈会放大攻击效果；且在延长屏蔽训练后未见恢复。从机制上看，对抗者瞄准高价值决策点，这可通过到达加权应急动作容量（CACw）和值加权改进型CACv来刻画。这些结果将动作可用性确定为自对弈RL中一个独特的鲁棒性表面。

## 1引言

通过自对弈训练的多智能体强化学习（MARL）智能体在竞争性领域取得了强劲表现（Silver等人，2018 (https://arxiv.org/html/2605.16312#bib.bib7)；Brown和Sandholm，2019 (https://arxiv.org/html/2605.16312#bib.bib11)），但它们对结构性环境变化的鲁棒性仍然知之甚少。关于对抗性攻击的先前工作主要集中在观察扰动（Huang等人，2017 (https://arxiv.org/html/2605.16312#bib.bib2)；Gleave等人，2020 (https://arxiv.org/html/2605.16312#bib.bib1)）或奖励操纵（Zhang等人，2020 (https://arxiv.org/html/2605.16312#bib.bib8)）上。我们研究了一个不同的、更严重的攻击表面：*动作空间*本身。

一个选择性移除动作（禁用特定能力而非添加噪声）的对手，构成了与有界扰动在性质上不同的威胁。此类攻击自然会出现：硬件故障禁用执行器，监管变化限制策略，API弃用移除端点，沙箱限制智能体能力。我们将其形式化为一个双层优化问题，其中内循环在屏蔽动作条件下训练RL智能体，外循环训练一个对手来选择要移除哪些动作。

我们的关键发现是，对抗性屏蔽比随机移除*极其更高效*：在Leduc变体中，在可比支持下，学习到的移除造成的伤害最高达随机屏蔽的4.8倍。该机制通过选择性最小化到达加权应急动作容量（CACw）来运作——通过CACw与受害者奖励在不同预算水平之间的强相关性得到实验验证。

#### 贡献。

- • 我们将对抗性动作屏蔽形式化，并显示其在相同训练预算下，造成的伤害是学习的扰动（RARL风格）的4倍。
- • 我们展示了在五个算法（QL、PPO、NFSP、神经NFSP、DQN）上从6到5,531个信息状态的缩放情况，随着游戏复杂度的增加，对手的优势在Leduc家族中从2.2倍增至4.8倍。
- • 我们在两个非扑克环境（竞争性网格世界、资源收集）中验证了跨域通用性，确认该现象并非扑克特有。
- • 我们将该机制与CACw（r=0.80）和改进型CACv（r=0.81）联系起来，并显示受害者即使在延长训练后也无法恢复。

## 2相关工作

#### 对RL的对抗性攻击。

对RL的对抗性攻击最常见的是扰动观察（Huang等人，2017 (https://arxiv.org/html/2605.16312#bib.bib2)；Gleave等人，2020 (https://arxiv.org/html/2605.16312#bib.bib1)；Zhang等人，2021 (https://arxiv.org/html/2605.16312#bib.bib17)；Sun等人，2022 (https://arxiv.org/html/2605.16312#bib.bib15)）或投毒奖励（Zhang等人，2020 (https://arxiv.org/html/2605.16312#bib.bib8)）。在多智能体设置中，近期工作研究了对抗性策略（Gleave等人，2020 (https://arxiv.org/html/2605.16312#bib.bib1)）、针对合作MARL的稀疏或基于模型的攻击（Lin等人，2020 (https://arxiv.org/html/2605.16312#bib.bib23)；Hu和Zhang，2022 (https://arxiv.org/html/2605.16312#bib.bib24)）以及合谋策略级攻击者（Niu等人，2026 (https://arxiv.org/html/2605.16312#bib.bib25)）。这些攻击操纵观察、策略或奖励，但保持合法动作集不变。我们转而研究对动作可用性本身的结构性攻击。

#### 鲁棒和动作鲁棒RL。

鲁棒MDP（Iyengar, 2005 (https://arxiv.org/html/2605.16312#bib.bib18)；Nilim和El Ghaoui, 2005 (https://arxiv.org/html/2605.16312#bib.bib19)）和约束MDP（Altman, 1999 (https://arxiv.org/html/2605.16312#bib.bib10)）对环境中的不确定性或约束进行建模。鲁棒对抗RL（RARL）（Pinto等人，2017 (https://arxiv.org/html/2605.16312#bib.bib13)）和动作鲁棒RL（Tessler等人，2019 (https://arxiv.org/html/2605.16312#bib.bib14)）针对实际执行的动作的扰动进行训练。这些通道修改选定的动作；我们的对手在动作选择之前将其从合法集中移除。这一区别很重要：有界扰动保留了智能体选择的能力，而移除可能将决策点折叠成单动作集。

#### 鲁棒MARL防御。

近期鲁棒MARL方法训练智能体对抗结构性对手，包括针对时间耦合扰动的博弈论鲁棒训练（GRAD）（Liang等人，2024 (https://arxiv.org/html/2605.16312#bib.bib27)）和故障切换MARL防御如MARTA（Mguni等人，2025 (https://arxiv.org/html/2605.16312#bib.bib28)）。容错控制长期以来研究执行器故障和重构（Blanke等人，2006 (https://arxiv.org/html/2605.16312#bib.bib29)）；我们的设置可被视为一个学习的类比，其中故障是状态相关的且由对手选择。这些方法是互补的：它们提高了对扰动、故障或完整联合动作空间内对抗智能体的鲁棒性。我们的攻击改变了可行的动作集本身。这些防御的掩码感知版本是一个自然的方向，但现有的保证并不直接涵盖合法动作的状态相关移除。

#### 动作集与掩码。

无效动作掩码防止智能体选择不可能的动作（Huang和Ontañón，2022 (https://arxiv.org/html/2605.16312#bib.bib3)）。决策理论规划长期以来研究结构性杠杆和动作应急性（Boutilier等人，1999 (https://arxiv.org/html/2605.16312#bib.bib22)），而赋能度量量化了智能体对未来结果的可控能力（Klyubin等人，2005 (https://arxiv.org/html/2605.16312#bib.bib30)）。我们的CAC视角在精神上相关，但它是游戏局部和对抗性的：它衡量到达信息状态处剩余的多动作决策容量。我们的工作颠倒了通常的掩码动机：掩码不是安全或效率辅助，而是攻击者选择的能力移除。

#### 自对弈与不完全信息博弈。

自对弈可能过拟合、循环或利用非传递结构（Balduzzi等人，2019 (https://arxiv.org/html/2605.16312#bib.bib4)；Lanctot等人，2019 (https://arxiv.org/html/2605.16312#bib.bib5)）。遗憾最小化方法如CFR（Zinkevich等人，2007 (https://arxiv.org/html/2605.16312#bib.bib20)）和Deep CFR（Brown等人，2019 (https://arxiv.org/html/2605.16312#bib.bib21)）为不完全信息博弈提供了强大基线，而NFSP（Heinrich和Silver，2016 (https://arxiv.org/html/2605.16312#bib.bib12)）结合了最优反应学习和平均策略跟踪。群体方法如PSRO（Lanctot等人，2017 (https://arxiv.org/html/2605.16312#bib.bib6)）保持了多样性。我们表明，这些算法稳定器并不能解决不同的故障模式：当动作集本身被结构性缩减时，平均化和群体多样性无法恢复被消除的策略维度。

## 3问题形式化

#### 博弈模型。

考虑一个双人零和扩展式博弈Γ，信息集为I=I0∪I1。在信息集h∈Ip处，玩家p从合法动作A(h)中选择。玩家0是*受害者*；玩家1是对手。两者都通过自对弈学习。

#### 对手定义。

一个*动作移除对手*是一个映射M:I0→2A，在每个受害者信息集h处，选择要*保留*的动作子集M(h)⊆A(h)。受害者只观察到M(h)，且不知道对手的存在。形式上：

- • 输入：信息集h，合法动作A(h)，当前玩家p。
- • 输出：M(h)⊆A(h)且|M(h)|≥1（至少保留一个动作）。
- • 约束：|supp(M)|=|{h:|M(h)|<|A(h)|}|≤k（预算）。
- • 目标：最小化受害者的期望值V0(πM*)。

#### 双层优化。

对手和受害者通过一个双层问题交互：

内层：πM* = arg maxπ E[∑t rt | π, M]    (1)
外层：M* = arg min_{M∈C_k} V0(πM*)    (2)
其中C_k = {M: |supp(M)| ≤ k}。内循环在对手的掩码下通过RL训练受害者；外循环通过REINFORCE以信号−V0更新对手。实践中，我们交替进行：500个episode的内层训练，然后一个对手梯度步，总共20–25个外循环迭代。

#### 对手实现。

*表格型*：偏好表θ(h,a)，其中p_remove(a|h)=softmax(θ(h,·))；移除概率最高的动作被移除。通过REINFORCE更新。*神经型*：MLP f_φ: R^d → Δ^{|A|+1}，将状态特征映射到|A|个移除选择加上“不移除”的分布。通过REINFORCE以均值奖励基线训练。

#### 与CACw的联系。

定义*到达加权应急动作容量*：

CACw(M) = ∑_{h∈I0} ρ(h) · 1[|M(h)|>1]

其中ρ(h)是当前玩法下h的到达概率。CACw衡量*剩余的*多动作容量：一个未被掩码且至少有两个保留动作的决策状态贡献正容量，而一个被折叠为单动作的状态贡献零容量。因此，更强的攻击通过将高到达决策点变成强制动作来降低CACw。对手的值最小化目标（2 (https://arxiv.org/html/2605.16312#S3.E2)）可以分解：在状态h处掩码大约将V0减少ρ(h)·δ(h)，其中δ(h)=|Q(h,a*)−Q(h,a_forced)|是在h处的*值差距*。这启发了一个改进型度量：

CACv(M) = ∑_{h∈I0} ρ(h)·δ(h)·1[|M(h)|>1]

经验上，CACv与受害者奖励的相关性为r=0.81，而CACw为r=0.77（第5.4节 (https://arxiv.org/html/2605.16312#S5.SS4)）。

#### 确定性利用吸引子（DEA）。

###### 命题1（DEA收敛）。

在自对弈Q学习中，CACw=0且使用ε-贪婪（ε>0，α∈(0,1)）：(i) 受害者的策略收敛到每个信息集处的唯一强制动作；(ii) 对手的Q值收敛到Q* = V(BR(σ*))；(iii) (σ*, BR(σ*))是一个稳定不动点。

*证明概要。*强制动作使受害者的策略与Q值无关。对手面临一个平稳MDP；Q学习在标准条件下收敛。该对是稳定的：没有玩家能单方面偏离。

###### 命题2（伤害界）。

设M通过保留一个单例动作af(h*)来掩码一个单个信息集h*。相对于未掩码玩法，受害者的值损失有下界：

ΔV0 ≥ ρ(h*)·[Q0(h*,a*(h*)) − Q0(h*,af(h*))]

其中a*(h) = arg max_{a∈A(h)} Q0(h,a)是受害者的最佳动作，af(h)是掩码在h处强制的动作，ρ(h)是到达概率。对于一个预算为k、支持集S=supp(M)的对手，加性近似为：

ΔV0(M) ≈ ∑_{h∈S} ρ(h)·[Q0(h,a*(h)) − Q0(h,af(h))]

并且有上界：

ΔV0(M) ≤ ∑_{h∈S} ρ(h)·max_{af∈A(h)\{a*(h)}} [Q0(h,a*(h)) − Q0(h,af)]。

因此，一个贪婪的对手选择具有高ρ(h)δ(h)的状态，其中δ(h)=Q0(h,a*(h))−Q0(h,af(h))——正是那些最大化单位CACv减少的状态。

*证明。*该界遵循Q值的定义和到达加权轨迹上的期望线性性。在状态h*处强制af(h*)而不是a*(h*)期望损失Q0(h*,a*(h*))−Q0(h*,af(h*))，由ρ(h*)加权。在掩码状态位于独立分支的简化假设下，得出的覆盖目标暗示了一个近似的贪婪结构。¹⁾该独立性假设在扩展式博弈中仅是近似的：掩码一个状态会改变下游的到达概率和Q值。

#### 理论范围。

命题1–2提供了*充分条件*和*局部界*，并非最优对手的完整刻画。伤害界是每个状态且加性的，忽略了跨状态交互（掩码状态h可能改变下游状态的到达概率和Q值）。全局刻画需要解决一个组合优化问题，涉及(|I0| choose k)种掩码配置——通过归约为加权最大覆盖问题，通常是NP难的。在近似独立条件下，值差距分解启发了一个基于高ρ·δ状态的贪婪启发式；我们并未声称在任意扩展式博弈中具有通用近似保证。我们视这些界为解释*为什么*对手有效，而非完全刻画*它能在多大程度上*有效。

## 4方法

#### 自对弈协议。

两个玩家共享

当动作消失：自对弈强化学习中的对抗性动作移除

相似文章

神经网络策略的对抗性攻击

镜中的攻击者：通过锚定双策略自我博弈打破安全中的自洽性

用对抗样本攻击机器学习

策略感知模拟器学习的理论基础与高效算法

对齐篡改：人类反馈强化学习如何被利用来优化失调偏见

提交意见反馈