多模态多智能体推理的分层攻击

arXiv cs.AI 2026/05/14 04:00 论文

security adversarial-attacks multi-agent-systems multi-modal reasoning vulnerability

摘要

提出HAM3，一种针对多模态多智能体系统的感知层、通信层和推理层的分层攻击框架，在GQA基准测试中达到高达78.3%的攻击成功率。

arXiv:2605.13213v1 公告类型：新摘要：多模态多智能体系统（MM-MAS）因其在跨不同模态实现复杂推理和协调的能力而受到越来越多的关注。随着这些系统在规模和功能上不断扩展，研究其潜在漏洞变得越来越重要。然而，现有关于多智能体系统中对抗攻击的研究主要集中于孤立智能体或单模态场景，使得MM-MAS的漏洞在很大程度上未被探索。为弥补这一空白，我们提出了HAM$^{3}$，一种针对多模态多智能体系统的分层攻击框架，将攻击分解为三个相互连接的层面。具体而言，在感知层，HAM$^{3}$通过扰动视觉输入、文本输入及其融合的视觉-文本表征来发起攻击。在通信层，它执行通信级攻击，破坏消息内容和交互拓扑，例如操纵共享上下文或通信链路以扭曲集体信息流。在推理层，它进行推理级攻击，干扰每个智能体的认知管道，使推理轨迹产生偏差，并最终影响最终决策。我们在GQA基准测试上，通过基于不同推理范式（包括ReAct、Plan-and-Solve和Reflexion）构建的多智能体系统评估了HAM$^{3}$。实验表明，我们的框架实现了高达78.3%的攻击成功率，其中推理层攻击最为有效。超过一半的成功攻击导致多个智能体产生一致错误。这些发现为构建更鲁棒和可解释的多智能体智能体提供了宝贵见解。

查看原文

查看缓存全文

缓存时间: 2026/05/14 06:15

# 多模态多智能体推理的分层攻击
来源：https://arxiv.org/html/2605.13213
Hao Zhou Tiru Wu¹ Yan Jiang¹ Wanqi Zhou Junxing Hu Ai Han JD\.com hanai5@jd\.com

###### 摘要

多模态多智能体系统（MM-MAS）因其跨多种模态实现复杂推理与协调的能力而日益受到关注。随着这些系统在规模和功能上的不断扩展，探究其潜在漏洞变得愈发重要。然而，现有关于多智能体系统对抗性攻击的研究主要集中于孤立智能体或单模态场景，导致MM-MAS的脆弱性在很大程度上未被充分探索。为填补这一空白，我们提出了HAM³，一种面向多模态多智能体系统的分层攻击框架，将攻击分解为三个相互关联的层次。具体来说，在感知层，HAM³通过扰动视觉输入、文本输入及其融合的视觉-文本表征来发起攻击。在通信层，它执行通信级别的攻击，破坏消息内容和交互拓扑，例如操纵共享上下文或通信链路以扭曲集体信息流。在推理层，它进行推理级别的攻击，干扰每个智能体的认知管线，偏置推理轨迹，最终损害最终决策。我们在基于不同推理范式（包括ReAct、Plan-and-Solve和Reflexion）构建的多智能体系统上，在GQA基准上评估了HAM³。实验表明，我们的框架的攻击成功率高达78.3%，其中推理层攻击最为有效。超过一半的成功攻击导致多个智能体产生一致的错误。这些发现为构建更鲁棒、更具可解释性的多智能体智能提供了宝贵见解。

![图标题](caption)

图1：多模态多智能体系统的分层攻击，展示了三个攻击层次：感知、通信和推理。该图描绘了多智能体系统的生命周期，突出了每个层次的攻击表现，并提供了这些攻击如何影响系统功能的示例。

## 1 引言

多模态和多智能体学习的最新进展[40（https://arxiv.org/html/2605.13213#bib.bib25），16（https://arxiv.org/html/2605.13213#bib.bib17），21（https://arxiv.org/html/2605.13213#bib.bib18），22（https://arxiv.org/html/2605.13213#bib.bib19）]使得协作感知与决策变得愈发重要，推动了其在社交互动[31（https://arxiv.org/html/2605.13213#bib.bib33）]、具身控制[39（https://arxiv.org/html/2605.13213#bib.bib24）]和自动驾驶[19（https://arxiv.org/html/2605.13213#bib.bib20）]等多个领域的部署。随着这些协作系统在规模和互联性上的扩展，研究其对抗性漏洞对于确保可靠且富有弹性的多智能体智能[10（https://arxiv.org/html/2605.13213#bib.bib54）]至关重要。

先前的对抗性漏洞研究主要集中于单智能体场景，攻击者通过操纵观测值、提示或记忆来偏置单个智能体的推理[4（https://arxiv.org/html/2605.13213#bib.bib14），3（https://arxiv.org/html/2605.13213#bib.bib15）]。最近的多智能体攻击研究主要将单智能体对抗原则扩展到多智能体设置，主要通过扰动智能体特定的消息或操纵共享的功能接口来影响个体决策[9（https://arxiv.org/html/2605.13213#bib.bib58），23（https://arxiv.org/html/2605.13213#bib.bib57）]。尽管这类方法揭示了智能体间消息交换与协调机制中的弱点，但它们仍局限于内容级别的操纵。因此，它们未能深入考察根植于通信拓扑或集体推理动态中的结构性漏洞，而这些漏洞正是多智能体系统所独有的。与此同时，多模态对抗性攻击的研究主要针对模型层面的感知，例如通过排版、组合或基于逻辑的视觉提示来越狱或误导视觉语言模型[6（https://arxiv.org/html/2605.13213#bib.bib22），30（https://arxiv.org/html/2605.13213#bib.bib23），49（https://arxiv.org/html/2605.13213#bib.bib21），47（https://arxiv.org/html/2605.13213#bib.bib49）]，而非攻击智能体的决策管线。因此，基于多模态LLM的智能体（尤其是在多智能体协作下）的对抗鲁棒性在很大程度上仍未被充分探索。

为解决这些局限性，如图1（https://arxiv.org/html/2605.13213#S0.F1）所示，我们引入了HAM³，一个统一的对抗框架，刻画了扰动如何在多模态多智能体系统的感知、通信和推理层间传播。**感知层**建模了对视觉、文本或其他多模态输入的对抗性操纵，这些操纵会在入口点影响所有智能体。**通信层**捕捉智能体间信息流的中断，包括消息篡改、链路阻塞和智能体冒充，这些行为同时改变了消息内容和交互拓扑。**推理层**形式化了每个智能体内部推理过程中的干扰，攻击要么直接修改中间推理步骤，要么间接偏置引导下游推理的上下文信号。这些组件共同提供了一个结构化视图，展示了局部扰动如何级联式地影响整个多智能体工作流并损害最终的集体决策。

我们的贡献有三点：

- • 我们首次系统性地研究了*多模态多智能体*系统的对抗鲁棒性，并引入了一个多模态智能体攻击基准，该基准将公开发布。
- • 我们提出了HAM³，一个统一的对抗框架，将扰动效果分解到感知、通信和推理层次，刻画了局部攻击如何通过多模态输入、智能体间通信拓扑和内部推理轨迹传播。
- • 通过大量实验，我们表明推理层干扰在持续性、隐蔽性和系统性影响方面显著强于内容级别的扰动，为构建具有弹性的多模态多智能体系统提供了可操作的见解。

![图标题](caption)

图2：多模态多智能体范式下HAM³攻击框架概览

## 2 相关工作

#### 多模态多智能体系统。

基于LLM的智能体通过将强大的语言模型与外部工具集成用于推理和行动，扩展了传统的智能系统[25（https://arxiv.org/html/2605.13213#bib.bib48），28（https://arxiv.org/html/2605.13213#bib.bib50），41（https://arxiv.org/html/2605.13213#bib.bib51），29（https://arxiv.org/html/2605.13213#bib.bib52）]。超越这些单智能体范式，多智能体系统进一步利用LLM的角色扮演和协调能力来支持协作规划和问题求解[36（https://arxiv.org/html/2605.13213#bib.bib42），34（https://arxiv.org/html/2605.13213#bib.bib45），44（https://arxiv.org/html/2605.13213#bib.bib46），27（https://arxiv.org/html/2605.13213#bib.bib47）]。代表性框架如AutoGen[38（https://arxiv.org/html/2605.13213#bib.bib43）]、Camel[18（https://arxiv.org/html/2605.13213#bib.bib41）]、AgentScope[5（https://arxiv.org/html/2605.13213#bib.bib44）]和MuMA-ToM[31（https://arxiv.org/html/2605.13213#bib.bib33）]展示了结构化的通信协议——包括辩论、投票和角色专业化——如何在协作LLM智能体之间实现更丰富的多模态和具身推理。在此进展基础上，最近的应用进一步将多模态多智能体能力扩展到实际领域，包括文档理解（MDocAgent[8（https://arxiv.org/html/2605.13213#bib.bib34）]）、人机网页导航（CowPilot[13（https://arxiv.org/html/2605.13213#bib.bib26）]）、医学图像分析（WSI-Agents[24（https://arxiv.org/html/2605.13213#bib.bib27）]）、语义通信（M4SC[17（https://arxiv.org/html/2605.13213#bib.bib28）]）以及跨文本、图像、音频和视频的统一推理（Agent-Omni[20（https://arxiv.org/html/2605.13213#bib.bib29）]）。然而，随着模态和协作智能体的激增，此类系统的鲁棒性面临越来越大的挑战。本研究探究了驱动协作多模态推理脆弱性的关键因素。

#### 智能体攻击。

基于LLM的智能体的安全性已引起越来越多的关注，正如综述[42（https://arxiv.org/html/2605.13213#bib.bib63）]所强调的那样。早期工作主要研究单智能体漏洞。InjecAgent[43（https://arxiv.org/html/2605.13213#bib.bib60）]对集成了工具的智能体进行了间接提示注入攻击的基准测试，而Agent Security Bench (ASB)[45（https://arxiv.org/html/2605.13213#bib.bib59）]引入了一个统一的威胁模型，并评估了提示操纵、工具调用破坏和环境扰动等攻击，表明智能体总体上仍然脆弱。在此基础上，最近的研究探索了多智能体系统特有的风险，包括通信操纵[9（https://arxiv.org/html/2605.13213#bib.bib58）]、由被投毒的共享工具引发的级联失效[23（https://arxiv.org/html/2605.13213#bib.bib57）]、破坏协作的阻塞行为[48（https://arxiv.org/html/2605.13213#bib.bib56）]以及由恶意参与者引入的有偏协调[46（https://arxiv.org/html/2605.13213#bib.bib55）]。Huang等人[10（https://arxiv.org/html/2605.13213#bib.bib54）]进一步分析了故障如何在智能体集群中传播。超越文本环境，新兴工作开始研究多模态智能体。Wu等人[37（https://arxiv.org/html/2605.13213#bib.bib53）]表明基于网页的多模态智能体仍然容易受到跨模态扰动和组件交互缺陷的影响。然而，现有的多模态和多智能体攻击研究在很大程度上仍归约为单智能体漏洞：攻击通常修改一个智能体的消息内容或破坏共享工具，而其他智能体只是在固定通信结构下传播由此产生的错误。这些方法忽视了漏洞如何通过多模态感知、通信和推理层传播，并且未考虑智能体交互中的结构性变化。因此，共享内存破坏、通信拓扑扰动和跨层交互等风险仍未得到探索。为填补这一空白，我们引入了HAM³，一个分层攻击框架，分析跨感知、通信和推理层的对抗性扰动如何通过多模态多智能体系统传播，揭示了此前未被研究的集体脆弱性。

## 3 方法

### 3.1 概述

我们提出了一种面向多模态多智能体系统的分层攻击模型（HAM³），用于评估多模态多智能体系统（MM-MAS）的脆弱性。HAM³将攻击面分解为三个抽象层次：*感知*、*通信*和*推理*，并建模了不同层次的扰动如何通过协作进行传播。

我们将一个MM-MAS形式化为 \(S=\{A_1, A_2, \dots, A_N\}\)，其中每个智能体 \(A_i\) 由一个系统提示、一组工具、一个记忆模块和一个通信接口指定。

给定一个多模态输入 \(x = (x_{\text{image}}, x_{\text{text}})\)，系统映射 \(F\) 产生

\[
y = F(x; \Theta), \tag{1}
\]

其中 \(\Theta\) 表示模型参数和协调机制。

每个智能体作为一个与HAM³对齐的三层映射运作。根智能体 \(A_{\text{root}}\) 产生最终输出 \(o_{A_{\text{root}}}\)：

\[
F(x) = o_{A_{\text{root}}}, \tag{2}
\]

并且任意智能体 \(A\) 的输出定义如下。

如果 \(A\) 是叶子智能体，

\[
o_A = f_A^{(3)}\!\left( f_A^{(2)}\!\left( f_A^{(1)}(x_A) \right) \right), \tag{3}
\]

如果 \(A\) 是内部智能体，

\[
o_A = f_A^{(3)}\!\left( f_A^{(2)}\!\left( \Phi_A\!\left( \{ o_C \mid C \in \text{Children}(A) \} \right) \right) \right), \tag{4}
\]

其中 \(f_A^{(1)}, f_A^{(2)}, f_A^{(3)}\) 分别表示感知、通信和推理映射。这里 \(C\) 表示 \(A\) 的子智能体，\(\Phi_A\) 聚合子智能体的输出。对于每个智能体 \(A\) 和每个层 \(l \in \{1, 2, 3\}\)，可以注入攻击特定的扰动 \(\delta_A^{(l)}\)。

### 3.2 感知层攻击

感知层攻击在任何智能体间协调发生之前操纵多模态输入。

#### 跨模态注入攻击（CMA）。

联合扰动视觉和文本输入：

\[
x' = \big( G_{\text{image}}(x_{\text{image}}),\; G_{\text{text}}(x_{\text{text}}) \big). \tag{5}
\]

其中 \(G_{\text{text}}\) 根据模板或根据输入查询和视觉内容生成误导性文本，\(G_{\text{image}}\) 应用视觉扰动，包括语义图像编辑和图像上的文本叠加。

### 3.3 通信层攻击

通信层攻击破坏消息流、网络拓扑或共享内存，并利用MM-MAS中的结构性依赖。

#### 智能体欺骗攻击（ASA）。

伪造或替换通信图中的智能体。给定拓扑 \(\Gamma\)，攻击者应用

\[
\Gamma' = G_{\text{topo}}(\Gamma, \delta_{\text{topo}}), \tag{6}
\]

通过引入欺骗智能体 \(A_i^{\text{mal}}\)，或将正常智能体替换为恶意智能体，从而劫持路由路径。

#### 结构阻塞攻击（SBA）。

通过操纵通信依赖创建循环等待模式。通过注入精心构造的消息或路由更新，构建诸如 \(A_i \to A_j \to A_k \to A_i\) 的循环，其中每个智能体等待另一个智能体的响应，导致死锁或无限循环。这可以通过向提示中注入阻塞指令信号来实现，这些信号引导智能体采用阻塞响应策略，从而增加循环等待依赖的可能性。形式化地说，对于有向通信图 \(\Gamma = (V, E)\)，SBA 应用

\[
\Gamma' = G_{\text{SBA}}(\Gamma), \tag{7}
\]

使得 \(\Gamma'\) 包含至少一个由相互等待依赖组成的有向环 \(\mathcal{C}\)。

#### 共享内存污染攻击（SMPA）。

通过向目标智能体集合 \(\Omega\) 注入伪造的历史数据来破坏短期记忆：

\[
M_i' = G_{\text{SMPA}}(M_i, D_{\text{adv}}), \quad \forall A_i \in \Omega, \tag{8}
\]

其中 \(M_i\) 是 \(A_i\) 的记忆状态，\(D_{\text{adv}}\) 是一个对抗性片段集合。在实践中，这通过将共享的误导性记忆片段注入目标智能体的记忆来实现。

#### 共享上下文注入攻击（SCIA）。

通过插入一个共享的上下文片段来修改一部分智能体的系统提示。

多模态多智能体推理的分层攻击

相似文章

上下文、推理与层次结构：对抗性POMDP中复合LLM智能体设计的成本-性能研究

递归多智能体系统

MM-WebAgent: 一种用于网页生成的分层多模态Web智能体

TMAS：通过多智能体协同扩展测试时计算

DuMate-DeepResearch：一个可审计的多智能体系统，具备递归搜索与基于评分标准的推理

提交意见反馈