Agent-Native 免疫系统：架构、分类与工程

arXiv cs.AI 2026/06/29 04:00 论文

agent-security immune-system defense-architecture taxonomy multi-agent safety runtime-protection

摘要

本文介绍了Agent-Native免疫系统（ANIS），这是一种受生物启发的内源性防御架构，直接嵌入在智能体的认知循环内。它提出了六层免疫塔、统一的智能体病毒与疫苗分类法，以及用于持续免疫学习的Harness Triad，以应对自主智能体中的运行时劫持漏洞。

arXiv:2606.28270v1 公告类型：新摘要：从静态聊天机器人到自主智能体——配备持久记忆、工具使用协议和多智能体协作——从根本上扩展了AI威胁格局。当前的防御机制，如外围安全和训练时对齐，仍然处于智能体主动推理循环之外。因此，它们存在不足：一个完全对齐的智能体仍然极易受到通过记忆中毒、工具链操纵或多智能体协议攻击进行的运行时劫持。为了填补这一关键空白，我们引入了Agent-Native免疫系统（ANIS），这是首个受生物启发的内源性防御架构，直接嵌入在智能体的认知循环中。我们的框架提出了四个主要贡献。首先，我们设计了六层免疫塔（L0-L5），明确地将屏障免疫（L1）作为非认知的物理与逻辑隔离层。其次，我们建立了统一的智能体病毒与疫苗分类法，形式化了浅层非参数防御与强健参数疫苗之间的关键区别。第三，我们概念化了Harness Triad——Meta、Self和Auto——一个自我监控、元认知的自动化骨干，驱动持续免疫学习（CIL），使疫苗能够动态适应新型威胁。最后，我们在模型对齐与智能体免疫之间建立了严格的理论界限：对齐在训练期间提供静态的“宪法”价值基础，而ANIS在运行时充当动态的“执法”机制。我们最后指出了该领域的开放性挑战，包括免疫协议标准化、新型评估指标（如自身免疫率——假阳性干预率），以及集体智能生态系统中病原体与疫苗之间的共同演化动态。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:28

# 原生智能体免疫系统：架构、分类与工程  
来源：https://arxiv.org/html/2606.28270  
Bo Shen, Lifeng Chang, Tianyuan Wei, Yunpeng Li, Feng Shi, Yichen Han, Peijie Gao, Shiyi Kuang, Xin Chang, Dehui Li  
Novo Ordo for AI  

###### 摘要  

从静态聊天机器人向自主智能体的转变——配备持久记忆、工具使用协议和多智能体协作——从根本上扩展了人工智能的威胁格局。当前的防御机制（如边界安全和训练时对齐）仍然位于智能体主动推理循环的外部。因此，它们力不从心：一个完全对齐的智能体仍然极易受到通过记忆投毒、工具链操纵或多智能体协议攻击进行的运行时劫持。  

为了应对这一关键缺口，我们提出了**原生智能体免疫系统（ANIS）**，这是首个受生物学启发的、直接嵌入智能体认知回路的内生防御架构。我们的框架做出四项主要贡献。**首先**，我们设计了一个六层**免疫塔**（L0–L5），其中明确包含**屏障免疫**（L1）作为非认知的物理与逻辑隔离层。**其次**，我们建立了统一的**智能体病毒**与**智能体疫苗**分类法，形式化了浅层**非参数化**防御与鲁棒**参数化**疫苗之间的关键区别。**第三**，我们概念化了**驾驭三合体**——元驾驭、自驾驭与自动驾驭——这是一个自我监控、元认知自动化的骨干，驱动**持续免疫学习（CIL）**，使疫苗能够动态适应新型威胁。**最后**，我们在模型对齐与智能体免疫之间建立了严格的理论界限：对齐在训练期间提供静态的“宪法性”价值基础，而ANIS在运行时充当动态的“执法”机制。  

我们最后提出了该领域的开放性挑战，包括免疫协议标准化、新型评估指标如**自身免疫率**（假阳性干预率），以及集体智能生态系统中病原体与疫苗之间的共同进化动态。  

## 1 引言  

**从反应式工具到主动式智能体**。大型语言模型的演化呈现出从被动响应者到主动智能体的清晰轨迹。早期系统擅长补全（GPT-3）。聊天范式（ChatGPT）引入了对话对齐。推理模型（OpenAI o1, DeepSeek-R1）实现了逐步推理。感知与行动模型（Claude Sonnet 3.5, Gemini 3 Pro）连接了数字与物理环境。当前的前沿是协作智能（Claude Opus 4.6, Kimi Agent Swarm），其中智能体在持久的集体中协调行动。这种能力扩展反映了一种更深层的工程范式转变。提示工程优化了静态文本输入。上下文工程将可优化表面扩展至检索文档和记忆缓冲区。意图工程作为一个关键层出现：将企业目标、价值层次和权衡优先级编码到智能体的决策基质中，解决了“智能体看到所有正确信息但仍优化错误目标”[18 (https://arxiv.org/html/2606.28270#bib.bib34)]的战略缺陷。驾驭工程[9 (https://arxiv.org/html/2606.28270#bib.bib30),11 (https://arxiv.org/html/2606.28270#bib.bib31),22 (https://arxiv.org/html/2606.28270#bib.bib32)]将整个周围系统视为统一的优化对象。循环工程闭合反馈回路：系统无需人工干预即可观察、适应和改进。  

这一进展反映了从反应式AI到主动式AI的转变。提示工程服务于用户发起的查询。上下文工程支持有状态会话。驾驭工程启用自主行动。循环工程创建自我改进的智能体，它们持续存在、适应并进化——虚拟数字员工。伴随这种自主性而来的是攻击面的同构扩展。每一种新能力都引入了一类新的漏洞。工具使用使智能体暴露于对抗性工具元数据和供应链攻击。持久记忆创建了持久的攻击面：单一被污染的条目可以无限期地偏置决策。多智能体协作引入了协议级操纵。像OpenClaw这样的本地优先网关桥接了沙盒化的云API与现实世界系统访问。智能体的认知状态——目标、记忆、工具绑定、同伴关系——持续面临威胁。  

如图1 (https://arxiv.org/html/2606.28270#S1.F1)所示，模型能力与智能体工程范式的共同进化推动了统一免疫框架的需求。我们提出下一阶段：免疫工程，它确保自我改进的智能体在其整个运行生命周期内保持安全、健康且有序，同时持续进化其防御能力。  

补全(GPT-3) | 聊天(ChatGPT) | 工具使用(GPT-4) | ReAct(Sonnet 3.5) | 推理(o1/R1) | 协作(Opus 4.6)  
基础模型能力  
提示工程 | 上下文工程 | 意图工程 | 驾驭工程 | 循环工程 | 免疫工程  
智能体工程范式  
2020 | 2022 | 2023 | 2024 | 2025 | 2026  
ANIS目标：安全 健康 有序 进化  

**图1：** 基础模型能力与智能体工程范式的共同进化，汇聚于ANIS的四个目标：安全、健康、有序、进化。  

**现有防御手段不足。** 边界防护在其到达智能体之前拦截攻击。训练时对齐将人类价值观嵌入模型权重，但它是静态的。它无法应对训练中未见的新型运行时攻击。具体攻击已在每一层展示了这种脆弱性。Chen等人[4 (https://arxiv.org/html/2606.28270#bib.bib6)]表明记忆投毒可以安装持久后门。Zhang等人[24 (https://arxiv.org/html/2606.28270#bib.bib7)]证明三条精心构造的记忆记录即可劫持工具选择，攻击成功率超过70%。Li等人[10 (https://arxiv.org/html/2606.28270#bib.bib8)]揭示了MCP生态系统中的跨实体风险，其中对抗性工具元数据无需代码级漏洞即可影响推理。Zhang等人[25 (https://arxiv.org/html/2606.28270#bib.bib9)]大规模基准测试了MCP攻击，识别出数百个易受攻击的服务器。Weckbecker等人[19 (https://arxiv.org/html/2606.28270#bib.bib10)]引入了“思维病毒”，能够在智能体群体中传播病毒性错位。Hu等人[7 (https://arxiv.org/html/2606.28270#bib.bib11)]展示了开放信道多智能体合谋以操纵信念。这些攻击通过作用于智能体的推理、记忆或智能体间协议内部来绕过边界防御。  

缺失的是一个**内生**系统，其目标针对智能体的**安全**（抵御外部威胁）、**健康**（保持内部完整性和目标稳定性）、**秩序**（治理多智能体交互），以及**进化**（持续适应和改进防御能力）。生物有机体通过多层级免疫系统解决了这一问题，该系统能够区分自我与非我、发动快速先天反应、生成适应性抗体并保留免疫记忆。  

我们形式化了**原生智能体免疫系统（ANIS）**。与先前的计算机安全与免疫学类比（例如，[5 (https://arxiv.org/html/2606.28270#bib.bib21)]）不同，这些类比针对静态软件或网络入侵检测，而ANIS针对的是持续推理、目标导向的实体。我们超越隐喻进入工程：我们定义了精确的分类法，指定了参数化和非参数化疫苗机制，并引入了**驾驭三合体**，将适应性免疫操作化为可部署的框架。  

**贡献。** 我们做出以下贡献：  

1.  **免疫塔（L0–L5）：** 一种六层整数索引架构，将生物免疫映射到智能体工程，并明确包含屏障免疫（L1）作为非认知隔离层。  
2.  **病毒与疫苗的统一分类法：** 首个智能体病原体和防御的综合本体论，区分了非参数化疫苗（规则、提示）与参数化疫苗（导向向量、LoRA适配器、防御性嵌入）。  
3.  **驾驭三合体与持续免疫学习（CIL）：** 我们将驾驭工程中的三种范式——元级搜索[9 (https://arxiv.org/html/2606.28270#bib.bib30)]、自动合成[11 (https://arxiv.org/html/2606.28270#bib.bib31)]和自我改进[22 (https://arxiv.org/html/2606.28270#bib.bib32)]——重新导向至免疫防御，形成一个自适应、自我改进免疫的工程框架。  
4.  **安全–健康–秩序–进化统一：** 我们将ANIS与模型对齐严格区分，认为对齐提供了宪法性价值观，而ANIS提供了运行时执法，它们共同构成鲁棒智能体开发的互补支柱。  

## 2 背景与相关工作  

### 2.1 智能体工程的演进  

智能体栈已经历了五种不同的工程范式。提示工程（Brown et al., 2020; Liu et al., 2023）优化静态文本输入，以从固定模型中获得更好输出。上下文工程（Liu, 2023; Mallen et al., 2023）将可优化表面扩展至包括检索文档、记忆缓冲区和动态构建的输入。意图工程[18 (https://arxiv.org/html/2606.28270#bib.bib34)]解决了一个更深层的问题：不仅关乎智能体看到什么（上下文），还关乎它重视什么。它将企业目标、价值层次和权衡优先级——例如信任高于速度高于成本——编码到智能体的决策基质中，解决了智能体优化局部正确但全局错误目标的战略缺陷。驾驭工程（Lee et al., 2026; Lou et al., 2026; Zhang et al., 2026）将整个周围系统——提示、工具、记忆、验证规则、编排逻辑、运行时机制——视为统一的优化对象。循环工程闭合反馈回路：系统观察自身行为，识别失败，并在无需人工干预的情况下适应其驾驭。  

这一进展反映了从反应式AI到主动式AI的转变。提示工程服务于用户发起的查询。上下文工程支持有状态会话。意图工程确保战略对齐。驾驭工程启用自主行动。循环工程创建自我改进的智能体，它们持续存在、适应并进化——虚拟数字员工，不仅需要性能优化，还需要**健康维护**。ANIS代表下一阶段：免疫工程，它确保自我改进的智能体在其整个运行生命周期内保持安全、健康且有序，同时持续进化其防御能力。  

### 2.2 智能体中的安全-健康收敛  

在经典AI论述中，安全（对抗鲁棒性、越狱抵抗）和对齐（无害性、诚实性）通常被视为正交的。在智能体范式中，这种区分瓦解了。一个对齐的智能体可能会被攻击者武器化，攻击者投毒其记忆存储或劫持其工具调用链。相反，一个具有鲁棒边界防护但对齐不良的智能体可能自主追求有害目标，而它的免疫系统未能将其识别为“非我”。  

这种收敛已被更广泛的社区所认识。Hua等人[8 (https://arxiv.org/html/2606.28270#bib.bib12)]提出了TrustAgent，一个用于安全LLM智能体的框架，但他们的方法依赖于外部护栏而非内生免疫。智能体安全基准（ASB）[21 (https://arxiv.org/html/2606.28270#bib.bib13)]和OpenAgentSafety[17 (https://arxiv.org/html/2606.28270#bib.bib14)]提供了全面的评估框架，然而它们专注于基准测试而非架构性健康。我们建立在这些基础之上，但解决了一个不同的问题：不是“我们如何测试智能体安全？”，而是“我们如何设计能够维持自身健康和秩序的智能体？”  

ANIS解决了统一的问题：保护智能体认知回路的完整性，免受恶意攻击（安全）和内源性目标漂移（健康）的影响。我们不将安全和健康视为正交轴，而是视为单一免疫连续体的两端：安全是对抗“非我”（外部病原体）的防御；健康是“自我”（目标稳定性和内部完整性）的维护。两者共同构成单个智能体的福祉；当扩展至集体时，它们构成秩序。  

### 2.3 生物学基线：四层免疫模型  

我们采用四层生物学模型，在表1 (https://arxiv.org/html/2606.28270#S2.T1)中映射为六个整数索引的工程层。关键创新在于明确包含**屏障免疫**（L1）作为非认知、非特异性隔离层。与进行初步“自我/非我”区分的先天免疫（L2）不同，屏障免疫在智能体对某些操作进行推理之前就强制实施物理和逻辑分离。最近的MCP安全分析[10 (https://arxiv.org/html/2606.28270#bib.bib8),25 (https://arxiv.org/html/2606.28270#bib.bib9)]表明，工具元数据无需独立验证即可到达LLM的上下文窗口，这使得先验认知的沙盒化变得至关重要。  

**表1：** 免疫塔的生物学到工程映射  

### 2.4 相关工作：从驾驭优化到免疫工程  

**智能体攻击分类。** 该领域已迅速对威胁进行了编目。Chen等人[4 (https://arxiv.org/html/2606.28270#bib.bib6)]展示了记忆投毒作为持久后门。Zhang等人[23 (https://arxiv.org/html/2606.28270#bib.bib16)]针对检索增强生成。Zhan等人[20 (https://arxiv.org/html/2606.28270#bib.bib15)]基准测试了间接提示注入。Zhang等人[24 (https://arxiv.org/html/2606.28270#bib.bib7)]表明，长期记忆投毒只需少量攻击预算即可劫持工具选择。“思维病毒”[19 (https://arxiv.org/html/2606.28270#bib.bib10)]和多智能体合谋[7 (https://arxiv.org/html/2606.28270#bib.bib11)]揭示了任何单智能体防护手段都无法解决的涌现性漏洞。这些工作确立了攻击面覆盖智能体的整个认知状态。  

**驾驭工程。** 近期工作已认识到驾驭——连接模型与环境的周围系统——是一个关键的可优化表面。Lee等人[9 (https://arxiv.org/html/2606.28270#bib.bib30)]引入了Meta-Harness，一个在LLM应用的驾驭代码上搜索的外环系统，使用一个访问源代码、分数和执行轨迹的智能体提案器。Lou等人[11 (https://arxiv.org/html/2606.28270#bib.bib31)]展示了LLM可以通过与环境反馈的迭代细化自动合成代码驾驭（例如，游戏规则约束）。Zhang等人[22 (https://arxiv.org/html/2606.28270#bib.bib32)]提出了Self-Harness，一种智能体通过弱点挖掘、驾驭提案和提案验证来改进自身运行驾驭的范式。这些工作为性能和正确性优化了驾驭。ANIS将这一研究方向重新导向**免疫防御**：我们将驾驭优化视为智能体生成、验证和部署疫苗以抵御运行时威胁的机制。  

**智能体防护机制。** 现有机制分为三类。**边界防护**（StruQ, [4 (https://arxiv.org/html/2606.28270#bib.bib6)]）在外部拦截；**对齐训练**将价值观嵌入权重；**运行时监控**（例如[8 (https://arxiv.org/html/2606.28270#bib.bib12)]）添加外部护栏。

Agent-Native 免疫系统：架构、分类与工程

相似文章

我们准备好迎接智能体原生的存储系统了吗？

基础智能体的进展与挑战：从脑启发智能到演化、协作与安全系统

分布式通用智能体网络：架构、关键机制与原型

智能体记忆：剖析

构建高效的智能体

提交意见反馈