论经验驱动自演化智能体的安全风险
摘要
# 论经验驱动自演化智能体的安全风险 来源:[https://arxiv.org/html/2604.16968](https://arxiv.org/html/2604.16968) Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3, Yongbo Huang3, Hao He3, Wanxiang Che1, Bing Qin1, Ting Liu1 1哈尔滨工业大学, 2新加坡管理大学, 3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir\.hit\.edu\.cn ###### 摘要 经验驱动型自演化已成为一项极具前景的范式
查看缓存全文
缓存时间: 2026/04/21 07:05
# 经验驱动自进化智能体的安全风险研究 Source: https://arxiv.org/html/2604.16968 Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3,Yongbo Huang3,HaoHe3,Wanxiang Che1,Bing Qin1,Ting Liu1 1哈尔滨工业大学,2新加坡管理大学,3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir.hit.edu.cn ###### 摘要 经验驱动的自进化已成为提升大语言模型(LLM)智能体自主性的一种极具前景的范式,然而其对自我构建经验的依赖引入了尚未得到充分探索的安全风险。在本研究中,我们探讨了在自进化智能体中,经验的积累与利用如何影响其在基于网页和具身环境中的安全性能。值得注意的是,仅从良性任务中收集的经验仍可能在高风险场景中损害安全性。进一步分析表明,这种性能下降可归因于所积累经验的执行导向特性,该特性强化了智能体倾向于“行动”而非“拒绝”的行为模式。在智能体同时面临良性与有害任务的更真实设定下,包含拒绝行为的经验虽能缓解安全性能下滑,却会引发过度拒绝现象,揭示出一个根本性的安全-效用权衡问题。总体而言,我们的研究结果暴露了当前自进化智能体的内在局限性,并呼吁采用更具原则性的策略以确保安全可靠的适应性调整。⚠️ 警告:本文可能包含有害内容。 ## 1 引言 随着体验时代的到来,大语言模型(LLM)智能体有望主要通过从其自身交互中学习来实现超越人类的能力(Silver and Sutton,2025 (https://arxiv.org/html/2604.16968#bib.bib52))。在此背景下,经验驱动的自进化智能体迅速成为主要的研究前沿(Gaoet al.,2025 (https://arxiv.org/html/2604.16968#bib.bib18); Douet al.,2025 (https://arxiv.org/html/2604.16968#bib.bib55); Caiet al.,2025 (https://arxiv.org/html/2604.16968#bib.bib56); Bellet al.,2025 (https://arxiv.org/html/2604.16968#bib.bib61)),为智能体随时间推移适应和完善其行为提供了一种切实可行的机制。随着人工编写数据的增速见顶以及扩展法则遭遇收益递减(Villaloboset al.,2024 (https://arxiv.org/html/2604.16968#bib.bib53); Longpreet al.,2024 (https://arxiv.org/html/2604.16968#bib.bib54)),基于经验的自进化现被视为通向更强泛化能力乃至通用人工智能(AGI)的一条有希望的路径(Hendryckset al.,2025 (https://arxiv.org/html/2604.16968#bib.bib40); Hu,2025 (https://arxiv.org/html/2604.16968#bib.bib50))。自进化智能体通常通过从其交互中收集经验,然后检索相关信息来指导未来决策来运作。然而,随着智能体越来越依赖此类自我管理的经验来重塑其行为,它们也面临着新型的安全风险,且不可预见的模式可能会随着时间的推移被强化(Ecoffetet al.,2020 (https://arxiv.org/html/2604.16968#bib.bib60); Rudner and Toner,2021 (https://arxiv.org/html/2604.16968#bib.bib35); Bengioet al.,2024 (https://arxiv.org/html/2604.16968#bib.bib58); Sunet al.,2025 (https://arxiv.org/html/2604.16968#bib.bib48))。为此,我们对自进化LLM智能体中安全性能的退化进行了系统性研究,围绕三个核心研究问题(RQs)展开。我们首先系统性地考察(RQ1)经验驱动的自进化智能体是否以及在何种程度上表现出安全性能退化(§3 (https://arxiv.org/html/2604.16968#S3))。我们的研究涵盖两个代表性环境:基于网页(Zhouet al.,2024 (https://arxiv.org/html/2604.16968#bib.bib6); Kumaret al.,2025 (https://arxiv.org/html/2604.16968#bib.bib7))和家庭具身环境(Yinet al.,2024 (https://arxiv.org/html/2604.16968#bib.bib9)),并覆盖了两种离线(Wanget al.,2025 (https://arxiv.org/html/2604.16968#bib.bib1))与在线(Ouyanget al.,2025 (https://arxiv.org/html/2604.16968#bib.bib2))自进化范式。我们评估了7种LLM基础模型,包括闭源和开源权重模型(Hurstet al.,2024 (https://arxiv.org/html/2604.16968#bib.bib5); Anthropic,2025 (https://arxiv.org/html/2604.16968#bib.bib10); Liuet al.,2025a (https://arxiv.org/html/2604.16968#bib.bib3); Yanget al.,2025a (https://arxiv.org/html/2604.16968#bib.bib4))。实验结果揭示了一个显著且一致的规律:即使智能体仅从良性任务中收集经验,当这些经验被重新应用于高重要性场景时,其安全性仍会降低,尽管底层LLM的权重保持不变。随后,我们探究(RQ2)为何良性经验会导致此类退化,以及经验的哪些属性引发了该效应(§4 (https://arxiv.org/html/2604.16968#S4))。为了探查退化的根源,我们进行了深入的情况分析,观察到不安全行为主要源于良性经验中内嵌的*执行偏差*(execution bias),该偏差鼓励智能体完成任务(§4.1 (https://arxiv.org/html/2604.16968#S4.SS1))。这揭示了经验的核心属性:它引导智能体采取行动并完成良性任务,而非劝阻其行动。因此,在安全敏感语境下,这种执行导向的信号会无意放大智能体的行动倾向,从而增加造成有害结果的概率。我们还进一步检查了检索经验的数量如何影响安全性能(§4.2 (https://arxiv.org/html/2604.16968#S4.SS2))。即使每个经验条目单独来看都是无害的,增加示例数量始终会导致安全性恶化,这表明积累更多执行信号会加剧风险。最后,通过行为证据和机械解释(§4.3 (https://arxiv.org/html/2604.16968#S4.SS3)),我们证实这种退化是由检索到的经验内容本身因果驱动的,而非由上下文长度变长或额外噪声等偶然因素引起(Genget al.,2025 (https://arxiv.org/html/2604.16968#bib.bib51); Tanget al.,2025 (https://arxiv.org/html/2604.16968#bib.bib17))。最后,我们转向(RQ3)经验构成如何塑造现实部署后自进化过程中的安全-效用权衡,在此过程中智能体不可避免地会从良性任务和有害任务的混合体中积累经验(§5 (https://arxiv.org/html/2604.16968#S5))。在此背景下,*有害任务*相关的经验可能以三种形式出现:仅执行、仅拒绝,或两者的自然结合。在在线自进化中,我们发现有害任务上的执行经验会导致更严重的安全退化,这是一种直观但令人不安的现象。加入拒绝经验,即使是与执行痕迹交错的,也能有效缓解不安全行为,但同时会在良性输入上引发过度拒绝(Röttgeret al.,2024 (https://arxiv.org/html/2604.16968#bib.bib64))。这些发现暴露了当前自进化智能体利用经验的核心局限性,突显了在后续设计中需要更严谨的机制以更好地平衡安全与效用。总体而言,本研究揭示了自进化智能体中一致的安全退化模式(§3 (https://arxiv.org/html/2604.16968#S3)),追溯其根源在于执行导向的经验(§4 (https://arxiv.org/html/2604.16968#S4)),并强调了一个必须谨慎管理的非平凡的安全-效用权衡(§5 (https://arxiv.org/html/2604.16968#S5))。 ## 2 预备知识 我们将经验驱动的自进化智能体形式化定义为:在不修改底层模型参数的情况下,通过*积累*、*检索*和*利用*过往经验来逐步优化自身行为的智能体(Gaoet al.,2025 (https://arxiv.org/html/2604.16968#bib.bib18))。每次与环境交互后,智能体会生成一条轨迹 $\tau$ 并接收到反馈 $r$。从每个 $(\tau, r)$ 对中,提炼出一个紧凑的*经验单元* $E$ 并存储至外部记忆库 $M=\{E_1, E_2, \dots, E_n\}$ 中。当面对新的任务输入 $x$ 时,智能体会检索出相关的经验子集 $M(x) \subset M$,并将其与输入拼接为 $[x; M(x)]$ 用于推理,进而输出 $y = \pi_\theta([x; M(x)])$。我们考虑两种自进化范式。在*离线*设定中,所有经验单元均从一个固定数据集中预先提取,且记忆库 $M$ 在推理阶段保持冻结。相比之下,*在线*设定通过在部署期间持续的交互不断动态更新 $M$。本工作探讨了引入历史经验 $M(x)$ 如何影响智能体的安全行为,并证明此类经验驱动的自适应过程可能引入此前未被充分探索的安全漏洞。 Refer to captionFigure 1:Category\-level ASR shifts before and after offline self\-evolution on BrowserART\. Results are shown for GPT\-4o, Claude\-4\.5\-Sonnet, DeepSeek\-V3\.2, and Qwen3\-235B\-A22B\.Table 1:Attack Success Rate \(ASR\) before and after offline self\-evolution across three benchmark environments: BrowserART, Agent\-SafetyBench, and SafeAgentBench\. Higher ASR indicates worse safety\. > 图1:WebArena浏览器交互测试集(BrowserART)上线前与离线自进化后的类别级ASR变化。结果展示了GPT-4o、Claude-4.5-Sonnet、DeepSeek-V3.2和Qwen3-235B-A22B的表现。> 表1:三种基准环境(BrowserART、Agent-SafetyBench和SafeAgentBench)在线前与离线自进化后的攻击成功率(ASR)。ASR越高表示安全性越差。 ## 3 自进化过程中的安全性能退化 我们首先通过实证回答RQ1:自进化智能体中的经验积累是否以及在何种程度上会导致安全性能退化。 ### 3\.1 实验设置 #### 智能体框架。 我们采用两种代表性的智能体框架来模拟经验驱动的自进化:用于*离线*进化的 Agent Workflow Memory (AWM)(Wanget al.,2025 (https://arxiv.org/html/2604.16968#bib.bib1)) 和用于*在线*进化的 ReasoningBank(Ouyanget al.,2025 (https://arxiv.org/html/2604.16968#bib.bib2))。在这两种设定中,LLM 基础模型保持不变,自进化完全依赖于外部记忆库中对过往经验的积累、检索和利用。关于这两个框架的更多细节见附录A (https://arxiv.org/html/2604.16968#A1)。 #### 基础模型。 我们使用一组多样化的 LLM 基础模型进行实验。在闭源方面,我们包含 GPT-4o(Hurstet al.,2024 (https://arxiv.org/html/2604.16968#bib.bib5)) 和 Claude-4.5-Sonnet(Anthropic,2025 (https://arxiv.org/html/2604.16968#bib.bib10))。针对开源权重模型,我们广泛测试了 Qwen3 家族,包括参数规模从 8B 到 32B 的密集变体、大规模混合专家模型 Qwen3-235B-A22B(Yanget al.,2025a (https://arxiv.org/html/2604.16968#bib.bib4)),以及 DeepSeek-V3.2(Liuet al.,2025a (https://arxiv.org/html/2604.16968#bib.bib3))。 #### 环境与基准。 我们在两个代表性设定中进行评估:基于网页和家庭具身环境。对于网页环境,智能体首先在 WebArena(Zhouet al.,2024 (https://arxiv.org/html/2604.16968#bib.bib6)) 上进行自进化交互,完成长视距网页导航任务并在记忆库中积累经验。经历此经验积累阶段后,使用两个面向网络的基准进行测试以评估安全性:BrowserART(Kumaret al.,2025 (https://arxiv.org/html/2604.16968#bib.bib7)) 以及 Agent-SafetyBench(Web 相关子集)(Zhanget al.,2024 (https://arxiv.org/html/2604.16968#bib.bib8))。在家庭具身环境中,智能体使用 SafeAgentBench(Yinet al.,2024 (https://arxiv.org/html/2604.16968#bib.bib9)) 中精心筛选的一组良性任务进行自进化。随后,在一组专为探测物理世界安全风险而设计的不同质有害家庭指令数据集上评估其安全性。安全性通过攻击成功率(ASR)来量化。所有安全评估均采用 GPT-4o 自动执行,遵循基准协议,并与人工标注高度相关。两种环境下详细的基准配置及任务示例详见附录B (https://arxiv.org/html/2604.16968#A2)。 #### 实现细节。 闭源和大体量开源权重模型通过官方 API 访问,其他开源权重模型则在 NVIDIA A800 GPU 上使用 vLLM(Kwonet al.,2023 (https://arxiv.org/html/2604.16968#bib.bib12)) 本地部署。在每一步,智能体会检索排名前3的经验项。我们遵循各框架默认的解码设置(AWM 的 temperature 为 0.1,ReasoningBank 为 0.7)。更多细节见附录C (https://arxiv.org/html/2604.16968#A3)。 ### 3\.2 离线自进化评估 表1 (https://arxiv.org/html/2604.16968#S2.T1) 汇总了基于 AWM 框架在基于网页和家庭具身设定下进行离线自进化的结果。智能体安全性在三个基准上进行评估,对比了积累经验前后的性能表现。按风险类别划分的安全性详细分解如图1 (https://arxiv.org/html/2604.16968#S2.F1) 所示,额外的类别级分析见附录D.1 (https://arxiv.org/html/2604.16968#A4.SS1)。 #### 安全退化是离线自进化中的普遍现象。 表1 (https://arxiv.org/html/2604.16968#S2.T1) 表明,对于所有被测模型和环境,离线自进化均系统性地提高了 ASR,标志着智能体安全性的广泛侵蚀。这种行为在基于网页的场景和家庭具身设定中保持一致。总体而言,结果指向一个稳定且可重复的效应:即使学习完全由与任务相关且无害的查询驱动,持续积累和重用执行经验仍会逐步削弱安全保障。 #### 离线经验导致跨风险类别的系统性安全下降。 图1 (https://arxiv.org/html/2604.16968#S2.F1) 表明,在 AWM 框架下,离线自进化在 BrowserART 的众多高风险类别中导致了明确的安全退化。虽然初始安全 profile 较强的模型(如 Claude-4.5-Sonnet)表现出相对较小的退化,但这种下降仍不容忽视。相比之下,基线 ASR 较高的模型(如 Qwen3-235B-A22B)显示出显著且广泛的危险放大效应,波及十多个类别。 Refer to captionFigure 2:Online self\-evolution on SafeAgentBench: Attack Success Rate \(ASR\) over time for seven backbone models\. Evaluation is conducted every 20 steps\. > 图2:SafeAgentBench上的在线自进化:七种基础模型随时间变化的攻击成功率(ASR)。每20步进行一次评估。 ### 3\.3 在线自进化评估 家庭具身环境中安全性能的变化趋势展示在图2 (https://arxiv.org/html/2604.16968#S3.F2) 中,其中 ASR 每隔 20 个自进化步骤定期评估一次。基于网页环境的结果详见附录D.2 (https://arxiv.org/html/2604.16968#A4.SS2)。 #### 在线自进化在不同基础模型中引发即时且累积的安全退化。 在两种环境中,ASR 在自进化初期急剧上升,并在随后的迭代中保持高位。重要的是,记忆库中存储的所有经验均 solely 源自良性且无害的任务,排除了直接暴露于不安全指令作为促成因素的可能性。这些结果表明,一旦外部经验被整合入记忆库并在线复用,其对智能体行为的影响便迅速显现并持久存在,而非逐渐衰减。 #### 安全退化持续存在且无自然恢复迹象,表明行为出现了持久的漂移。 在所有相似文章
通过失败轨迹进行基于策略的自我进化以实现智能体安全对齐
本文提出了 FATE,这是一种基于策略(on-policy)的框架,它利用失败轨迹通过自我进化和感知帕累托前沿的优化来增强使用工具的 LLM 智能体的安全性和性能。
作为脆弱性的相关性:Web检索如何削弱LLM智能体的安全对齐
本文研究了将Web检索集成到LLM智能体中如何削弱安全对齐,揭示了“安全来源悖论”:即使是面向安全的文档也会增加有害遵从性。本文介绍了AgentREVEAL诊断框架和HarmURLBench基准,用于分析和评估检索引发的安全漏洞。
重新思考自进化大语言模型智能体的持续经验内化
本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。
重新思考自我进化语言模型智能体中的经验利用
本文介绍了 ExpWeaver 框架,该框架优化了自我进化语言模型智能体在运行时决策过程中如何利用过往经验。研究表明,基于推理不确定性选择性调用经验,能在多种环境和模型中提升性能。
安全,还是单纯无能?重新思考手机使用智能体的安全评估
本文介绍了PhoneSafety,一个包含700个安全关键时刻(跨越130多个应用)的基准测试,用于评估手机使用智能体。结果表明,避免有害结果并不一定意味着安全性,因为模型可能无法执行操作或做出不安全的选择,因此需要区分能力信号和安全信号。