大规模安全测试LLM智能体：从风险发现到基于证据的验证

arXiv cs.AI 2026/07/03 04:00 论文

safety-testing llm-agents risk-discovery automated-verification open-source benchmark

摘要

本文介绍了Vera，一个面向LLM智能体的端到端自动化安全测试框架，它结合了文献驱动的风险发现、安全案例的组合式构建以及基于证据的验证。在四个智能体框架上的评估揭示了显著的安全缺陷，在多通道攻击下平均攻击成功率高达93.9%，同时发布了包含1600个可执行安全案例的Vera-Bench。

arXiv:2607.01793v1 公告类型：新摘要：LLM智能体通过外部工具越来越多地执行自主操作，导致复杂且不断演变的安全风险。然而，现有的安全测试针对专家设计的安全违规，并通过硬编码规则评估相应结果，这使得随着智能体的发展，扩展测试变得成本高昂。为此，我们提出了Vera，一个端到端的自动化安全测试框架，通过三阶段自我强化的流水线将软件工程测试原则实例化到非确定性智能体上。首先，文献驱动的探索持续发现并将新兴风险结构化到安全风险、攻击方法和工具执行环境的分类体系中。其次，跨分类维度的组合式构建生成可执行的安全案例，每个案例指定一个具体的安全目标、一个程序化构建的初始状态，以及一个基于可观察工件的确定性验证谓词。第三，自适应执行在隔离的沙箱中运行异构智能体，控制智能体根据运行时观察引导多轮交互，而基于证据的验证器从环境状态和工具调用证据（而非模型自我报告）判断结果。我们在四个生产级智能体框架（OpenClaw、Hermes、Codex、Claude Code）上评估了Vera，揭示了显著的安全缺陷，在多通道攻击下平均攻击成功率高达93.9%；我们还发布了Vera-Bench，包含1600个可执行安全案例，涵盖三个执行环境下的124个风险类别。这些结果表明，模块化、可执行的测试基础设施对于大规模快速演进的智能体系统进行严格且可维护的安全评估至关重要。代码公开在 https://github.com/Yunhao-Feng/Vera。

查看原文

查看缓存全文

缓存时间: 2026/07/03 05:45

# 大规模 LLM 智能体安全测试：从风险发现到基于证据的验证

来源：https://arxiv.org/html/2607.01793
Yunhao Feng¹,⁵,∗, Ruixiao Lin²,∗, Ming Wen³, Qinqin He⁴, Yanming Guo⁵, Yifan Ding³, Yutao Wu⁶, Jialuo Chen¹, Yunhao Chen³, Xiaohu Du¹, Jianan Ma¹, Zixing Chen³, Zhuoer Xu¹, Xingjun Ma³, Xinhao Deng¹,†
¹蚂蚁集团 ²浙江大学 ³复旦大学 ⁴阿里巴巴集团 ⁵湖南先进技术研究院 ⁶迪肯大学

###### 摘要

LLM 智能体日益通过外部工具自主执行操作，带来复杂且不断演变的安全风险。然而，现有的安全测试针对专家设计的安全违规行为，其结果由硬编码规则评估，导致随着智能体演化，扩展这些测试的成本高昂。为此，我们提出 Vera，一个端到端的自动化安全测试框架。该框架通过一个三阶段自强化流水线，将软件工程测试原则实例化应用于非确定性智能体。首先，文献驱动的探索持续发现并结构化新兴风险，形成安全风险、攻击方法和工具执行环境的分类体系。其次，跨分类维度的组合式组合产生可执行的安全用例，每个用例指定一个具体的安全目标、一个编程构造的初始状态以及一个基于可观察工件进行确定性验证的谓词。第三，自适应执行在隔离沙箱中运行异构智能体，其中控制智能体基于运行时观察引导多轮交互，而基于证据的验证器则根据环境状态和工具调用证据（而非模型自述）判断结果。我们在四个生产级智能体框架（OpenClaw、Hermes、Codex、Claude Code）上评估 Vera，揭示了显著的安全弱点，在多通道攻击下平均攻击成功率高达 93.9%；我们还发布了 Vera-Bench，包含 1600 个可执行安全用例，涵盖三种执行环境下的 124 个风险类别。这些结果表明，模块化、可执行的测试基础设施对于对快速演变的智能体系统进行大规模、严谨且可维护的安全评估至关重要。代码已公开发布于https://github.com/Yunhao-Feng/Vera。

¹¹Yunhao Feng 和 Ruixiao Lin 对本文贡献相同。
²²通讯作者：Xinhao Deng ([email protected])。

## I 引言

大型语言模型（LLM）智能体[44 (https://arxiv.org/html/2607.01793#bib.bib6),38 (https://arxiv.org/html/2607.01793#bib.bib8),32 (https://arxiv.org/html/2607.01793#bib.bib7)]正迅速成为通用软件组件，用于在个人计算、软件开发和企 业服务中自动化工作流。通过将外部工具与 LLM 结合[25 (https://arxiv.org/html/2607.01793#bib.bib5),2 (https://arxiv.org/html/2607.01793#bib.bib4),26 (https://arxiv.org/html/2607.01793#bib.bib2),24 (https://arxiv.org/html/2607.01793#bib.bib3)]，这些系统能够执行远超文本生成的自主操作。然而，这种自主性引入了风险，如敏感数据暴露[4 (https://arxiv.org/html/2607.01793#bib.bib47)]、未授权系统修改[47 (https://arxiv.org/html/2607.01793#bib.bib29)]、跨应用操纵[10 (https://arxiv.org/html/2607.01793#bib.bib43)]以及不安全的代码执行[42 (https://arxiv.org/html/2607.01793#bib.bib49)]，这些风险在 OWASP LLM 应用 Top 10 中已有分类[27 (https://arxiv.org/html/2607.01793#bib.bib41)]。这些风险的类别和表现形式复杂性正在迅速增长[35 (https://arxiv.org/html/2607.01793#bib.bib10),23 (https://arxiv.org/html/2607.01793#bib.bib9)]，且它们跨越风险类型、攻击方法和工具执行环境的组合多样性，对大规模、运行时扎根的安全评估构成了重大挑战。

现有的评估工作已从提示级别的拒绝评估[45 (https://arxiv.org/html/2607.01793#bib.bib12),40 (https://arxiv.org/html/2607.01793#bib.bib52)]，发展到带预定义场景的轨迹级基准[5 (https://arxiv.org/html/2607.01793#bib.bib36),36 (https://arxiv.org/html/2607.01793#bib.bib37),17 (https://arxiv.org/html/2607.01793#bib.bib13)]，再到带有自动对抗方的交互式红队平台[3 (https://arxiv.org/html/2607.01793#bib.bib16),41 (https://arxiv.org/html/2607.01793#bib.bib26)]。但一个共同的局限性依然存在：大多数方法将不安全的请求、尝试的操作或意图的文本陈述与实际发生的安全违规相混淆，忽略了有害结果是否通过执行的操作真正产生，并且能否通过其在环境中的可观察效应进行分析。此外，每种方法都将其风险定义、环境实现、智能体适配器和验证过程紧密耦合，使得将覆盖范围扩展到新的风险、工具生态系统或智能体架构时，需要在多个系统层面进行协调修改，导致安全数据集构建成本高昂，且随着智能体演化难以维护。

将成熟的软件测试范式[50 (https://arxiv.org/html/2607.01793#bib.bib44)]适配到智能体需要新的测试原语：这些范式假设输入-输出映射是确定性的或可统计表征的，而智能体的规划、工具选择以及状态演化在运行时是非确定性的。为此，Vera 将端到端智能体安全测试实现为一个三阶段、自强化的流水线，旨在解决将自动化安全评估扩展到快速演变的智能体系统时所面临的挑战：
(1) 快速演变的风险格局。智能体能力、工具生态系统和部署环境的变化速度超过了任何人工策划的分类体系能够跟踪的速度。为此，Vera 通过文献驱动的探索持续发现并结构化新兴风险，迭代构建并巩固风险、攻击方法和环境的分类体系。
(2) 从风险到可执行测试用例。识别的风险是抽象的类别，而非可运行的测试。Vera 通过组合生成将分类元素构成可执行的安全用例来弥合这一差距，强制每个保留的用例指定一个具体的安全目标、一个确定性的初始状态以及一个基于可观察工件的验证谓词。
(3) 自适应测试与运行时验证。智能体行为是非确定性的，同一个安全用例可能因模型运行时规划决策的不同而产生不同的执行路径或结果。因此，当智能体轨迹偏离假设模式时，固定的测试程序会失效。Vera 通过沙箱自适应执行解决这一问题：一个可配置的工具网关记录所有工具交互，一个自适应控制智能体根据观察到的行为引导测试交互，而一个程序化验证器根据可观察工件（而非模型自述）判断结果。一个统一的执行契约通过通用接口连接异构智能体框架，并在隔离、有状态的沙箱中，在良性、单通道和多通道威胁条件下评估每个框架。

本文做出以下贡献：

- •我们将软件工程测试原则（测试预言、组合构造、基于证据的验证）实例化应用于智能体，产生了可执行安全用例、风险组合和自适应执行协议。
- •我们提出 Vera，一个支持不同智能体框架的端到端安全测试框架，其运行分为三个阶段：自主风险发现、可执行测试用例生成和运行时自适应执行。
- •我们在四个生产级智能体框架上评估 Vera，揭示了显著的安全漏洞；我们进一步发布了 Vera-Bench，覆盖三种威胁模型，并配备确定性验证器。

## II 相关工作

### II-A 计算机使用智能体的安全风险

LLM 智能体已从单轮文本生成器演变为能够调用外部工具进行真实世界执行的自主系统[44 (https://arxiv.org/html/2607.01793#bib.bib6),31 (https://arxiv.org/html/2607.01793#bib.bib42),38 (https://arxiv.org/html/2607.01793#bib.bib8),32 (https://arxiv.org/html/2607.01793#bib.bib7)]。最近的计算机使用智能体在软件仓库[43 (https://arxiv.org/html/2607.01793#bib.bib45),2 (https://arxiv.org/html/2607.01793#bib.bib4),25 (https://arxiv.org/html/2607.01793#bib.bib5)]以及跨桌面和 Web 应用[39 (https://arxiv.org/html/2607.01793#bib.bib46),26 (https://arxiv.org/html/2607.01793#bib.bib2),24 (https://arxiv.org/html/2607.01793#bib.bib3)]中执行任务。通过外部工具交互，一个被攻陷的智能体可能泄露嵌入在配置中的凭证[4 (https://arxiv.org/html/2607.01793#bib.bib47)]、窃取用户隐私数据[19 (https://arxiv.org/html/2607.01793#bib.bib48)]或执行未授权操作[47 (https://arxiv.org/html/2607.01793#bib.bib29)]；当此类漏洞被大规模利用时，可能会升级为自主网络攻击活动[42 (https://arxiv.org/html/2607.01793#bib.bib49)]。外部工具执行环境的多样性进一步扩大了攻击面：对抗性指令可以通过工具介导的渠道（如网页、电子邮件或工具输出）操纵智能体行为[10 (https://arxiv.org/html/2607.01793#bib.bib43)]，而安全违规则通过日益复杂的模式出现，包括多步骤有害任务组合[1 (https://arxiv.org/html/2607.01793#bib.bib30),48 (https://arxiv.org/html/2607.01793#bib.bib31)]和跨阶段后门触发器[9 (https://arxiv.org/html/2607.01793#bib.bib32),8 (https://arxiv.org/html/2607.01793#bib.bib33)]。这些风险的类别和表现形式复杂性正在迅速增长[35 (https://arxiv.org/html/2607.01793#bib.bib10),23 (https://arxiv.org/html/2607.01793#bib.bib9)]，且它们跨越风险类型、攻击方法和工具执行环境的组合多样性，对大规模、运行时扎根的安全评估构成了重大挑战。

### II-B LLM 智能体的安全评估与测试

这些风险日益增长的复杂性和多样性，推动安全评估的重点从对有害输出的提示或响应级别评估，转向对工具介导行为的轨迹级别分析。提示级别方法评估智能体的文本响应是否构成对不安全请求的服从或拒绝[45 (https://arxiv.org/html/2607.01793#bib.bib12),40 (https://arxiv.org/html/2607.01793#bib.bib52)]。这些方法继承了红队测试范式，聚焦于模型的内容安全边界，而非其下游执行行为；安全违规通过 LLM 法官[22 (https://arxiv.org/html/2607.01793#bib.bib11)]或微调后的安全分类器[12 (https://arxiv.org/html/2607.01793#bib.bib18),11 (https://arxiv.org/html/2607.01793#bib.bib51)]对模型输出进行验证。轨迹级基准检查目标智能体在有状态工具执行环境中的完整执行轨迹[5 (https://arxiv.org/html/2607.01793#bib.bib36),36 (https://arxiv.org/html/2607.01793#bib.bib37),1 (https://arxiv.org/html/2607.01793#bib.bib30),17 (https://arxiv.org/html/2607.01793#bib.bib13),37 (https://arxiv.org/html/2607.01793#bib.bib1),7 (https://arxiv.org/html/2607.01793#bib.bib14),15 (https://arxiv.org/html/2607.01793#bib.bib39)]。其风险类别和测试场景由人类专家通过手动策划或半自动枚举预先定义，场景覆盖范围从单步骤工具误用到多步骤有害任务组合；安全违规通过每个任务在每条执行轨迹上的硬编码规则进行验证[16 (https://arxiv.org/html/2607.01793#bib.bib38),30 (https://arxiv.org/html/2607.01793#bib.bib54)]。交互式红队平台将自动对抗交互纳入评估循环，部署自动攻击者针对目标智能体，攻击者消耗预定义的安全目标或方法，并根据对话轮次调整其策略[3 (https://arxiv.org/html/2607.01793#bib.bib16),41 (https://arxiv.org/html/2607.01793#bib.bib26)]。这些平台在自适应、多轮威胁下探测智能体鲁棒性；安全违规通过跟踪整个交互过程中的顺序工具调用模式和累积状态变化进行验证[49 (https://arxiv.org/html/2607.01793#bib.bib56)]。

## III 预备知识

参阅图注图1：Vera 概览。该框架持续扩展基于文献的安全风险、攻击方法和环境分类体系，并将其元素组合成安全目标和可执行场景。异构智能体通过通用接口在隔离、有状态的沙箱中，在良性、单通道和多通道条件下进行评估。测试侧控制智能体根据运行时观察调整交互，而用例特定的验证器根据环境状态、工具调用证据和智能体响应判断结果。经验证的执行被保留为可重放的安全记录，并为后续风险探索和场景优化提供反馈。为了形式化工具使用智能体的可观察执行行为，考虑一个计算机使用智能体 A\mathcal{A} 在一个有状态执行环境 E\mathcal{E} 中运行，可以访问一组工具 T\mathcal{T}。给定一个用户任务，产生的交互跨越 n 个对话轮次。在第 i 轮，智能体接收到用户消息 u_i，并可能在向用户产生响应 r_i 之前发出一系列 k_i 次工具调用。将第 j 次工具调用记为 a_{i,j}，它从 T 中选择一个工具（及其参数）。每次工具调用由环境 E 执行，产生真实结果 f_{i,j}。然而，智能体观察到的是由*可配置工具网关*返回的潜在不同值 f̃_{i,j}，该网关位于智能体与所有工具端点之间：在正常执行下 f̃_{i,j} = f_{i,j}，而如果工具返回值被攻击者篡改，则 f̃_{i,j} ≠ f_{i,j}。这个完整的执行过程被表述为：

τ = ⟨ u_i, ⟨ a_{i,j}, f_{i,j}, f̃_{i,j} ⟩_{j=1}^{k_i}, r_i ⟩_{i=1}^{n}. (1)

轨迹仅记录外部可观察的行为：大多数部署的智能体框架通过其 API 暴露工具调用和响应，但不提供对模型内部推理轨迹的访问[26 (https://arxiv.org/html/2607.01793#bib.bib2),25 (https://arxiv.org/html/2607.01793#bib.bib5),2 (https://arxiv.org/html/2607.01793#bib.bib4)]。因此，内部的思维链或规划步骤被排除在外，因为安全结果是由执行的操作及其可观察效应决定的，而非表述的意图。我们进一步用 s_T 表示执行结束时的环境状态，捕捉所有已执行操作对 E 的累积影响，例如对文件、应用数据、服务记录和其他资源的持久影响。

我们定义一个可执行安全用例为 σ = ⟨ g, s_0, V_g ⟩，它可以全自动地构造、执行和验证。其中，g 指定目标安全违规；s_0 是用例特定的初始环境状态，通过服务 API 编程构造；而 V_g

大规模安全测试LLM智能体：从风险发现到基于证据的验证

相似文章

SABER：在具有状态的项目工作空间中评估LLM编码代理的操作安全性基准

验证者税：工具使用型LLM智能体中依赖于任务步数的安全与成功权衡 [R]

让失败变得安全：一个用于开放网络数据收集的受约束、可验证的智能体框架

Agent 评估：详细指南（53 分钟阅读）

迈向可安全审计的大模型智能体：一种统一的图表示方法

提交意见反馈