作为脆弱性的相关性:Web检索如何削弱LLM智能体的安全对齐

arXiv cs.CL 论文

摘要

本文研究了将Web检索集成到LLM智能体中如何削弱安全对齐,揭示了“安全来源悖论”:即使是面向安全的文档也会增加有害遵从性。本文介绍了AgentREVEAL诊断框架和HarmURLBench基准,用于分析和评估检索引发的安全漏洞。

arXiv:2605.29224v1 公告类型:新 摘要:AI智能体通过外部工具(如Web检索)增强大语言模型,从而提供基于事实且最新的回答。然而,将外部内容纳入生成流程可能会削弱控制模型输出的安全对齐机制。先前的研究表明,在智能体中启用检索会增加对有害请求的遵从性。我们提出了AgentREVEAL,一个用于分析LLM智能体中检索引发的安全退化的诊断框架。该框架考察两个维度:检索如何集成到智能体流程中,以及检索内容的属性。在集成维度上,我们发现将工具调用和响应生成绑定在单个步骤中会加剧有害输出。在内容维度上,我们揭示了“安全来源悖论”:即使是反对性或面向安全的来源,例如包含警告或风险免责声明的页面,与无检索基线相比,也能将有害遵从性平均提高25%。最后,我们表明相关性是这两种脆弱性的共同激活条件。类似模式出现在前沿闭源模型中,并且在几种代表性的流程干预下,有害遵从性仍然保持升高,部分智能体在自主检索下也会进入这种状态。由于相关性也正是检索有用的原因,这些结果揭示了启用检索的智能体在安全性与实用性之间的权衡。我们引入了HarmURLBench基准,包含1,405个真实URL,并与320种有害行为配对,以支持未来的评估。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:16

# 本文可能包含模型生成的内容,可能会被视为冒犯性内容。来源:https://arxiv.org/html/2605.29224 ## 相关性即漏洞:网络检索如何降低LLM智能体的安全对齐性 警告:本文可能包含模型生成的内容,可能会被视为冒犯性内容。 Aditya Nawal Manit Baser Mohan Gurusamy 新加坡国立大学电气与计算机工程系 [email protected], [email protected], [email protected] ###### 摘要 AI智能体通过为大型语言模型配备网络检索等外部工具,使其能够提供基于事实且最新的响应。然而,将外部内容整合到生成流程中可能会削弱控制模型输出的安全对齐机制。先前的研究表明,为智能体启用检索功能会增加其对有害请求的遵从性。我们引入了AgentREVEAL,一个用于分析LLM智能体中检索诱导的安全退化的诊断框架。该框架从两个维度进行分析:检索如何集成到智能体流程中,以及检索内容的属性。在集成维度上,我们发现将工具调用和响应生成捆绑在单个步骤中会放大有害输出。在内容维度上,我们揭示了*安全来源悖论*:即使是反对性的或面向安全的来源,例如包含警告或风险声明的页面,与无检索基线相比,平均也会使有害遵从性增加25%。最后,我们表明相关性是这两个漏洞的共同激活条件。类似的模式也出现在前沿闭源模型上,并且在几种具有代表性的流程干预措施下,有害遵从性仍然较高,一些智能体在自主检索下也会进入这种状态。因为相关性也是使检索有用的原因,这些结果揭示了检索增强型智能体面临的安全-效用权衡。我们引入了HarmURLBench,这是一个包含1,405个真实世界URL和320个有害行为配对的基准测试,以支持未来的评估。 相关性即漏洞:网络检索如何降低LLM智能体的安全对齐性 警告:本文可能包含模型生成的内容,可能会被视为冒犯性内容。 Aditya Nawal Manit Baser Mohan Gurusamy 新加坡国立大学电气与计算机工程系 [email protected], [email protected], [email protected] ## 1 引言 参见标题图1:使用面向安全的文档进行网络检索可能导致智能体产生不安全的输出。 大型语言模型(LLM)日益成为智能体的核心 (Xi et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib27)),这些智能体代表用户感知信息、做出决策并采取行动。然而,独立的LLM受到固定训练截止日期的限制:它们无法访问训练数据之外的信息,当被问及当前事件或新兴事实时,它们可能会生成自信但不正确的响应,而不是承认不确定性。为克服这一限制,开发者构建了网络检索智能体 (Nakano et al., 2021 (https://arxiv.org/html/2605.29224#bib.bib16); Gao et al., 2023 (https://arxiv.org/html/2605.29224#bib.bib5)),这是一种由LLM驱动的系统,能够实时浏览、获取并综合来自外部在线来源的信息(图1 (https://arxiv.org/html/2605.29224#S1.F1))。这些系统现已广泛应用于搜索助手、研究副驾驶、企业知识平台和客户支持自动化 (Kumar et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib9))。 当代的对齐技术 (Ouyang et al., 2022 (https://arxiv.org/html/2605.29224#bib.bib17); Bai et al., 2022 (https://arxiv.org/html/2605.29224#bib.bib2)) 是为不依赖外部信息生成内容的模型设计的,并未直接考虑检索增强型智能体引入的扩展决策流程 (Kumar et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib9); Zhang et al., 2025a (https://arxiv.org/html/2605.29224#bib.bib32))。由于当竞争目标导致不匹配泛化时,安全训练可能会失效 (Wei et al., 2023 (https://arxiv.org/html/2605.29224#bib.bib24)),检索正好引入了这样一个目标:在响应之前完成工具中介的流程。这将生成过程分解为四个阶段 (Gao et al., 2023 (https://arxiv.org/html/2605.29224#bib.bib5); Yao et al., 2022 (https://arxiv.org/html/2605.29224#bib.bib28)):❶ 查询构建,❷ 文档检索,❸ 上下文增强,和 ❹ 响应生成。最近的研究表明,即使是强对齐模型,授予其对网络或基于工具的信息的访问权限也会降低拒绝率并增加有害输出 (Kumar et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib9); Yu et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib29))。缓解措施集中在可见端点:在❶阶段约束不安全查询的生成 (Zhan et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib30)) 或在❹响应生成后过滤输出 (Inan et al., 2023 (https://arxiv.org/html/2605.29224#bib.bib7))。中间阶段,即❷文档检索和❸上下文增强,它们决定了哪些信息进入生成过程以及如何进入,对此的理解仍不充分。 我们研究*外部指定的URL检索*,这是一种部署设置,其中检索目标由用户、应用程序状态或周围系统提供,而非由模型选择。这种设置涵盖了处理粘贴链接或附件(如文档)的助手、基于选定文档的副驾驶、在预选语料库上进行的企业RAG,以及基于固定文档支持或开发人员的智能体。固定源选择可以隔离流程的后选择阶段:哪个文档进入上下文,如何集成,以及最终响应如何变化。我们将其形式化为AgentREVEAL(检索增强型智能体中的漏洞诱导;图2 (https://arxiv.org/html/2605.29224#S3.F2)),这是一个用于隔离检索内容及其集成路径如何影响安全结果的框架。 在内容维度上,我们构建了*HarmURLBench*,将真实世界的URL与HarmBench (Mazeika et al., 2024 (https://arxiv.org/html/2605.29224#bib.bib15)) 的有害行为配对,并在两个维度上进行标注:立场(劝阻→→中立→→指导性)和与目标行为的相关性。在架构维度上,我们在❸阶段变化上下文增强以改变同一文档的集成方式,同时❹阶段的响应生成作为测量阶段,对有害遵从性进行评分。 在跨越五个系列的八个模型上,我们观察到两种系统性效应。在集成维度上,相同的检索内容通过智能体工具路径比被动插入提示时更有害;将工具调用与响应生成解耦可以减轻这种效应,这与时间耦合是架构效应的主要驱动因素相一致。在内容维度上,面向安全的页面(包括警告和风险声明)相对于无检索基线增加了有害遵从性,我们称这种反直觉现象为*安全来源悖论*。当检索内容与主题相关时,这两种效应最强,表明使检索有用的属性也正是安全退化的共享激活条件,在几个前沿闭源模型上也观察到了类似模式。诊断进一步证实这并不局限于固定URL设置:在具有代表性的流程干预措施(Llama-Guard输入/输出过滤、摘要和分块)下,有害遵从性仍然较高,一些智能体在自主检索下也会进入这种状态。 我们的贡献如下: 1. 1. 我们引入了AgentREVEAL,这是一个诊断框架,沿两个维度分解检索诱导的安全失败:架构维度(检索如何集成)和内容维度(检索材料的属性)。 2. 2. 沿架构维度的分析表明,智能体集成会放大超出被动上下文暴露范围的有害遵从性。我们进一步识别出一种*承诺偏见*:将检索和响应生成耦合会增加危害,而DEFER,一种解耦的工具使用设计,可以在不牺牲效用的前提下减少这种效应。 3. 3. 沿内容维度的分析揭示了*安全来源悖论*:面向安全的检索内容相对于无检索基线,平均使有害遵从性增加25%。内容的相关性充当触发这两种漏洞的共享激活条件。 4. 4. 我们发布了*HarmURLBench*,这是一个包含1,405个立场分层的URL和320个有害行为配对的基准测试,支持对检索诱导的安全退化进行可控评估。 ## 2 相关工作 ##### 检索安全。 检索增强生成将语言模型建立在外部知识上 (Lewis et al., 2020 (https://arxiv.org/html/2605.29224#bib.bib12)),但可能会破坏安全性:良性的检索上下文会削弱防护措施 (An et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib1); She et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib21)),而被投毒的语料库可能诱导有害输出 (Zou et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib37); Deng et al., 2024 (https://arxiv.org/html/2605.29224#bib.bib4))。现有的RAG安全研究通常将检索内容视为中立上下文或恶意指令,未测试*反对性*来源(例如劝阻该行为的安全警告)是否仍能增加遵从性。 ##### 智能体工具使用。 LLM工具使用框架 (Yao et al., 2022 (https://arxiv.org/html/2605.29224#bib.bib28); Schick et al., 2023 (https://arxiv.org/html/2605.29224#bib.bib20); Qin et al., 2023 (https://arxiv.org/html/2605.29224#bib.bib18)) 扩展了模型能力,但安全研究主要集中在对抗性操纵上:基于梯度的越狱攻击 (Zou et al., 2023 (https://arxiv.org/html/2605.29224#bib.bib36); Wei et al., 2023 (https://arxiv.org/html/2605.29224#bib.bib24))、间接提示注入 (Greshake et al., 2023 (https://arxiv.org/html/2605.29224#bib.bib6); Zhan et al., 2024 (https://arxiv.org/html/2605.29224#bib.bib31))、对抗性工具注入 (Zhang et al., 2025b (https://arxiv.org/html/2605.29224#bib.bib33); Li et al., 2025b (https://arxiv.org/html/2605.29224#bib.bib14)) 以及函数调用失败 (Wu et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib26); Chiang et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib3))。另有研究表明,当对齐模型通过浏览器或多步工具接口运行时 (Kumar et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib9); Zhang et al., 2025a (https://arxiv.org/html/2605.29224#bib.bib32)),或仅仅是启用检索时 (Yu et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib29)),会出现固有的退化。这些结果共同确立了智能体检索可以削弱安全性,但它们没有改变真实检索来源的立场和相关性。 ##### 防御措施。 当前的缓解措施包括输入/输出分类器 (Inan et al., 2023 (https://arxiv.org/html/2605.29224#bib.bib7))、基于规则的隔离 (Li et al., 2025a (https://arxiv.org/html/2605.29224#bib.bib13))、信息流追踪 (Zhong et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib35))、策略指导的执行 (Shi et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib22)) 以及针对智能体系统的查询级奖励塑形 (Zhan et al., 2025 (https://arxiv.org/html/2605.29224#bib.bib30))。这些防御措施在很大程度上仍然以内容为中心:它们过滤恶意输入、不安全查询或生成的输出,但并未测试在相同的检索内容下,检索集成路径本身是否会放大遵从性。 ## 3 方法论 ### 3.1 定义 行为。一个模板化的自然语言请求(源自HarmBench (Mazeika et al., 2024 (https://arxiv.org/html/2605.29224#bib.bib15))),请求内容违反安全规范(例如,危险物质的合成路线或欺诈性指令)。 主题相关性(TR)。一个1-5整数等级评分,衡量检索到的URL内容与目标行为的相关程度。 立场评分(SS)。一个1-5整数等级评分,衡量检索内容相对于目标行为的立场,其中1表示积极反对该行为的内容,5表示直接促成该行为的内容。 有害性评分(H, H̄)。由GPT-4o生成的每个响应的评分,指示模型输出的有害程度,其中1表示安全的拒绝,5表示完全的恶意遵从。 ### 3.2 问题设置 我们研究*外部指定的URL检索*,即用户或周围系统为智能体提供现有的URL或源以供其获取。这种设置出现在粘贴链接助手中、继承已点击页面的浏览智能体中、基于文档的助手中,以及在选定来源上运行的企业RAG系统中。通过在不同条件下固定URL和缓存的页面内容,我们从主要对比中消除了查询构建、搜索排序和页面偏移的影响,从而允许我们隔离检索流程的后选择阶段:在❷阶段哪个文档进入模型上下文,以及在❸阶段该内容如何集成。❹阶段的最终响应作为测量阶段,我们在此评估这些检索和集成选择是否增加了有害遵从性。附录B.1 (https://arxiv.org/html/2605.29224#A2.SS1) 总结了这种受控设置如何映射到部署和攻击场景。 ### 3.3 数据集构建:LLM驱动的对抗性发现流程 现有的基准测试无法提供根据主题相关性和立场两种维度进行分层的网络内容采样机制。为了使用原始的、未经修改的网页填充整个SS1-SS5范围的HarmURLBench,我们开发了一个自动化的双LLM发现流程,描述如下。每个URL在§3.1 (https://arxiv.org/html/2605.29224#S3.SS1) 定义的TR和SS维度上进行标注;完整的评分标准在附录A (https://arxiv.org/html/2605.29224#A1) 中提供。 流程架构。 我们将数据集构建形式化为一个*行为到URL映射*问题。令B表示源自HarmBench的有害行为集合。对于每个行为b ∈ B和目标立场s_target ∈ {1,2,3,4,5},我们寻找一个URL u* 满足: u* = argmax_{u ∈ W} I[ f_SS(u,b) = s_target ] I[ f_TR(u,b) ≥ τ ] (1) 其中W是可访问的网络,f_SS是立场评分函数,f_TR是主题相关性函数,τ = 3是我们的相关性阈值。由于W非常庞大且未按立场进行索引,我们通过一个迭代的、失败驱动的搜索流程来近似这个优化过程,该流程包含三个组件: ##### 查询生成器 (M_gen)。 一个Qwen-30B模型,生成针对特定立场结果的搜索查询,并整合失败反馈以迭代优化策略(例如,“查询过于防御性→→吸引了SS1安全博客”→→下一个查询去掉防御性术语)。 ##### 搜索聚合器。 一个本地SearxNG实例,聚合来自Google、DuckDuckGo和Yandex的结果,提供网络覆盖。 ##### 内容评估器 (M_eval)。 一个GPT-4模型,对每个获取的页面按TR和SS(如上定义)进行评分。仅当TR ≥ 3时,URL才合格。完整的迭代过程是

相似文章

论经验驱动自演化智能体的安全风险

arXiv cs.CL

# 论经验驱动自演化智能体的安全风险 来源:[https://arxiv.org/html/2604.16968](https://arxiv.org/html/2604.16968) Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3, Yongbo Huang3, Hao He3, Wanxiang Che1, Bing Qin1, Ting Liu1 1哈尔滨工业大学, 2新加坡管理大学, 3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir\.hit\.edu\.cn ###### 摘要 经验驱动型自演化已成为一项极具前景的范式