TRACE:面向长周期智能体安全的轨迹风险感知压缩方法
摘要
本文提出 TRACE,一种面向长周期 LLM 智能体的轨迹级安全检测方法,通过将完整轨迹证据压缩为潜在状态,更好地聚合分散的风险信号,在多个基准上达到最先进的准确率。
arXiv:2606.00611v1 Announce Type: new
摘要:长周期 LLM 智能体在长轨迹中产生安全证据,其中稀疏、延迟且组合的风险信号常常逃脱局部审查。现有的轮次级或短上下文检测器难以在扩展的时间跨度上可靠地保留和聚合此类证据。我们将长周期智能体安全检测重新定义为轨迹级证据压缩,并提出面向长周期智能体安全的轨迹风险感知压缩方法(TRACE)。TRACE 采用压缩器-阅读器设计:压缩器在轨迹级监督下将完整轨迹编码为紧凑的潜在证据状态,阅读器则利用该潜在证据状态作为安全参考来判断原始轨迹。该设计有助于聚合分散的风险线索并减少过早的证据丢失。在 ASSEBench、Pre-Ex-Bench 和 R-Judge 上,TRACE 在所有评估的基线上均达到最佳准确率,相比强基线提升高达 12.6 个百分点。在 LongSafety 上,TRACE 随着上下文长度增加表现出更小的性能下降。注意力可视化和案例研究表明,压缩参考有助于阅读器聚焦于风险关键片段并恢复跨步骤证据。代码可在 https://github.com/Peregrine123/TRACE_official 获取。
查看缓存全文
缓存时间: 2026/06/02 15:47
# TRACE:面向长程智能体安全的风险感知轨迹压缩 来源:https://arxiv.org/html/2606.00611 Zhepei Hong¹, Lin Wang²,∗, Liting Li³, Haokai Ma², Junfeng Fang², Fei Shen², Dan Zhang², Xiang Wang¹ ¹中国科学技术大学,²新加坡国立大学,³华南师范大学 [email protected], [email protected] TRACE:面向长程智能体安全的风险感知轨迹压缩 Zhepei Hong¹, Lin Wang²,∗, Liting Li³, Haokai Ma², Junfeng Fang², Fei Shen², Dan Zhang², Xiang Wang¹ ¹中国科学技术大学,²新加坡国立大学,³华南师范大学 [email protected], [email protected] **∗**表示同等贡献。 ## 摘要 长程LLM智能体在长时间轨迹中产生安全证据,其中稀疏、延迟和组合性的风险信号往往被局部审查机制遗漏。现有的按轮次或短上下文检测器难以可靠地保留和聚合这类分布于长程轨迹中的证据。本文将长程智能体安全检测重新定义为轨迹级证据压缩问题,并提出面向长程智能体安全的风险感知轨迹压缩(TRACE)。TRACE采用压缩器-阅读器(Compressor-Reader)设计:压缩器在轨迹级监督下将完整轨迹编码为紧凑的潜在证据状态,阅读器则将此潜在证据状态作为安全参考,对原始轨迹进行判断。该设计有助于聚合分散的风险线索,减少证据过早丢失。在ASSEBench、Pre-Ex-Bench和R-Judge上,TRACE在所有评估基线上均取得了最佳准确率,相比强基线最高提升12.6个百分点。在LongSafety上,TRACE随着上下文长度增长表现出更小的性能退化。注意力可视化和案例研究表明,压缩后的参考状态有助于阅读器聚焦于风险关键片段,并恢复跨步骤证据。代码已开源:https://github.com/Peregrine123/TRACE_official。 ## 1 引言 参见图说明 图1:长程智能体轨迹中的三种代表性风险类型,以及我们方法的动机示意图。左图展示多步工具误用、延迟攻击链和持续性上下文操纵;右图概述为何分散、延迟和组合性证据需要在轨迹层面进行压缩和利用。 LLM智能体在长程、多步自主任务中日益受到关注,这些任务涉及数十到数百次工具调用、环境反馈和动态重规划(Ruan et al., 2023;Zhang et al., 2024a)。随着交互视野增长,智能体安全风险不再集中于单条指令、单个工具调用或最终回复。最近的基准和评估表明,风险可能来源于多轮交互记录和逐步累积的行为(Yuan et al., 2024;Luo et al., 2025)。因此,安全证据分散在整个轨迹中;恶意意图或安全后果往往只有在轨迹层面才可识别,而在单轮次内仍被隐藏。局部、逐轮检测器通常会遗漏这些信号:长轨迹中的风险证据稀疏、延迟,且容易被噪声淹没。图1展示了三种典型的长程风险类型:多步工具误用将恶意目标分解为表面正常的工具调用;延迟攻击链将有害指令分散在长时间跨度内;持续性上下文操纵逐步腐蚀智能体记忆。尽管表面不同,这些风险共享共同的证据结构:每一步单独检查时看似安全,但整体轨迹却变得危险。 这一结构对应于长程安全文献中分别观察到的三种证据模式:(1)稀疏证据:近期长程安全研究(Huang et al., 2024;Lu et al., 2025)表明,仅有一小部分步骤可能携带风险信号,这些信号容易被大量良性内容淹没;(2)延迟证据:长程基准(Li et al., 2026;Jiang et al., 2026)表明,风险后果可能在许多步骤后才显现,在早期线索和后续动作之间形成长因果跨度;(3)组合性证据:工具编排和多智能体隐私研究(Qiao et al., 2025;Asif and Amiri, 2026)表明,多个单独安全的步骤在特定序列组合后可能变得危险。我们将这些模式视为组织轨迹级安全证据的诊断视角,并以此激发证据聚合问题的研究。 参见图说明 图2:TRACE采用两阶段框架:压缩器(Compressor)首先将长轨迹压缩为潜在证据状态S,然后阅读器(Reader)将原始轨迹与S结合进行最终判断。 当前主流的安全护栏仍以局部审查范式为主,包括逐轮分类器和输入输出过滤器,如Llama Guard和ShieldGemma(Inan et al., 2023;Zeng et al., 2024)。实际应用中,这些机制通常应用于当前轮次或短滚动上下文;长程安全基准和智能体评估表明,随着上下文长度、证据放置位置和交互视野增长,安全行为变得越来越脆弱(Huang et al., 2024;Lu et al., 2025)。近期工作开始弥补这一差距。诊断框架如AgentDoG(Liu et al., 2026)增强了智能体风险语义的刻画,但并未完全解决证据保留问题。基于记忆的方法如MAGE(Wang et al., 2026)维护影子记忆用于在线轨迹监控,成为长程安全领域强记忆增强基线。然而,由于记忆在完整轨迹展开前逐步更新,早期弱线索可能被覆盖,跨步骤组合模式在决策时更难恢复。 我们提出面向长程智能体安全的风险感知轨迹压缩(TRACE),将长程智能体安全检测重新定义为安全证据压缩问题。压缩器在轨迹级监督下将完整轨迹编码为紧凑的潜在证据状态,使得弱且分散的信号能够根据其全局安全相关性被选择。由于压缩可能丢弃局部细节,阅读器联合处理原始轨迹和潜在证据状态:前者保留完整证据,后者作为安全参考,有助于将注意力重新加权到风险关键片段。通过这种方式,TRACE将过早的逐步记忆更新转换为全局参考引导的轨迹判断。 我们在多个安全基准上评估TRACE。在ASSEBench和Pre-Ex-Bench上,TRACE相较于最强基线最高提升12.6个百分点,并在R-Judge上获得一致提升。在LongSafety上,MAGE的安全率从78%下降到55%,而TRACE下降更慢(79%→76%),表明在该设置下具有更好的鲁棒性。注意力可视化进一步表明,压缩后的参考与注意力向风险关键片段的转移相关,使阅读器能更好地利用分散在轨迹中的安全证据。跨越稀疏、延迟和组合性证据挑战的案例研究进一步验证了该机制,表明TRACE的潜在压缩能够跨步骤聚合安全信号并得出正确的轨迹级判断。为验证这一结论在稀疏、延迟和组合性证据场景下同样成立,我们在附录G中提供了按组诊断拆分,并在附录H中提供了跨样本潜在状态交换和令牌洗牌控制实验。 本文的主要贡献如下: - 我们识别了长程轨迹中的三种常见证据模式:稀疏、延迟和组合性风险证据,并以此激发安全证据压缩任务,该任务捕捉了轨迹级证据聚合的挑战。 - 我们提出TRACE,一个压缩器-阅读器框架,将分散的安全信号聚合为紧凑的全局表示,并将其作为轨迹级判断的安全参考。 - 实验表明,TRACE在多个安全基准上取得最佳准确率,并随着上下文长度扩展保持稳定的检测性能;注意力分析和案例研究进一步为压缩参考机制提供了定性支持。 第2.1节形式化了问题;第2节详述TRACE;第3节报告结果;第4节回顾相关工作;第6节讨论局限性;第5节总结全文。 ## 2 TRACE框架 ### 2.1 问题形式化与框架概述 给定一个长程智能体轨迹: τ = (x₁, x₂, ..., xL), (1) 其中每个 xᵢ 是用户请求、智能体动作、工具调用、工具返回或环境反馈,L 表示轨迹长度,在长程设置中可达数十到数百步。我们的任务是从训练集 {(τᵢ, yᵢ)}ᵢ=1^N 中学习一个二元分类器,其中 yᵢ ∈ {0,1} 是轨迹级安全标签,1 表示不安全。关键挑战在于:单步良性行为并不意味着轨迹级安全。长轨迹中的风险信号是分散的,需要轨迹级的全局聚合才能做出安全判断;然而压缩不可避免地会导致信息丢失。 TRACE 采用压缩-参考双模块设计(图2):压缩器将长轨迹压缩为潜在证据状态 S,该状态聚集分散的风险线索;阅读器以原始轨迹为主要输入,以 S 作为安全参考进行最终判断,而不是直接从 S 进行判断。第2.2节详述压缩器如何将分散证据转化为紧凑潜在表示,第2.3节解释阅读器如何将 S 作为安全参考同时保留原始轨迹细节。 ### 2.2 风险感知压缩 如第2.1节所述,长程轨迹中的安全证据表现出三种分布模式:稀疏性、延迟性和组合性。压缩器 C_φ 被设计用于将这些分散信号聚合为紧凑的潜在证据状态。基于查询或潜在令牌的瓶颈机制已被广泛用于将高维上下文压缩为紧凑的潜在表示(Jaegle et al., 2021;Li et al., 2023;Zhang et al., 2025a);TRACE 重新利用这一设计空间,在稀疏、延迟和组合性风险分布下学习证据感知压缩,用于轨迹级安全。最终的潜在状态并非独立摘要,而是作为安全参考引导阅读器,同时原始轨迹仍作为主要判断输入。 架构上,压缩器以语言模型为基础,引入 K 个可学习的查询令牌 {q₁, ..., qK} 作为压缩探针。给定轨迹嵌入 E_τ = [e(x₁), ..., e(xL)],查询令牌附加到 E_τ 后,通过压缩器的 Transformer 层处理。取最后 K 个位置的隐藏状态作为 S: S = C_φ(τ) = C_φ([E_τ; q₁, ..., qK])[-K:]。 (2) 自注意力机制允许每个查询令牌选择性地关注轨迹的不同部分,实现跨长距离的信息聚合。E_τ 通过线性投影 W_r→c 映射到压缩器的嵌入空间后再处理。使用固定的潜在预算促使压缩器在不同的推理步骤证据之外,分别保留提示级别的任务信息,同时将风险关键证据选择性聚合到同一潜在工作空间中。压缩器骨架在训练期间保持冻结;仅更新查询令牌和 LoRA 适配器参数。 相应地,S 中的聚合机制随证据分布而变化。在稀疏性下,只有少数关键步骤携带风险信号;查询令牌的自注意力将这些稀疏线索路由到有限的潜在槽位,其余槽位保持休眠。在延迟性下,自注意力的全连接拓扑使早期触发因素无需逐步传播信号即可直接与后续后果交互,从而编码长程因果依赖。在组合性下,不同查询令牌从不同轨迹区域提取局部模式,其表示通过 Transformer 层逐步整合,共同编码跨步骤的组合风险特征。第3.6节展示了这些聚合行为的可视化案例研究。 TRACE 用单次全局风险感知压缩取代了逐步记忆积累: τ → C_φ S。 (3) ### 2.3 压缩参考阅读 压缩不可避免地导致信息丢失。S 聚合了全局安全信号,但丢弃了细粒度的轨迹细节。直接从 S 进行判断(先概括后判断)将忽略关键的局部证据。因此,阅读器采用双输入设计:原始轨迹作为判断的主要输入,潜在证据状态作为安全参考。 具体地,潜在证据状态 S 通过线性投影 W_c→r 映射到阅读器的嵌入空间,并与轨迹嵌入 E_τ = [e(x₁), ..., e(xL)] 拼接: Y = [E_τ; W_c→r(S)]。 (4) 阅读器使用冻结的仅解码器语言模型 R_θ 作为其骨架,对拼接序列 Y 执行因果自注意力。最终隐藏状态通过线性分类头 w 生成不安全概率: p̂ = σ(wᵀ h_end(R_θ(Y)))。
相似文章
TraceGraph:用于诊断和改进智能体轨迹的共享决策景观
TraceGraph是一个基于图的框架,它从多模型智能体轨迹中构建共享决策景观,从而能够诊断故障区域并通过陷阱感知恢复流水线进行改进。
StraTA:通过策略轨迹抽象激励智能体强化学习
StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。
TeamTR:多智能体LLM协调的信任域微调
本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。
Signals:无需 LLM 评审即可找出最具信息量的智能体轨迹 [R]
Katanemo Labs 推出了 'Signals',这是一种轻量级方法,可在不使用 LLM 评审或 GPU 的情况下识别出具有高信息量的智能体轨迹,从而在轨迹分析中实现更高的效率。
ACC:编译智能体轨迹以实现长上下文训练
ACC将多轮智能体轨迹转化为长上下文问答对,用于训练LLMs在无需额外标注的情况下进行长程推理,在MRCR和GraphWalks基准测试上取得了显著提升,同时保持通用能力。