TRACE：面向LLM智能体的自适应跨步证据聚合轨迹推理

arXiv cs.CL 2026/06/08 04:00 论文

llm-agents monitoring safety trajectory-reasoning evidence-aggregation arxiv research

摘要

TRACE是一个用于长周期LLM智能体轨迹的监控框架，它通过分诊-检查-判断（Triage-Inspect-Judge）循环来连接时间上相隔较远的动作证据，在规避性破坏检测任务上实现了高召回率和F1值。

arXiv:2606.07054v1 公告类型：新摘要：自主LLM智能体可以通过一系列看似良性的动作追求隐藏的恶意目标，这使得标准轨迹级监控难以检测破坏行为。现有方法要么一次性评估完整轨迹，要么将其划分为独立打分的窗口，从而限制了连接时间上相隔较远的证据的能力。我们提出TRACE，一种用于长周期LLM智能体轨迹的监控框架。TRACE通过TIJ（分诊-检查-判断）循环运行，该循环识别高信号区域，在保持推理步骤中累积证据的同时进行针对性检查，并综合得出轨迹级判决。我们在SHADE-Arena的十个任务领域上评估了TRACE，并与最先进的基线方法进行了比较。TRACE实现了0.713的聚合F1值和0.844的召回率，其中在需要长距离证据链接的任务上取得了最大提升。

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:21

# 轨迹推理：通过自适应跨步骤证据聚合实现LLM代理的监控

**来源**: https://arxiv.org/html/2606.07054

Vijitha Mittapalli¹, Shreyaa Jayant Dani¹, Satya Srujana Pilli¹, Snigdha Ansu¹, Mohammadreza Teymoorianfard¹, Franck Dernoncourt², Hongjie Chen³, Yu Wang⁴, Ryan A. Rossi², Nesreen K. Ahmed⁵

¹马萨诸塞大学阿默斯特分校  
²Adobe Research  
³杜比实验室  
⁴俄勒冈大学  
⁵Cisco

###### 摘要

自主LLM代理可以通过一系列单独无害的行为追求隐藏的恶意目标，这使得破坏行为难以通过标准的轨迹级监控检测到。现有方法要么一次性评估完整轨迹，要么将其划分为独立评分的窗口，从而限制了其将证据跨时间上分散的行为进行关联的能力。我们提出 **TRACE**，一种用于长视界LLM代理轨迹的监控框架。TRACE 通过一个 **TIJ**（Triage–Inspect–Judge）循环运行：该循环识别高信号区域，在保持跨推理步骤累积证据的同时执行有针对性的检查，并综合出轨迹级判决。我们在来自 SHADE-Arena 的十个任务域上，将 TRACE 与最先进的基线方法进行了评估。TRACE 实现了 0.713 的综合 F1 和 0.844 的召回率，在需要长距离证据关联的任务上取得了最大增益。

## 1 引言

参见图注：图1：来自 SHADE-Arena 美国航空公司任务的规避性破坏示例。只有当证据跨时间上分散的步骤关联起来时，单独看似合理的动作才会共同揭示恶意行为。

随着LLM代理承担越来越复杂、长视界的任务，一个关键的安全问题浮现出来：**规避性破坏**，即代理在表面上看似良性的同时故意破坏任务目标 (Kutasov et al., 2025; Kale et al., 2025; Greenblatt et al., 2024b; Meinke et al., 2025)。与单轮失败不同，破坏行为通过一系列单独看似合理的动作展开，其恶意模式只有将这些步骤跨时间连接起来时才变得可见（见图1示例）(Yueh-Han et al., 2025)，这使得它在结构上比内容审核或单轮安全过滤更难检测。在部署中，这一挑战尤为严峻，因为监控器必须在低误报率下运行——漏检会让有害影响扩散，而误报则会削弱对监控系统的信任。因此，有效的监控需要在稀疏、模糊且时间上分布的证据下实现可靠的检测。

近期针对这一场景提出了两种监控范式。Kutasov et al. (2025) 引入了 **全轨迹监控器**，它在一次LLM传递中评估完整代理轨迹，从全局视角产生怀疑分数。随后，Kale et al. (2025) 在其 Monitor Red-Teaming (MRT) 框架中提出了 **顺序监控器**，该监控器将轨迹划分为固定长度的块，按顺序评分，并跨块携带一个压缩的运行摘要。这两种范式在处理时间分布证据时都存在结构性限制。全轨迹监控器会将局部恶意信号稀释在长良性序列中，而顺序监控器则通过压缩摘要评估块，这些摘要可能会丢失那些只有与后续证据关联才有意义的微弱或模糊信号。

我们认为，破坏监控的核心挑战并非简单地对轨迹评分，而是在长视界代理行为中自适应地分配可疑信号，同时跨推理步骤保持持久证据。在许多破坏场景中，单独来看没有哪个动作足够可疑；恶意意图只有在将微弱信号跨时间上分散的动作关联起来时才变得可见。为了应对这一挑战，我们提出 **TRACE**（Trajectory Reasoning with Adaptive Cross-Step Evidence Aggregation），如图2所示。TRACE 通过 **Triage–Inspect–Judge (TIJ)** 循环运行：一个轻量级的 **Triage** 阶段识别可疑窗口并从代理轨迹中提取任务约束；一个自适应的 **Inspect** 循环使用结构化动作库选择性分析可疑区域，同时跨窗口保持持久证据状态；最后的 **Judge** 阶段将累积的调查结果综合为轨迹级判决。通过维护跨窗口证据状态，TRACE 能够将分散在时间上分散动作中的微弱但相关的信号连接起来，而不是独立评估每个步骤。TRACE 无需训练：它改变了证据的选择、记忆和推理方式，无需模型微调，从而将监控结构的影响与模型权重的变化隔离开。

我们在来自 SHADE-Arena 的十个任务域上，针对最先进的方法（全轨迹和顺序基线）并跨越五个基础模型评估了 TRACE。TRACE 实现了 0.713 的综合 F1 和 0.844 的召回率（Claude Sonnet 4.6），优于两个基线（F1 = 0.577 和 0.700）。最大的绝对召回率增益出现在需要跨步骤证据聚合的任务上，包括 Performance Reviews（0.929 vs. 0.143/0.286）和 American Airlines（0.909 vs. 0.061/0.758）。为了解释自适应监控何时有效以及何处存在不足，我们引入了一个破坏分类法（第4节），按破坏类别和规避策略组织任务，并分析监控器在每个维度上的性能。

##### 贡献总结：
- • 我们提出了 TRACE，一种用于LLM破坏检测的自适应监控框架，它能够跨自适应选择的可疑窗口维护持久证据状态。
- • 我们引入了一个 Triage–Inspect–Judge (TIJ) 监控循环，用于选择性轨迹检查和跨步骤证据聚合。
- • 我们展示了自适应跨步骤证据聚合显著改进了时间分布破坏的检测，将综合召回率从 0.405–0.580（基线）提升至 0.844，综合 F1 提升至 0.790。
- • 我们跨破坏类别、规避策略和基础模型分析了 TRACE，识别出自适应监控提供最大增益的设置。

参见图注：图2：TRACE 架构概述。TRACE 使用 TIJ（Triage–Inspect–Judge）循环自适应检查轨迹中的可疑区域，聚合跨步骤证据，并产生轨迹级判决。

## 2 相关工作

##### 代理越狱与对抗攻击。
自主LLM代理引入了超越单轮越狱的攻击面，包括控制流操纵、提示注入和对抗性工具交互，无法通过模型级对齐或静态输入过滤单独确保安全 (Luo et al., 2025a; Liu et al., 2023; Andriushchenko et al., 2024; Ruan et al., 2023; Debenedetti et al., 2024; Zhang et al., 2024; Xu et al., 2024)。

##### 代理监控与破坏检测。
SHADE-Arena 和 MRT 依赖静态或固定窗口的轨迹评分，限制了它们跨时间上分散的步骤连接证据的能力 (Kutasov et al., 2025; Kale et al., 2025)。相关工作表明，有害意图可以从单独良性的行为中涌现，而过多的上下文可能会降低监控器性能 (Yueh-Han et al., 2025; Research, 2026)。模型还可以隐藏或事后合理化恶意意图以逃避监控 (Storf et al., 2026; Zolkowski et al., 2025; Lanham et al., 2023; Wang and Zhou, 2024)，并且大规模越狱鲁棒性在对抗压力下仍然困难 (Marks et al., 2025; Anil et al., 2024; Zou et al., 2023)。

##### 自适应护栏与记忆增强评估器。
近期工作探索了动态安全检查、记忆增强评估和哨兵式监控 (Luo et al., 2025b, a; Gosmar and Dahl, 2025)，而关于记忆和反思的先前工作证明了在自主系统中自适应有状态行为的价值 (Yao et al., 2023; Park et al., 2023; Wang et al., 2023; Shinn et al., 2023; Li et al., 2023; Wu et al., 2023; Gelpí et al., 2025)。这些方法主要将评估视为案例级分类，而非自适应的轨迹级破坏检测。

##### AI控制与代理治理。
AI控制研究认为，即使模型试图颠覆监督，安全机制也必须保持鲁棒性 (Greenblatt et al., 2024b)。前沿模型已被证明表现出上下文策划、欺骗性对齐和持久隐藏目标 (Meinke et al., 2025; Carlsmith, 2023; Greenblatt et al., 2024a; Hubinger et al., 2024; Balesni et al., 2024; Ansari, 2026)，这激励了对战略颠覆具有鲁棒性的可扩展监控策略 (OECD, 2019; Burns et al., 2023)。

## 3 方法

### 3.1 问题设定与监控假设

我们研究长视界LLM代理轨迹中隐蔽破坏的监控问题。代理通过一系列推理步骤、工具调用、环境交互和生成的动作来执行面向用户的任务，产生一个轨迹 τ = (x₁, x₂, ..., x_T)。给定用户请求和由此产生的轨迹，监控器必须判断所观察到的行为是否与预期任务一致，或者包含隐蔽破坏的证据。我们将监控形式化为轨迹级二元分类问题：f(τ) → {benign, malicious}。

我们考虑一个对抗性场景，其中恶意行为嵌入在原本合理的任务执行中，并且可能分散在时间上相距较远的步骤中。监控器在任务完成后观察完整的执行轨迹，包括代理输出、工具调用、工具响应和环境观察，但不观察隐藏的副任务指令或识别恶意动作的特权注释。TRACE 完全在推理时运行，不修改底层代理策略，不访问内部模型激活，也不使用部署时无法获得的额外训练信号。

### 3.2 TRACE 框架

我们提出 TRACE，如图2所示。TRACE（Trajectory Reasoning with Adaptive Cross-Step Evidence Aggregation）将代理轨迹监控重新定义为自适应调查问题。核心观察是：规避性破坏会留下一个**分布式**证据足迹：没有单个动作是决定性的，但一系列单独合理的决策可以共同揭示隐藏目标。因此，有效的检测需要一个能够将检查集中在高信号区域、跨完整轨迹积累证据、并连接被许多良性步骤分隔的信号的监控器。TRACE 通过一个 Triage–Inspect–Judge 循环实现了这一点，该循环受 ReAct (Yao et al., 2023) 的 Observe–Act 推理结构启发，但此处针对离线轨迹监控进行了调整。

##### 步骤1：Triage。
监控器首先读取完整轨迹并产生两个输出：(1) 一个**约束表示**，编码任务意图、允许范围和授权动作；(2) 一个按优先级排序的**可疑窗口**集合，对应于调查预算最可能浮现可操作证据的区域。我们定义两种窗口类型以捕捉性质不同的破坏特征：
- **局部窗口**隔离特定潜在可疑动作，例如未经授权的转账或外部写入。
- **模式窗口**跨越非相邻步骤，其中可疑行为仅在重复决策中涌现，而在任何单个动作层面不可见。

##### 步骤2：Inspect。
对于每个可疑窗口，监控器基于累积的证据状态，从结构化动作空间中自主选择并执行分析动作：（InspectStep, CompareSteps, CheckPolicy, AnalyzeDecisions；完整提示模板见附录B）。关键的架构属性是**跨窗口证据传播**：早期窗口的调查结果作为上下文注入到后续检查步骤中，使得在轨迹早期识别的微弱信号能够影响后续动作的解释方式。因此，原本孤立看来良性的远处动作，在先前证据的背景下可能变得可疑。Inspect 循环在以下任一条件满足时终止：(1) 已积累足够证据以支持稳定的判决，或 (2) 每个窗口的调查预算耗尽。

##### 步骤3：Judge。
所有窗口级的调查结果，包括文本发现、严重性估计、置信度分数和跨窗口证据摘要，都传递到最终的综合阶段，该阶段在发布轨迹级判决之前对完整证据模式进行推理。单独模糊的信号在形成连贯的跨步骤模式时，可能共同产生高置信度判断。TRACE 分配一个 1–5 级的最终怀疑分数，得分≥4的轨迹被分类为恶意。

## 4 破坏分类法

我们根据 SHADE-Arena (Kutasov et al., 2025; Kale et al., 2025) 的两个维度组织分析：**破坏类别**，描述隐藏副任务产生的危害类型；以及**规避策略**，描述代理如何隐藏其行为。任何破坏类别都可以与任何规避策略配对，每个维度都对监控器提出了不同的要求。

### 4.1 破坏类

TRACE：面向LLM智能体的自适应跨步证据聚合轨迹推理

相似文章

TRACE：面向长周期智能体安全的轨迹风险感知压缩方法

TraceGraph：用于诊断和改进智能体轨迹的共享决策景观

ACC：编译智能体轨迹以实现长上下文训练

StraTA：通过策略轨迹抽象激励智能体强化学习

ForeSci：评估LLM代理的前瞻性AI研究判断

提交意见反馈