COMPASS:面向安全搜索智能体的认知MCTS引导过程对齐

arXiv cs.AI 论文

摘要

提出了COMPASS,一种认知MCTS引导的过程对齐框架,通过合成攻击轨迹并隔离风险动作来增强LLM驱动的搜索智能体的安全性,在更少的训练数据下实现了良好的安全-效用权衡。

arXiv:2605.30838v1 公告类型:新 摘要:LLM驱动的搜索智能体能够进行多步推理和使用工具。然而,这些能力引入了检索引发的安全性下降,因为有害意图可能分解为看似无害的子查询,从而导致不安全的结果。现有的对齐方法难以捕捉稀疏的安全信号,并且无法监督多步交互中的各种违规行为。我们提出了COMPASS,一种认知MCTS引导的过程对齐框架,旨在在整个智能体工作流中实现稳健的安全对齐,同时保持通用效用。COMPASS集成了认知树探索(CTE)以高效合成隐蔽攻击轨迹,以及内省式逐步对齐(ISA)以隔离风险中间动作,实现细粒度的过程监督。实验结果表明,COMPASS在需要更少训练数据的情况下实现了良好的安全-效用权衡。
查看原文
查看缓存全文

缓存时间: 2026/06/01 09:25

# COMPASS:面向安全搜索代理的认知MCTS引导过程对齐框架
来源:https://arxiv.org/abs/2605.30838
查看PDF(https://arxiv.org/pdf/2605.30838)

> 摘要:基于大语言模型的搜索代理能够实现多步推理与工具使用。然而,这些能力也带来了检索引发的安全退化问题——恶意意图可能被分解成看似无害的子查询,最终导致不安全的结果。现有的对齐方法难以捕捉稀疏的安全信号,也无法有效监督多步交互中多样化的违规行为。我们提出COMPASS,一种认知MCTS引导的过程对齐框架,旨在实现代理工作流中的稳健安全对齐,同时保持通用效用。COMPASS集成了认知树探索(CTE)来高效合成隐蔽的攻击轨迹,以及内省式逐步对齐(ISA)来隔离高风险中间动作,从而实现细粒度的过程监督。实验结果表明,COMPASS在显著减少训练数据需求的同时,实现了良好的安全-效用权衡。

## 提交历史

来自:沈文凯 [查看邮件(https://arxiv.org/show-email/fc025695/2605.30838)]  
**[v1]** 2026年5月29日星期五 04:51:06 UTC(1,081 KB)

相似文章

置信度感知对齐让推理型大语言模型更加可靠

arXiv cs.AI

本文介绍了CASPO框架,该框架通过迭代直接偏好优化(DPO),将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考(CaT),用于在推理过程中动态剪枝不确定的推理分支,以提高可靠性和效率。