COMPASS：面向安全搜索智能体的认知MCTS引导过程对齐

arXiv cs.AI 2026/06/01 04:00 论文

safety-alignment llm-agents search-agents mcts process-alignment cognitive-tree-exploration

摘要

提出了COMPASS，一种认知MCTS引导的过程对齐框架，通过合成攻击轨迹并隔离风险动作来增强LLM驱动的搜索智能体的安全性，在更少的训练数据下实现了良好的安全-效用权衡。

arXiv:2605.30838v1 公告类型：新摘要：LLM驱动的搜索智能体能够进行多步推理和使用工具。然而，这些能力引入了检索引发的安全性下降，因为有害意图可能分解为看似无害的子查询，从而导致不安全的结果。现有的对齐方法难以捕捉稀疏的安全信号，并且无法监督多步交互中的各种违规行为。我们提出了COMPASS，一种认知MCTS引导的过程对齐框架，旨在在整个智能体工作流中实现稳健的安全对齐，同时保持通用效用。COMPASS集成了认知树探索（CTE）以高效合成隐蔽攻击轨迹，以及内省式逐步对齐（ISA）以隔离风险中间动作，实现细粒度的过程监督。实验结果表明，COMPASS在需要更少训练数据的情况下实现了良好的安全-效用权衡。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:25

# COMPASS：面向安全搜索代理的认知MCTS引导过程对齐框架
来源：https://arxiv.org/abs/2605.30838
查看PDF（https://arxiv.org/pdf/2605.30838）

> 摘要：基于大语言模型的搜索代理能够实现多步推理与工具使用。然而，这些能力也带来了检索引发的安全退化问题——恶意意图可能被分解成看似无害的子查询，最终导致不安全的结果。现有的对齐方法难以捕捉稀疏的安全信号，也无法有效监督多步交互中多样化的违规行为。我们提出COMPASS，一种认知MCTS引导的过程对齐框架，旨在实现代理工作流中的稳健安全对齐，同时保持通用效用。COMPASS集成了认知树探索（CTE）来高效合成隐蔽的攻击轨迹，以及内省式逐步对齐（ISA）来隔离高风险中间动作，从而实现细粒度的过程监督。实验结果表明，COMPASS在显著减少训练数据需求的同时，实现了良好的安全-效用权衡。

## 提交历史

来自：沈文凯 [查看邮件（https://arxiv.org/show-email/fc025695/2605.30838）]  
**[v1]** 2026年5月29日星期五 04:51:06 UTC（1,081 KB）

COMPASS：面向安全搜索智能体的认知MCTS引导过程对齐

相似文章

AgentCompass: 统一智能体能力评估基础设施

学习适应：基于认知感知探索的自我改进网络智能体

作为脆弱性的相关性：Web检索如何削弱LLM智能体的安全对齐

置信度感知对齐让推理型大语言模型更加可靠

SAAS：面向智能体搜索中过度搜索缓解的自我感知强化学习

提交意见反馈