COMPASS:面向安全搜索智能体的认知MCTS引导过程对齐
摘要
提出了COMPASS,一种认知MCTS引导的过程对齐框架,通过合成攻击轨迹并隔离风险动作来增强LLM驱动的搜索智能体的安全性,在更少的训练数据下实现了良好的安全-效用权衡。
arXiv:2605.30838v1 公告类型:新
摘要:LLM驱动的搜索智能体能够进行多步推理和使用工具。然而,这些能力引入了检索引发的安全性下降,因为有害意图可能分解为看似无害的子查询,从而导致不安全的结果。现有的对齐方法难以捕捉稀疏的安全信号,并且无法监督多步交互中的各种违规行为。我们提出了COMPASS,一种认知MCTS引导的过程对齐框架,旨在在整个智能体工作流中实现稳健的安全对齐,同时保持通用效用。COMPASS集成了认知树探索(CTE)以高效合成隐蔽攻击轨迹,以及内省式逐步对齐(ISA)以隔离风险中间动作,实现细粒度的过程监督。实验结果表明,COMPASS在需要更少训练数据的情况下实现了良好的安全-效用权衡。
查看缓存全文
缓存时间: 2026/06/01 09:25
# COMPASS:面向安全搜索代理的认知MCTS引导过程对齐框架 来源:https://arxiv.org/abs/2605.30838 查看PDF(https://arxiv.org/pdf/2605.30838) > 摘要:基于大语言模型的搜索代理能够实现多步推理与工具使用。然而,这些能力也带来了检索引发的安全退化问题——恶意意图可能被分解成看似无害的子查询,最终导致不安全的结果。现有的对齐方法难以捕捉稀疏的安全信号,也无法有效监督多步交互中多样化的违规行为。我们提出COMPASS,一种认知MCTS引导的过程对齐框架,旨在实现代理工作流中的稳健安全对齐,同时保持通用效用。COMPASS集成了认知树探索(CTE)来高效合成隐蔽的攻击轨迹,以及内省式逐步对齐(ISA)来隔离高风险中间动作,从而实现细粒度的过程监督。实验结果表明,COMPASS在显著减少训练数据需求的同时,实现了良好的安全-效用权衡。 ## 提交历史 来自:沈文凯 [查看邮件(https://arxiv.org/show-email/fc025695/2605.30838)] **[v1]** 2026年5月29日星期五 04:51:06 UTC(1,081 KB)
相似文章
学习适应:基于认知感知探索的自我改进网络智能体
提出了SCALE框架,用于自我改进的网络智能体,采用认知感知探索,包含三个对抗角色和图探索策略。同时介绍了从真实网站收集的大规模数据集SCALE-20k,显著提升了基于MLLM的网络智能体的性能。
作为脆弱性的相关性:Web检索如何削弱LLM智能体的安全对齐
本文研究了将Web检索集成到LLM智能体中如何削弱安全对齐,揭示了“安全来源悖论”:即使是面向安全的文档也会增加有害遵从性。本文介绍了AgentREVEAL诊断框架和HarmURLBench基准,用于分析和评估检索引发的安全漏洞。
置信度感知对齐让推理型大语言模型更加可靠
本文介绍了CASPO框架,该框架通过迭代直接偏好优化(DPO),将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考(CaT),用于在推理过程中动态剪枝不确定的推理分支,以提高可靠性和效率。
SAAS:面向智能体搜索中过度搜索缓解的自我感知强化学习
SAAS 提出了一种强化学习框架,通过增强智能体的自我感知能力,减少基于 LLM 的问答系统中的不必要搜索,从而平衡准确性与计算成本。
TRACE:面向长周期智能体安全的轨迹风险感知压缩方法
本文提出 TRACE,一种面向长周期 LLM 智能体的轨迹级安全检测方法,通过将完整轨迹证据压缩为潜在状态,更好地聚合分散的风险信号,在多个基准上达到最先进的准确率。