通过失败轨迹进行基于策略的自我进化以实现智能体安全对齐
摘要
本文提出了 FATE,这是一种基于策略(on-policy)的框架,它利用失败轨迹通过自我进化和感知帕累托前沿的优化来增强使用工具的 LLM 智能体的安全性和性能。
查看缓存全文
缓存时间: 2026/05/13 08:11
论文页面 - 通过失败轨迹进行在策略自我进化以实现智能体安全对齐
来源: https://huggingface.co/papers/2605.11882
摘要
FATE 是一个在策略框架,它利用失败轨迹通过自我进化和帕累托感知优化来提升智能体的安全性和性能。
使用工具的 LLM 智能体 (https://huggingface.co/papers?q=Tool-using%20LLM%20agents) 的失败往往发生在整个轨迹过程中,而不仅仅体现在最终响应中,因为它们可能会执行不安全的工具调用、遵循注入的指令、服从有害请求,或者尽管生成了看似安全的回答,却对良性任务过度拒绝。现有的安全对齐信号大多处于响应级别或离策略,并且常常引发安全与实用性的权衡:提升智能体安全性 (https://huggingface.co/papers?q=agent%20safety) 往往以牺牲任务性能 (https://huggingface.co/papers?q=task%20performance) 为代价。这种稀疏且单目标的奖励严重限制了其在现实世界中的可用性。为了弥补这一差距,我们提出了 FATE,这是一个在策略的自我进化框架,它将验证器评分的失败案例 (https://huggingface.co/papers?q=verifier-scored%20failures) 转化为修复监督信号 (https://huggingface.co/papers?q=repair%20supervision),且无需专家演示。对于每次失败,相同的策略会提出修复候选方案,随后由验证器重新评分,并在安全性、实用性、过度拒绝控制以及轨迹有效性方面进行过滤。然后,这些密集的轨迹级信息 (https://huggingface.co/papers?q=trajectory-level%20information) 被用作智能体自我进化 (https://huggingface.co/papers?q=self-evolution) 的监督信号。在此过程中,我们进一步引入了帕累托前沿策略优化 (https://huggingface.co/papers?q=Pareto-Front%20Policy%20Optimization)(PFPO (https://huggingface.co/papers?q=PFPO)),结合监督预热和帕累托感知的策略优化,以保留安全与实用性的权衡。在 AgentDojo、AgentHarm 和 ATBench 上的实验表明,FATE 在不同模型和规模下均能提升安全性,同时保留有用的行为。与强大的基线相比,FATE 将攻击成功率降低了 33.5%,有害顺从率降低了 82.6%,并将外部轨迹安全诊断 (https://huggingface.co/papers?q=trajectory-safety%20diagnosis) 提升了 6.5%。这些结果表明,失败轨迹可以为更安全的自我进化智能体提供结构化的修复监督 (https://huggingface.co/papers?q=repair%20supervision)。
查看 arXiv 页面 (https://arxiv.org/abs/2605.11882) 查看 PDF (https://arxiv.org/pdf/2605.11882) 项目页面 (https://yinbo0927.github.io/FATE/) GitHub2 (https://github.com/YinBo0927/FATE) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.11882)
在您的智能体中获取此论文:
hf papers read 2605\.11882
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.11882 即可从此页面建立链接。
引用此论文的数据集 0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.11882 即可从此页面建立链接。
引用此论文的空间 0
没有链接此论文的空间
在空间 README.md 中引用 arxiv.org/abs/2605.11882 即可从此页面建立链接。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。
相似文章
论经验驱动自演化智能体的安全风险
# 论经验驱动自演化智能体的安全风险 来源:[https://arxiv.org/html/2604.16968](https://arxiv.org/html/2604.16968) Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3, Yongbo Huang3, Hao He3, Wanxiang Che1, Bing Qin1, Ting Liu1 1哈尔滨工业大学, 2新加坡管理大学, 3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir\.hit\.edu\.cn ###### 摘要 经验驱动型自演化已成为一项极具前景的范式
AgentForesight:多智能体系统中用于早期故障预测的在线审计
本文介绍了 AgentForesight,这是一个用于基于大语言模型(LLM)的多智能体系统的在线审计和早期故障预测框架。文章提出了一个新数据集 AFTraj-22K,以及一个专用模型 AgentForesight-7B,该模型在检测轨迹执行过程中的决定性错误方面优于领先的专有模型。
镜中的攻击者:通过锚定双策略自我博弈打破安全中的自洽性
本文介绍了锚定双策略自我博弈(Anchored Bipolicy Self-Play),这是一种通过在冻结的基础模型上训练特定的角色专用 LoRA 适配器来改善 AI 安全性的方法,旨在解决标准自我博弈红队测试中的局限性。
从动作引导中学习智能体策略
本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。
工具即连续流:用于演进式智能体推理
本文介绍了 FlowAgent,这是一个新颖的框架,它利用条件流匹配将工具链重新概念化为连续轨迹生成,以提高长时序智能体推理的鲁棒性。