通过失败轨迹进行基于策略的自我进化以实现智能体安全对齐

Hugging Face Daily Papers 2026/05/12 00:00 论文

ai-safety llm-agents self-evolution on-policy trajectory-optimization reinforcement-learning

摘要

本文提出了 FATE，这是一种基于策略（on-policy）的框架，它利用失败轨迹通过自我进化和感知帕累托前沿的优化来增强使用工具的 LLM 智能体的安全性和性能。

使用工具的 LLM 智能体的失败通常发生在轨迹过程中，而不仅仅体现在最终响应中，因为它们可能执行不安全的工具调用、遵循注入的指令、遵从有害的请求，或者在产生看似安全的回答的同时对良性任务过度拒绝。现有的安全对齐信号大多基于响应级别或离策略（off-policy），并且往往会导致安全与效用之间的权衡：提高智能体安全性会以降低任务性能为代价。这种稀疏且单一目标的奖励严重限制了其在现实世界中的可用性。为了弥补这一差距，我们提出了 FATE，这是一种基于策略的自我进化框架，能够在无需专家演示的情况下，将验证器评分的失败转化为修复监督。对于每次失败，相同的策略会提出修复候选方案，这些方案随后由验证器重新评分，并在安全性、效用、过度拒绝控制和轨迹有效性方面进行过滤。这种密集的轨迹级信息随后被用作智能体自我进化的监督信号。在此过程中，我们进一步引入了帕累托前沿策略优化（PFPO），将监督式预热与感知帕累托前沿的策略优化相结合，以保留安全与效用之间的权衡关系。在 AgentDojo、AgentHarm 和 ATBench 上的实验表明，FATE 在保持有用行为的同时，提高了不同模型和规模下的安全性。与强大的基线方法相比，FATE 将攻击成功率降低了 33.5%，有害遵从率降低了 82.6%，并将外部轨迹安全诊断水平提高了 6.5%。这些结果表明，失败的轨迹可以为更安全的自我进化智能体提供结构化的修复监督。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 08:11

论文页面 - 通过失败轨迹进行在策略自我进化以实现智能体安全对齐

来源: https://huggingface.co/papers/2605.11882

摘要

FATE 是一个在策略框架，它利用失败轨迹通过自我进化和帕累托感知优化来提升智能体的安全性和性能。

使用工具的 LLM 智能体 (https://huggingface.co/papers?q=Tool-using%20LLM%20agents) 的失败往往发生在整个轨迹过程中，而不仅仅体现在最终响应中，因为它们可能会执行不安全的工具调用、遵循注入的指令、服从有害请求，或者尽管生成了看似安全的回答，却对良性任务过度拒绝。现有的安全对齐信号大多处于响应级别或离策略，并且常常引发安全与实用性的权衡：提升智能体安全性 (https://huggingface.co/papers?q=agent%20safety) 往往以牺牲任务性能 (https://huggingface.co/papers?q=task%20performance) 为代价。这种稀疏且单目标的奖励严重限制了其在现实世界中的可用性。为了弥补这一差距，我们提出了 FATE，这是一个在策略的自我进化框架，它将验证器评分的失败案例 (https://huggingface.co/papers?q=verifier-scored%20failures) 转化为修复监督信号 (https://huggingface.co/papers?q=repair%20supervision)，且无需专家演示。对于每次失败，相同的策略会提出修复候选方案，随后由验证器重新评分，并在安全性、实用性、过度拒绝控制以及轨迹有效性方面进行过滤。然后，这些密集的轨迹级信息 (https://huggingface.co/papers?q=trajectory-level%20information) 被用作智能体自我进化 (https://huggingface.co/papers?q=self-evolution) 的监督信号。在此过程中，我们进一步引入了帕累托前沿策略优化 (https://huggingface.co/papers?q=Pareto-Front%20Policy%20Optimization)（PFPO (https://huggingface.co/papers?q=PFPO)），结合监督预热和帕累托感知的策略优化，以保留安全与实用性的权衡。在 AgentDojo、AgentHarm 和 ATBench 上的实验表明，FATE 在不同模型和规模下均能提升安全性，同时保留有用的行为。与强大的基线相比，FATE 将攻击成功率降低了 33.5%，有害顺从率降低了 82.6%，并将外部轨迹安全诊断 (https://huggingface.co/papers?q=trajectory-safety%20diagnosis) 提升了 6.5%。这些结果表明，失败轨迹可以为更安全的自我进化智能体提供结构化的修复监督 (https://huggingface.co/papers?q=repair%20supervision)。

查看 arXiv 页面 (https://arxiv.org/abs/2605.11882) 查看 PDF (https://arxiv.org/pdf/2605.11882) 项目页面 (https://yinbo0927.github.io/FATE/) GitHub2 (https://github.com/YinBo0927/FATE) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.11882)

在您的智能体中获取此论文：

hf papers read 2605\.11882

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.11882 即可从此页面建立链接。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.11882 即可从此页面建立链接。

引用此论文的空间 0

没有链接此论文的空间

在空间 README.md 中引用 arxiv.org/abs/2605.11882 即可从此页面建立链接。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

相似文章

论经验驱动自演化智能体的安全风险

arXiv cs.CL

# 论经验驱动自演化智能体的安全风险来源：[https://arxiv.org/html/2604.16968](https://arxiv.org/html/2604.16968) Weixiang Zhao1, Yichen Zhang1, Yingshuo Wang1††footnotemark:, Yang Deng2, Yanyan Zhao1, Xuda Zhi3, Yongbo Huang3, Hao He3, Wanxiang Che1, Bing Qin1, Ting Liu1 1哈尔滨工业大学, 2新加坡管理大学, 3SERES \{wxzhao, yiczhang, yswang, yyzhao\}@ir\.hit\.edu\.cn ###### 摘要经验驱动型自演化已成为一项极具前景的范式

通过失败轨迹进行基于策略的自我进化以实现智能体安全对齐

论文页面 - 通过失败轨迹进行在策略自我进化以实现智能体安全对齐

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的空间 0

包含此论文的收藏集 0

相似文章

论经验驱动自演化智能体的安全风险

AgentForesight：多智能体系统中用于早期故障预测的在线审计

镜中的攻击者：通过锚定双策略自我博弈打破安全中的自洽性

从动作引导中学习智能体策略

工具即连续流：用于演进式智能体推理

提交意见反馈