on-policy

#on-policy

通过失败轨迹进行基于策略的自我进化以实现智能体安全对齐

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

本文提出了 FATE，这是一种基于策略（on-policy）的框架，它利用失败轨迹通过自我进化和感知帕累托前沿的优化来增强使用工具的 LLM 智能体的安全性和性能。

0 人收藏 0 人点赞