on-policy

#on-policy

基于同伴成功与失败的多 rollout 在策略蒸馏

arXiv cs.LG ↗ · 2026-05-14 缓存

提出多 rollout 在策略蒸馏 (MOPD)，一种将教师条件化于同伴成功和失败的 rollout 以提供更密集的 token 级监督进行语言模型后训练的方法，在多个基准上提升了性能。

0 人收藏 0 人点赞

#on-policy

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

本文提出了 FATE，这是一种基于策略（on-policy）的框架，它利用失败轨迹通过自我进化和感知帕累托前沿的优化来增强使用工具的 LLM 智能体的安全性和性能。

0 人收藏 0 人点赞