on-policy

标签

Cards List
#on-policy

基于同伴成功与失败的多 rollout 在策略蒸馏

arXiv cs.LG · 2026-05-14 缓存

提出多 rollout 在策略蒸馏 (MOPD),一种将教师条件化于同伴成功和失败的 rollout 以提供更密集的 token 级监督进行语言模型后训练的方法,在多个基准上提升了性能。

0 人收藏 0 人点赞
#on-policy

通过失败轨迹进行基于策略的自我进化以实现智能体安全对齐

Hugging Face Daily Papers · 2026-05-12 缓存

本文提出了 FATE,这是一种基于策略(on-policy)的框架,它利用失败轨迹通过自我进化和感知帕累托前沿的优化来增强使用工具的 LLM 智能体的安全性和性能。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈