reward-recovery

标签

Cards List
#reward-recovery

恢复扩散策略中的隐藏奖励

Hugging Face Daily Papers · 2026-05-01 缓存

本论文探讨了在基于扩散的策略中恢复隐藏奖励的方法,旨在提高此类模型的对齐程度或效率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈