BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
value-estimation
标签
Cards
List
#value-estimation
你的语言模型就是其自身的评论者:利用演员内部状态进行价值估计的强化学习
Hugging Face Daily Papers
↗
· 2026-05-08
缓存
本文介绍了 POISE,一种通过利用模型自身内部状态来估计基线,从而在大型推理模型中实现稳定策略优化的方法,与 PPO 和 GRPO 相比,该方法降低了计算开销。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交