reward-decay

标签

Cards List
#reward-decay

SocraticPO:通过交互式指导的策略优化

arXiv cs.LG · 6天前 缓存

SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习(RL)的展开过程,以提升大语言模型(LLM)的科学推理能力,在SciKnowEval基准测试中超越强基线。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈