reward-decay

#reward-decay

SocraticPO：通过交互式指导的策略优化

arXiv cs.LG ↗ · 6天前缓存

SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习（RL）的展开过程，以提升大语言模型（LLM）的科学推理能力，在SciKnowEval基准测试中超越强基线。

0 人收藏 0 人点赞