标签
本文认为强化学习中的奖励模型往往过于敏感,对同样好的回答给出不同分数,并提出了一个基于Monte Carlo dropout的免训练离散化算法来降低过度敏感性,从而提高策略质量。
本文介绍了“进度优势”,一种从强化学习后训练中推导出的隐式优势函数,能够为LLM代理提供有效的步骤级评分,而无需进行专门的奖励模型训练。它在多个基准测试和模型系列上优于基于置信度的基线和训练好的奖励模型。
本文指出了连续奖励模型在强化学习中的过度敏感问题,即同等质量的回复被赋予不同的分数,并提出了一种使用蒙特卡洛dropout的离散化技术,以减少这种过度敏感,同时保持区分能力,从而得到更好的策略并减少奖励破解。
介绍了SCPO,一种新颖的奖励模型训练算法,它以平衡的方式整合了多样化的文化偏好,在基线之上取得了高达7个百分点的改进和280%的数据效率提升。
提出Demo2Reward,一种针对VLM奖励模型的测试时提示优化技术,利用少量专家演示,显著减少误报,并在无需额外模型训练的情况下改进机器人策略学习。
SAVE框架通过使用价值函数对策略内响应进行评分,并通过对比目标更新模型,从而改善奖励模型训练,在六个基准测试中取得了优于其他方法的结果。
本文研究了大型语言模型奖励模型中的偏好不稳定性,即微小的输入变化会导致矛盾的偏好分配。作者提出了两种基于SAE的缓解策略——SAE特征引导和SAE残差校正——在不重新训练的情况下减少错误的偏好分配。
本文提出了测试时个性化(TTP),这是一种通过候选采样和基于奖励的选择来扩展推理时计算,从而提升大语言模型(LLM)个性化能力的框架。该研究诊断了标准奖励模型中的失效模式,并提出了一种概率个性化奖励模型以缓解这些问题。
OpenAI 研究人员通过实验研究了奖励模型过度优化对性能的影响,建立了标度律来说明代理奖励优化与真实性能之间的关系如何随优化方法变化,并与模型规模成可预测的关系。