标签
InfoMem 引入了一种用于训练分块记忆代理的奖励机制,该机制使用答案条件信息增益评估最终记忆的效用,在同一强化学习框架下提升了长上下文记忆代理的性能。
CorVer是一种轻量级的、基于语料库的奖励机制,利用维基百科共现统计信息为事实问答中的强化学习提供高效的句子级反馈,其性能优于神经验证器,同时训练速度提升4.8至8.4倍。
Geo-Align 提出了一个用于相机可控视频重新渲染的强化学习框架,通过尺度感知的感知奖励和用于相机轨迹提取的度量三维估计来提高泛化能力。