标签
LongTraceRL 引入了分层干扰项构建和规则奖励设计,以通过强化学习改善语言模型中的长上下文推理。该方法通过知识图谱随机游走生成多跳问题,并利用搜索代理轨迹构建具有挑战性的干扰项,规则奖励提供实体级过程监督。
介绍了元认知即奖励(MaR),一个基于元认知知识与调控信号指导大语言模型推理的强化学习框架,在推理基准上相比基准方法最高提升11%。
引入向量策略优化(VPO),用于训练模型使用向量值奖励而非标量奖励,从而为测试时搜索生成多样化的答案集合。
介绍了ClaimDiff-RL,一种用于长格式图像描述的强化学习框架,该框架使用类型化、可验证的声明差异作为奖励单元,分别衡量和平衡幻觉与缺失事实,从而提高忠实度和覆盖率。
一篇新论文提出了一种基于结果的奖励机制,可量化智能体自生成的世界知识对任务成功率的提升,使其在推理阶段无需外部指导即可持续改进。