标签
介绍了ClaimDiff-RL,一种用于长格式图像描述的强化学习框架,该框架使用类型化、可验证的声明差异作为奖励单元,分别衡量和平衡幻觉与缺失事实,从而提高忠实度和覆盖率。
本文介绍了 BalCapRL,这是一种针对多模态大语言模型(MLLM)的平衡强化学习框架,旨在联合优化图像描述生成中的准确性、覆盖率和语言质量。通过奖励解耦和长度条件屏蔽来解决实用性与流畅性之间的权衡,该方法在性能上优于现有方法。