image-captioning

#image-captioning

ClaimDiff-RL：通过视觉声明比较进行细粒度描述强化学习

arXiv cs.LG ↗ · 2026-05-21 缓存

介绍了ClaimDiff-RL，一种用于长格式图像描述的强化学习框架，该框架使用类型化、可验证的声明差异作为奖励单元，分别衡量和平衡幻觉与缺失事实，从而提高忠实度和覆盖率。

0 人收藏 0 人点赞

#image-captioning

Hugging Face Daily Papers ↗ · 2026-05-08 缓存

本文介绍了 BalCapRL，这是一种针对多模态大语言模型（MLLM）的平衡强化学习框架，旨在联合优化图像描述生成中的准确性、覆盖率和语言质量。通过奖励解耦和长度条件屏蔽来解决实用性与流畅性之间的权衡，该方法在性能上优于现有方法。

0 人收藏 0 人点赞