标签
UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架,通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理,在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。