multi-reward

#multi-reward

UniDoc-RL：基于层次化动作与密集奖励的粗到细视觉RAG

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架，通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理，在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。

0 人收藏 0 人点赞