multi-reward

标签

Cards List
#multi-reward

UniDoc-RL:基于层次化动作与密集奖励的粗到细视觉RAG

Hugging Face Daily Papers · 2026-04-16 缓存

UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架,通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理,在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈