UniDoc-RL:基于层次化动作与密集奖励的粗到细视觉RAG
摘要
UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架,通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理,在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。
查看缓存全文
缓存时间: 2026/04/20 08:28
论文页面 - UniDoc-RL: 从粗到细的视觉RAG,结合分层动作与密集奖励
来源: https://huggingface.co/papers/2604.14967
摘要
UniDoc-RL 提出了一种用于 LVLM 的强化学习框架,通过分层决策和密集的多奖励监督,联合优化检索、重排序、视觉感知和推理。
检索增强生成 (RAG) 扩展了大型视觉语言模型 (LVLM),使其具备外部视觉知识。然而,现有的视觉 RAG 系统通常依赖通用检索信号,忽略了复杂推理所必需的细粒度视觉语义。为解决这一限制,我们提出了 UniDoc-RL,一个统一的强化学习框架,其中 LVLM 智能体联合执行检索、重排序、主动视觉感知和推理。UniDoc-RL 将视觉信息获取形式化为一个具有分层动作空间的序列决策问题。具体来说,它从粗粒度的文档检索逐步细化到细粒度的图像选择和主动区域裁剪,使模型能够抑制无关内容并聚焦于信息密集区域。为了实现有效的端到端训练,我们引入了一种密集的多奖励方案,为每个动作提供任务感知的监督。基于组相对策略优化 (GRPO),UniDoc-RL 无需依赖单独的价值网络即可使智能体行为与多个目标对齐。为了支持这一训练范式,我们整理了一个包含高质量推理轨迹和细粒度动作标注的综合数据集。在三个基准上的实验表明,UniDoc-RL 持续超越最先进的基线,在此前基于 RL 的方法基础上获得了高达 17.7% 的提升。
查看 arXiv 页面 (https://arxiv.org/abs/2604.14967)查看 PDF (https://arxiv.org/pdf/2604.14967)GitHub8 (https://github.com/deepglint/UniDoc-RL)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.14967)
在你的智能体中获取此论文:
hf papers read 2604\.14967
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有关联此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2604.14967 即可链接到此页面。
引用此论文的数据集0
没有关联此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2604.14967 即可链接到此页面。
引用此论文的 Spaces0
没有关联此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2604.14967 即可链接到此页面。
包含此论文的收藏2
相似文章
EasyVideoR1:让视频理解的强化学习更简单
# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers
通过工具监督强化学习实现视觉推理
提出 ToolsRL,一个两阶段强化学习框架,教多模态大模型使用简单视觉工具完成复杂视觉推理任务。
学习层级结构
OpenAI 研究提出分层强化学习方法,其中智能体将复杂任务分解为高级操作序列而非低级操作,通过将搜索复杂度从数千步降低到数十步,显著提高长视野任务的效率。
AgentV-RL:用智能体验证器扩展奖励建模
AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。
UI-TARS-2 技术报告:通过多轮强化学习推进图形用户界面代理
UI-TARS-2 是一款原生以图形用户界面为中心的代理模型,解决了数据可扩展性、多轮强化学习以及环境稳定性等挑战,在图形用户界面基准测试中取得了领先成果(Online-Mind2Web 88.2 分,OSWorld 47.5 分,WindowsAgentArena 50.6 分,AndroidWorld 73.3 分),优于 Claude 和 OpenAI 代理模型。