UniDoc-RL:基于层次化动作与密集奖励的粗到细视觉RAG

Hugging Face Daily Papers 论文

摘要

UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架,通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理,在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。

检索增强生成(RAG)为大型视觉-语言模型(LVLMs)提供了外部视觉知识。然而,现有的视觉RAG系统通常依赖通用检索信号,忽略了复杂推理所需的细粒度视觉语义。为解决这一局限,我们提出UniDoc-RL,一种统一的强化学习框架,使LVLM智能体能够联合执行检索、重排序、主动视觉感知和推理。UniDoc-RL将视觉信息获取建模为具有层次化动作空间的序列决策问题。具体而言,它从粗粒度文档检索逐步细化到细粒度图像选择和主动区域裁剪,使模型能够抑制无关内容并聚焦信息密集区域。为实现高效的端到端训练,我们引入了一种密集多奖励方案,为每个动作提供任务感知监督。基于群组相对策略优化(GRPO),UniDoc-RL无需依赖独立的价值网络,即可使智能体行为与多个目标对齐。为支持这一训练范式,我们精心整理了一个包含高质量推理轨迹和细粒度动作标注的全面数据集。在三个基准上的实验表明,UniDoc-RL持续超越最先进基线,相较于此前基于RL的方法实现了高达17.7%的性能提升。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - UniDoc-RL: 从粗到细的视觉RAG,结合分层动作与密集奖励

来源: https://huggingface.co/papers/2604.14967

摘要

UniDoc-RL 提出了一种用于 LVLM 的强化学习框架,通过分层决策和密集的多奖励监督,联合优化检索、重排序、视觉感知和推理。

检索增强生成 (RAG) 扩展了大型视觉语言模型 (LVLM),使其具备外部视觉知识。然而,现有的视觉 RAG 系统通常依赖通用检索信号,忽略了复杂推理所必需的细粒度视觉语义。为解决这一限制,我们提出了 UniDoc-RL,一个统一的强化学习框架,其中 LVLM 智能体联合执行检索、重排序、主动视觉感知和推理。UniDoc-RL 将视觉信息获取形式化为一个具有分层动作空间的序列决策问题。具体来说,它从粗粒度的文档检索逐步细化到细粒度的图像选择和主动区域裁剪,使模型能够抑制无关内容并聚焦于信息密集区域。为了实现有效的端到端训练,我们引入了一种密集的多奖励方案,为每个动作提供任务感知的监督。基于组相对策略优化 (GRPO),UniDoc-RL 无需依赖单独的价值网络即可使智能体行为与多个目标对齐。为了支持这一训练范式,我们整理了一个包含高质量推理轨迹和细粒度动作标注的综合数据集。在三个基准上的实验表明,UniDoc-RL 持续超越最先进的基线,在此前基于 RL 的方法基础上获得了高达 17.7% 的提升。

查看 arXiv 页面 (https://arxiv.org/abs/2604.14967)查看 PDF (https://arxiv.org/pdf/2604.14967)GitHub8 (https://github.com/deepglint/UniDoc-RL)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.14967)

在你的智能体中获取此论文:

hf papers read 2604\.14967

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有关联此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2604.14967 即可链接到此页面。

引用此论文的数据集0

没有关联此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2604.14967 即可链接到此页面。

引用此论文的 Spaces0

没有关联此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2604.14967 即可链接到此页面。

包含此论文的收藏2

相似文章

EasyVideoR1:让视频理解的强化学习更简单

Hugging Face Daily Papers

# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers

增强多模态推理以对抗视觉退化

Hugging Face Daily Papers

本文介绍了 ROMA,这是一种强化学习微调框架,旨在提高多模态大语言模型(MLLMs)对模糊和压缩伪影等视觉退化的鲁棒性。该框架通过双重前向传播策略和专门的正则化技术实现这一目标,在保持干净输入准确性的同时,提升了推理基准测试的性能。

OpenWebRL:揭秘面向视觉网页代理的在线多轮强化学习

Hugging Face Daily Papers

OpenWebRL提出了一个开放框架,用于在真实网站上利用在线多轮强化学习训练视觉网页代理,以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理,并与OpenAI CUA和Gemini CUA等专有系统竞争。

分层优势加权:面向稀疏回合结果的VLA在线强化学习微调

Hugging Face Daily Papers

本文提出分层优势加权行为克隆(HABC),用于利用具有稀疏二进制回合结果的在线强化学习微调视觉-语言-动作(VLA)策略。HABC通过自适应评价器头和干预感知的信用分配将可行性和效率目标分离,显著提高了接触密集型双手操作任务的成功率。