UniDoc-RL：基于层次化动作与密集奖励的粗到细视觉RAG

Hugging Face Daily Papers 2026/04/16 00:00 论文

visual-rag reinforcement-learning lvlm hierarchical-actions multi-reward document-retrieval

摘要

UniDoc-RL 提出了一种面向大型视觉-语言模型的强化学习框架，通过层次化决策与密集多奖励监督来优化检索、重排序和视觉推理，在视觉RAG任务上相较此前基于RL的方法实现了高达17.7%的性能提升。

检索增强生成（RAG）为大型视觉-语言模型（LVLMs）提供了外部视觉知识。然而，现有的视觉RAG系统通常依赖通用检索信号，忽略了复杂推理所需的细粒度视觉语义。为解决这一局限，我们提出UniDoc-RL，一种统一的强化学习框架，使LVLM智能体能够联合执行检索、重排序、主动视觉感知和推理。UniDoc-RL将视觉信息获取建模为具有层次化动作空间的序列决策问题。具体而言，它从粗粒度文档检索逐步细化到细粒度图像选择和主动区域裁剪，使模型能够抑制无关内容并聚焦信息密集区域。为实现高效的端到端训练，我们引入了一种密集多奖励方案，为每个动作提供任务感知监督。基于群组相对策略优化（GRPO），UniDoc-RL无需依赖独立的价值网络，即可使智能体行为与多个目标对齐。为支持这一训练范式，我们精心整理了一个包含高质量推理轨迹和细粒度动作标注的全面数据集。在三个基准上的实验表明，UniDoc-RL持续超越最先进基线，相较于此前基于RL的方法实现了高达17.7%的性能提升。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - UniDoc-RL: 从粗到细的视觉RAG，结合分层动作与密集奖励

来源: https://huggingface.co/papers/2604.14967

摘要

UniDoc-RL 提出了一种用于 LVLM 的强化学习框架，通过分层决策和密集的多奖励监督，联合优化检索、重排序、视觉感知和推理。

检索增强生成 (RAG) 扩展了大型视觉语言模型 (LVLM)，使其具备外部视觉知识。然而，现有的视觉 RAG 系统通常依赖通用检索信号，忽略了复杂推理所必需的细粒度视觉语义。为解决这一限制，我们提出了 UniDoc-RL，一个统一的强化学习框架，其中 LVLM 智能体联合执行检索、重排序、主动视觉感知和推理。UniDoc-RL 将视觉信息获取形式化为一个具有分层动作空间的序列决策问题。具体来说，它从粗粒度的文档检索逐步细化到细粒度的图像选择和主动区域裁剪，使模型能够抑制无关内容并聚焦于信息密集区域。为了实现有效的端到端训练，我们引入了一种密集的多奖励方案，为每个动作提供任务感知的监督。基于组相对策略优化 (GRPO)，UniDoc-RL 无需依赖单独的价值网络即可使智能体行为与多个目标对齐。为了支持这一训练范式，我们整理了一个包含高质量推理轨迹和细粒度动作标注的综合数据集。在三个基准上的实验表明，UniDoc-RL 持续超越最先进的基线，在此前基于 RL 的方法基础上获得了高达 17.7% 的提升。

查看 arXiv 页面 (https://arxiv.org/abs/2604.14967)查看 PDF (https://arxiv.org/pdf/2604.14967)GitHub8 (https://github.com/deepglint/UniDoc-RL)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.14967)

在你的智能体中获取此论文：

hf papers read 2604\.14967

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有关联此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2604.14967 即可链接到此页面。

引用此论文的数据集0

没有关联此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2604.14967 即可链接到此页面。

引用此论文的 Spaces0

没有关联此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2604.14967 即可链接到此页面。

UniDoc-RL：基于层次化动作与密集奖励的粗到细视觉RAG

论文页面 - UniDoc-RL: 从粗到细的视觉RAG，结合分层动作与密集奖励

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏2

相似文章

EasyVideoR1：让视频理解的强化学习更简单

增强多模态推理以对抗视觉退化

OpenWebRL：揭秘面向视觉网页代理的在线多轮强化学习

分层优势加权：面向稀疏回合结果的VLA在线强化学习微调

通过工具监督强化学习实现视觉推理

提交意见反馈