ParaVT: 在智能体视频强化学习中驯服工具先验悖论以实现并行工具使用

Hugging Face Daily Papers 论文

摘要

ParaVT 提出了第一个用于并行视频工具调用的多智能体端到端强化学习框架,通过 PARA-GRPO 解决了工具先验悖论,并完全开源了论文、代码、权重和数据。

通过强化学习(RL)训练大型多模态模型(LMM)以原生调用视频处理工具(例如裁剪)已成为长视频理解的一条有前景的途径。然而,现有的原生RL方法按顺序调度工具调用(即每轮一次):单个错误的裁剪会导致错误传播而无法被同伴纠正,多轮工具调用会破坏上下文,并且推理成本随轮数线性增长。我们提出 ParaVT,这是第一个经过端到端RL训练的多智能体并行视频工具调用框架,它在单轮中调度多个时间窗口裁剪,以获得更清晰的上下文和更好的容错性。然而,将标准RL应用于ParaVT揭示了一个我们称之为工具先验悖论的障碍:预训练的工具先验虽然启用了工具探索,但也破坏了冷启动的结构格式,并在温度采样下暴露了跳过工具的奖励捷径。在弱先验LMM上的跨模型对比支持了这一说法:格式保持稳定,但RL没有引发任何工具调用,这表明先验强度是格式崩溃和工具探索的共同驱动因素。我们提出 PARA-GRPO(解析度锚定与比率门控GRPO),它通过两个互补机制增强了标准RL:(i)仅在最容易崩溃的结构标记位置应用针对性格式奖励,(ii)每个提示的帧预算随机化,创建训练提示,使得调用工具比跳过工具产生可衡量的奖励信号。在六个长视频理解基准测试中,ParaVT 相较 Qwen3-VL 基线平均提升了 7.9%,PARA-GRPO 将训练时的格式合规率从 0.13 提升至 0.64。随着工具能力在现代LMM中日益内化,RL必须与由此产生的先验协同工作,而ParaVT为智能体RL提供了一种通用方案。代码、数据和模型权重已公开提供。
查看原文
查看缓存全文

缓存时间: 2026/05/26 06:43

论文页面 - ParaVT:驯服工具先验悖论——面向智能体视频强化学习中的并行工具使用

来源:https://huggingface.co/papers/2605.20342

长视频理解正变得具有智能体能力:大型多模态模型(LMM)通过强化学习进行后训练,以原生方式调用视频工具(例如时间裁剪)。但现有的每一个原生RL方案(包括我们自己在CVPR 2026上发表的LongVT)都是顺序调度工具调用,每轮一次:糟糕的裁剪没有同伴纠正,多轮调用会导致上下文漂移,且推理成本随轮次线性增长。

ParaVT是首个面向并行视频工具调用的多智能体端到端RL训练框架。一个主智能体在单轮中发出多个时间窗口裁剪,共享权重的子智能体并发处理它们,然后通过汇集与推理步骤生成最终答案。然而,在具备工具原生能力的LMM上应用标准GRPO,会暴露出两种耦合的失败模式,它们都源于同一个预训练工具先验。我们将此称为工具先验悖论

  • 格式脆弱性——SFT学习的</tool_call>闭合会在温度采样下崩溃。
  • 工具必要性缺口——在64帧概览下,“跳过工具”成为捷径,GRPO中调用工具与跳过工具的收益差距趋近于零。

我们提出PARA-GRPO(可解析性锚定与比率门控GRPO),为每种失败模式配备一个针对性修复:(i)一个仅在最易崩溃的结构性Token位置施加的格式奖励,以及(ii)每个提示的概览帧随机化K ∼ Uniform{4, 8, 16, 32, 64},以保持工具调用的优势非退化。

完全开源:论文、代码、权重、数据
📄 arxiv.org/abs/2605.20342 · 💻 github.com/EvolvingLMMs-Lab/ParaVT · 🤖 https://huggingface.co/ParaVT · 🌐 evolvinglmms-lab.github.io/ParaVT

相似文章

Visual Para-Thinker++: 视觉推理的单策略多智能体框架

Hugging Face Daily Papers

Visual Para-Thinker++提出了一种用于视觉推理的单策略多智能体框架,该框架使用角色条件化智能体(主智能体、工作智能体、汇总智能体)和专用训练方法,以减少幻觉并提高效率,在幻觉敏感基准测试上优于基线。

OpenWebRL:揭秘面向视觉网页代理的在线多轮强化学习

Hugging Face Daily Papers

OpenWebRL提出了一个开放框架,用于在真实网站上利用在线多轮强化学习训练视觉网页代理,以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理,并与OpenAI CUA和Gemini CUA等专有系统竞争。

AgentV-RL:用智能体验证器扩展奖励建模

arXiv cs.CL

AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。