ParaVT: 在智能体视频强化学习中驯服工具先验悖论以实现并行工具使用
摘要
ParaVT 提出了第一个用于并行视频工具调用的多智能体端到端强化学习框架,通过 PARA-GRPO 解决了工具先验悖论,并完全开源了论文、代码、权重和数据。
查看缓存全文
缓存时间: 2026/05/26 06:43
论文页面 - ParaVT:驯服工具先验悖论——面向智能体视频强化学习中的并行工具使用
来源:https://huggingface.co/papers/2605.20342
长视频理解正变得具有智能体能力:大型多模态模型(LMM)通过强化学习进行后训练,以原生方式调用视频工具(例如时间裁剪)。但现有的每一个原生RL方案(包括我们自己在CVPR 2026上发表的LongVT)都是顺序调度工具调用,每轮一次:糟糕的裁剪没有同伴纠正,多轮调用会导致上下文漂移,且推理成本随轮次线性增长。
ParaVT是首个面向并行视频工具调用的多智能体端到端RL训练框架。一个主智能体在单轮中发出多个时间窗口裁剪,共享权重的子智能体并发处理它们,然后通过汇集与推理步骤生成最终答案。然而,在具备工具原生能力的LMM上应用标准GRPO,会暴露出两种耦合的失败模式,它们都源于同一个预训练工具先验。我们将此称为工具先验悖论:
- 格式脆弱性——SFT学习的
</tool_call>闭合会在温度采样下崩溃。 - 工具必要性缺口——在64帧概览下,“跳过工具”成为捷径,GRPO中调用工具与跳过工具的收益差距趋近于零。
我们提出PARA-GRPO(可解析性锚定与比率门控GRPO),为每种失败模式配备一个针对性修复:(i)一个仅在最易崩溃的结构性Token位置施加的格式奖励,以及(ii)每个提示的概览帧随机化K ∼ Uniform{4, 8, 16, 32, 64},以保持工具调用的优势非退化。
完全开源:论文、代码、权重、数据
📄 arxiv.org/abs/2605.20342 · 💻 github.com/EvolvingLMMs-Lab/ParaVT · 🤖 https://huggingface.co/ParaVT · 🌐 evolvinglmms-lab.github.io/ParaVT
相似文章
@TheTuringPost: 用于 Agent RL 栈的 10 个开源工具 ↓ OpenPipe ART verl-agent Agent Lightning Unsloth OpenRLHF SkyRL NVIDIA’s P…
精心整理的 10 个用于通过强化学习训练 AI Agent 的开源工具,涵盖 OpenPipe ART、verl-agent、Agent Lightning 和 Unsloth 等框架,并介绍了各工具的使用场景和优势。
通过工具监督强化学习实现视觉推理
提出 ToolsRL,一个两阶段强化学习框架,教多模态大模型使用简单视觉工具完成复杂视觉推理任务。
Visual Para-Thinker++: 视觉推理的单策略多智能体框架
Visual Para-Thinker++提出了一种用于视觉推理的单策略多智能体框架,该框架使用角色条件化智能体(主智能体、工作智能体、汇总智能体)和专用训练方法,以减少幻觉并提高效率,在幻觉敏感基准测试上优于基线。
OpenWebRL:揭秘面向视觉网页代理的在线多轮强化学习
OpenWebRL提出了一个开放框架,用于在真实网站上利用在线多轮强化学习训练视觉网页代理,以极少的初始监督实现了最先进的性能。其4B参数模型优于先前的开放代理,并与OpenAI CUA和Gemini CUA等专有系统竞争。
AgentV-RL:用智能体验证器扩展奖励建模
AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。