视频模型可通过可验证奖励进行推理
摘要
VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。
查看缓存全文
缓存时间: 2026/05/20 06:36
论文页面 - 视频模型可通过可验证奖励进行推理
来源:https://huggingface.co/papers/2605.15458
摘要
VideoRLVR 利用基于规则的奖励进行强化学习,优化视频扩散模型以完成可验证的推理任务,在满足约束条件的视频生成任务中表现优于监督学习方法。
视频扩散模型(https://huggingface.co/papers?q=Video%20diffusion%20models)在感知真实性和时间一致性方面取得了快速进展,但它们仍然主要针对合理生成而非可验证推理进行优化。这一限制在生成视频必须满足明确的时空或逻辑约束的任务中尤为突出。受基于可验证奖励的强化学习(https://huggingface.co/papers?q=reinforcement%20learning)(RLVR)在面向推理的语言模型中的作用的启发,我们引入了 VideoRLVR,这是一种利用基于规则的反馈来优化视频扩散模型(https://huggingface.co/papers?q=video%20diffusion%20models)的实用方案。VideoRLVR 将视频推理(https://huggingface.co/papers?q=video%20reasoning)形式化为生成可验证的视觉轨迹(https://huggingface.co/papers?q=visual%20trajectories),并包含一个 SDE-GRPO(https://huggingface.co/papers?q=SDE-GRPO)优化主干、密集分解奖励(https://huggingface.co/papers?q=dense%20decomposed%20rewards)以及一种高效的早期步骤聚焦(https://huggingface.co/papers?q=Early-Step%20Focus)训练策略。早期步骤聚焦(https://huggingface.co/papers?q=Early-Step%20Focus)策略将策略优化(https://huggingface.co/papers?q=policy%20optimization)限制在早期去噪阶段,将训练延迟降低约 40%,同时保持性能。我们在 Maze、FlowFree 和 Sokoban 这三个具有客观成功标准的程序化生成领域上评估了 VideoRLVR。在这些任务中,VideoRLVR 持续优于监督微调基线,其中密集分解奖励(https://huggingface.co/papers?q=dense%20decomposed%20rewards)在低成功率场景下尤其重要。我们经 RL 优化的模型在这些可验证推理基准和域外基准上也优于所评估的专有和开源视频生成模型。这些结果表明,可验证的 RL 可以将视频模型从感知模仿推向更可靠的规则一致性视觉推理。
查看 arXiv 页面(https://arxiv.org/abs/2605.15458)查看 PDF(https://arxiv.org/pdf/2605.15458)项目页面(https://darthzhu.github.io/VideoRLVR-page/)GitHub1(https://github.com/luka-group/VideoRLVR)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.15458)
在你的代理中获取此论文:
hf papers read 2605\.15458
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.15458 即可从此页面链接。
引用此论文的数据集1
DarthZhu/VideoRLVR-Data 预览•更新时间:26分钟前 (https://huggingface.co/datasets/DarthZhu/VideoRLVR-Data)
引用此论文的 Space0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.15458 即可从此页面链接。
包含此论文的合集1
相似文章
CollabVR:基于视觉语言模型与视频生成模型的协作式视频推理
CollabVR 是一篇研究论文,提出了一种闭环框架,该框架通过协作整合视觉语言模型与视频生成模型,以改善视觉推理并实时纠正推理失败。
VLM是通过自适应测试时优化进行视频推理的优秀教师
本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。
通过闭环验证推理解锁复杂视觉生成
介绍CLVR(闭环视觉推理),一种将文本到图像生成从单步过程重构为闭环多步视觉推理方法的框架,使用VLM控制器和扩散模型,在组合提示上实现了改进的性能。
AgentV-RL:用智能体验证器扩展奖励建模
AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。
CORA:通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距
本文分析了大型视觉语言模型中多模态可验证奖励强化学习(RLVR)中的思考-答案不一致性,并提出CORA方法,该方法引入了一致性奖励模型和混合奖励优势拆分,以提高忠实性和任务性能。