视频模型可通过可验证奖励进行推理

Hugging Face Daily Papers 论文

摘要

VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。

视频扩散模型在感知真实性和时间连贯性方面取得了快速进展,但它们仍然主要针对合理的生成而非可验证的推理进行优化。这一局限性在生成视频必须满足明确的空间、时间或逻辑约束的任务中尤为明显。受可验证奖励强化学习(RLVR)在面向推理的语言模型中所起作用的启发,我们引入了VideoRLVR,这是一种利用基于规则的反馈优化视频扩散模型的实用方法。VideoRLVR将视频推理形式化为可验证视觉轨迹的生成,并包含SDE-GRPO优化框架、密集分解奖励以及用于高效训练的早期步骤聚焦策略(Early-Step Focus)。早期步骤聚焦策略将策略优化限制在去噪的早期阶段,在保持性能的同时将训练延迟降低约40%。我们在Maze、FlowFree和Sokoban这三个具有客观成功标准的程序化生成域上评估了VideoRLVR。在这些任务中,VideoRLVR始终优于监督微调基线,其中密集分解奖励在低成功率设置中尤为重要。我们的RL优化模型在这些可验证推理基准和域外基准上也优于评估的专有和开源视频生成模型。这些结果表明,可验证的RL可以将视频模型从感知模仿转向更可靠的、符合规则的视觉推理。
查看原文
查看缓存全文

缓存时间: 2026/05/20 06:36

论文页面 - 视频模型可通过可验证奖励进行推理

来源:https://huggingface.co/papers/2605.15458

摘要

VideoRLVR 利用基于规则的奖励进行强化学习,优化视频扩散模型以完成可验证的推理任务,在满足约束条件的视频生成任务中表现优于监督学习方法。

视频扩散模型(https://huggingface.co/papers?q=Video%20diffusion%20models)在感知真实性和时间一致性方面取得了快速进展,但它们仍然主要针对合理生成而非可验证推理进行优化。这一限制在生成视频必须满足明确的时空或逻辑约束的任务中尤为突出。受基于可验证奖励的强化学习(https://huggingface.co/papers?q=reinforcement%20learning)(RLVR)在面向推理的语言模型中的作用的启发,我们引入了 VideoRLVR,这是一种利用基于规则的反馈来优化视频扩散模型(https://huggingface.co/papers?q=video%20diffusion%20models)的实用方案。VideoRLVR 将视频推理(https://huggingface.co/papers?q=video%20reasoning)形式化为生成可验证的视觉轨迹(https://huggingface.co/papers?q=visual%20trajectories),并包含一个 SDE-GRPO(https://huggingface.co/papers?q=SDE-GRPO)优化主干、密集分解奖励(https://huggingface.co/papers?q=dense%20decomposed%20rewards)以及一种高效的早期步骤聚焦(https://huggingface.co/papers?q=Early-Step%20Focus)训练策略。早期步骤聚焦(https://huggingface.co/papers?q=Early-Step%20Focus)策略将策略优化(https://huggingface.co/papers?q=policy%20optimization)限制在早期去噪阶段,将训练延迟降低约 40%,同时保持性能。我们在 Maze、FlowFree 和 Sokoban 这三个具有客观成功标准的程序化生成领域上评估了 VideoRLVR。在这些任务中,VideoRLVR 持续优于监督微调基线,其中密集分解奖励(https://huggingface.co/papers?q=dense%20decomposed%20rewards)在低成功率场景下尤其重要。我们经 RL 优化的模型在这些可验证推理基准和域外基准上也优于所评估的专有和开源视频生成模型。这些结果表明,可验证的 RL 可以将视频模型从感知模仿推向更可靠的规则一致性视觉推理。

查看 arXiv 页面(https://arxiv.org/abs/2605.15458)查看 PDF(https://arxiv.org/pdf/2605.15458)项目页面(https://darthzhu.github.io/VideoRLVR-page/)GitHub1(https://github.com/luka-group/VideoRLVR)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.15458)

在你的代理中获取此论文:

hf papers read 2605\.15458

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.15458 即可从此页面链接。

引用此论文的数据集1

DarthZhu/VideoRLVR-Data 预览•更新时间:26分钟前 (https://huggingface.co/datasets/DarthZhu/VideoRLVR-Data)

引用此论文的 Space0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.15458 即可从此页面链接。

包含此论文的合集1

相似文章

通过闭环验证推理解锁复杂视觉生成

Hugging Face Daily Papers

介绍CLVR(闭环视觉推理),一种将文本到图像生成从单步过程重构为闭环多步视觉推理方法的框架,使用VLM控制器和扩散模型,在组合提示上实现了改进的性能。

AgentV-RL:用智能体验证器扩展奖励建模

arXiv cs.CL

AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。