VLM是通过自适应测试时优化进行视频推理的优秀教师

Hugging Face Daily Papers 论文

摘要

本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。

最近的“视频推理”范式利用视频生成模型(VGM)生成时间连贯的视觉轨迹来完成推理任务。尽管最先进的VGM在视觉质量上表现出色,它们往往难以理解和遵循任务特定规则,导致在各种推理场景中出现逻辑失败。现有尝试利用视觉-语言模型(VLM)作为问题的预求解器,为VGM生成或细化文本指导。然而,文本描述无法捕捉复杂的时空细节,且即使有有效计划,VGM也常常难以忠实地执行细粒度或长尾指令。虽然VLM作为求解器表现不佳,但它们拥有强大的感知能力,可以评估过程约束满足和最终目标达成。利用这一优势,我们引入了一种范式转变,将VLM的角色转变为“教师”。具体来说,VLM教师提取任务特定规则以制定可微分奖励,通过轻量级LoRA模块的测试时在线优化来指导VGM推理器。这种策略实现了自适应测试时优化,并将推理能力扩展到VGM自身边界之外。在符号视频推理基准(VBVR-Bench)和通用视频推理基准(RULER-Bench)上的评估表明,所提方法平均性能提升16.7个百分点,大幅优于VLM作为求解器范式(+0.4个百分点)和Best-of-N扩展(+2.2个百分点),且测试时成本相当。这些发现表明,将VLM作为测试时教师集成是一种实现可泛化视频推理的有前景范式。项目页面:https://VLM-as-Teacher.github.io/
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:38

论文页面 - VLMs 是视频推理的优秀教师:通过自适应测试时优化

来源:https://huggingface.co/papers/2606.02564
发布于 6月1日

·

提交者 https://huggingface.co/Howe666

CJH (https://huggingface.co/Howe666) 于 6月2日

摘要

视频生成模型与视觉语言模型结合——后者通过可微分奖励充当测试时教师——可实现卓越的视频推理性能。

最近的“用视频推理”范式利用视频生成模型 (VGMs) 生成时间上连贯的视觉轨迹以完成推理任务。虽然最先进的 VGMs 在视觉质量上表现出色,但它们往往难以理解和遵循特定任务规则,导致在各种推理场景中出现逻辑错误。现有工作尝试利用视觉语言模型 (VLMs) 作为问题预求解器,为 VGM 生成或优化文本引导。然而,文本描述无法捕捉复杂的时空细节,且即使拥有有效规划,VGMs 也常常难以忠实地执行细粒度或长尾指令。虽然 VLMs 作为求解器表现不佳,但它们具备强大的感知能力,能够评估过程约束满足度和最终目标达成度。利用这一优势,我们提出一种范式转变,将 VLMs 的角色转变为“教师”。具体而言,VLM 教师提取任务特定规则以制定可微分奖励,通过轻量级 LoRA 模块的测试时在线优化来引导 VGM 推理器。该策略实现了自适应测试时优化,并将推理能力扩展至 VGM 固有边界之外。在符号视频推理基准 (VBVR-Bench) 和通用视频推理基准 (RULER-Bench) 上的评估表明,所提方法平均性能提升 16.7 分,在可比测试时成本下,显著优于 VLM-as-Solver 范式(+0.4 分)和 Best-of-N 缩放(+2.2 分)。这些发现表明,将 VLMs 作为测试时教师集成是一种有前景的实现可泛化视频推理的范式。项目页面:https://VLM-as-Teacher.github.io/

查看 arXiv 页面 (https://arxiv.org/abs/2606.02564) | 查看 PDF (https://arxiv.org/pdf/2606.02564) | 项目页面 (https://vlm-as-teacher.github.io/) | 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02564)

在您的代理中获取此论文:

hf papers read 2606.02564

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

无模型关联此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.02564 以从此页面链接。

引用本论文的数据集0

无数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.02564 以从此页面链接。

引用本论文的 Spaces0

无 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.02564 以从此页面链接。

包含本论文的收藏集0

无收藏集包含此论文

将本论文添加至一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

视频模型可通过可验证奖励进行推理

Hugging Face Daily Papers

VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。

通过闭环验证推理解锁复杂视觉生成

Hugging Face Daily Papers

介绍CLVR(闭环视觉推理),一种将文本到图像生成从单步过程重构为闭环多步视觉推理方法的框架,使用VLM控制器和扩散模型,在组合提示上实现了改进的性能。