VLM是通过自适应测试时优化进行视频推理的优秀教师
摘要
本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。
查看缓存全文
缓存时间: 2026/06/02 15:38
论文页面 - VLMs 是视频推理的优秀教师:通过自适应测试时优化
来源:https://huggingface.co/papers/2606.02564
发布于 6月1日
·
提交者 https://huggingface.co/Howe666
CJH (https://huggingface.co/Howe666) 于 6月2日
摘要
视频生成模型与视觉语言模型结合——后者通过可微分奖励充当测试时教师——可实现卓越的视频推理性能。
最近的“用视频推理”范式利用视频生成模型 (VGMs) 生成时间上连贯的视觉轨迹以完成推理任务。虽然最先进的 VGMs 在视觉质量上表现出色,但它们往往难以理解和遵循特定任务规则,导致在各种推理场景中出现逻辑错误。现有工作尝试利用视觉语言模型 (VLMs) 作为问题预求解器,为 VGM 生成或优化文本引导。然而,文本描述无法捕捉复杂的时空细节,且即使拥有有效规划,VGMs 也常常难以忠实地执行细粒度或长尾指令。虽然 VLMs 作为求解器表现不佳,但它们具备强大的感知能力,能够评估过程约束满足度和最终目标达成度。利用这一优势,我们提出一种范式转变,将 VLMs 的角色转变为“教师”。具体而言,VLM 教师提取任务特定规则以制定可微分奖励,通过轻量级 LoRA 模块的测试时在线优化来引导 VGM 推理器。该策略实现了自适应测试时优化,并将推理能力扩展至 VGM 固有边界之外。在符号视频推理基准 (VBVR-Bench) 和通用视频推理基准 (RULER-Bench) 上的评估表明,所提方法平均性能提升 16.7 分,在可比测试时成本下,显著优于 VLM-as-Solver 范式(+0.4 分)和 Best-of-N 缩放(+2.2 分)。这些发现表明,将 VLMs 作为测试时教师集成是一种有前景的实现可泛化视频推理的范式。项目页面:https://VLM-as-Teacher.github.io/
查看 arXiv 页面 (https://arxiv.org/abs/2606.02564) | 查看 PDF (https://arxiv.org/pdf/2606.02564) | 项目页面 (https://vlm-as-teacher.github.io/) | 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02564)
在您的代理中获取此论文:
hf papers read 2606.02564
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
无模型关联此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.02564 以从此页面链接。
引用本论文的数据集0
无数据集关联此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.02564 以从此页面链接。
引用本论文的 Spaces0
无 Space 关联此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.02564 以从此页面链接。
包含本论文的收藏集0
无收藏集包含此论文
将本论文添加至一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
视频模型可通过可验证奖励进行推理
VideoRLVR利用基于规则的奖励的强化学习,优化视频扩散模型以进行可验证推理任务,在约束满足的视频生成中取得了优于监督方法的性能。
视觉语言模型能否在数学教育中实现自适应?基于学习者模型的评价标准研究
本文提出了一种基于学习者模型的评价标准,用于评估视觉语言模型(VLM)在数学教育中的自适应性。实验表明,不同模型在自适应性上存在可测量的差异,并揭示了当前的VLM难以生成一致且适应学习者的教学回应。
通过闭环验证推理解锁复杂视觉生成
介绍CLVR(闭环视觉推理),一种将文本到图像生成从单步过程重构为闭环多步视觉推理方法的框架,使用VLM控制器和扩散模型,在组合提示上实现了改进的性能。
从演示到奖励:VLM奖励模型的测试时提示优化
提出Demo2Reward,一种针对VLM奖励模型的测试时提示优化技术,利用少量专家演示,显著减少误报,并在无需额外模型训练的情况下改进机器人策略学习。