VLM是通过自适应测试时优化进行视频推理的优秀教师

Hugging Face Daily Papers 2026/06/01 00:00 论文

摘要

本文提出一种新范式：视觉-语言模型（VLM）作为测试时教师，通过可微分奖励和LoRA优化引导视频生成模型（VGM），在视频推理基准测试上平均提升16.7个百分点。

最近的“视频推理”范式利用视频生成模型（VGM）生成时间连贯的视觉轨迹来完成推理任务。尽管最先进的VGM在视觉质量上表现出色，它们往往难以理解和遵循任务特定规则，导致在各种推理场景中出现逻辑失败。现有尝试利用视觉-语言模型（VLM）作为问题的预求解器，为VGM生成或细化文本指导。然而，文本描述无法捕捉复杂的时空细节，且即使有有效计划，VGM也常常难以忠实地执行细粒度或长尾指令。虽然VLM作为求解器表现不佳，但它们拥有强大的感知能力，可以评估过程约束满足和最终目标达成。利用这一优势，我们引入了一种范式转变，将VLM的角色转变为“教师”。具体来说，VLM教师提取任务特定规则以制定可微分奖励，通过轻量级LoRA模块的测试时在线优化来指导VGM推理器。这种策略实现了自适应测试时优化，并将推理能力扩展到VGM自身边界之外。在符号视频推理基准（VBVR-Bench）和通用视频推理基准（RULER-Bench）上的评估表明，所提方法平均性能提升16.7个百分点，大幅优于VLM作为求解器范式（+0.4个百分点）和Best-of-N扩展（+2.2个百分点），且测试时成本相当。这些发现表明，将VLM作为测试时教师集成是一种实现可泛化视频推理的有前景范式。项目页面：https://VLM-as-Teacher.github.io/

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:38

论文页面 - VLMs 是视频推理的优秀教师：通过自适应测试时优化

来源：https://huggingface.co/papers/2606.02564
发布于 6月1日

提交者 https://huggingface.co/Howe666

CJH (https://huggingface.co/Howe666) 于 6月2日

摘要

视频生成模型与视觉语言模型结合——后者通过可微分奖励充当测试时教师——可实现卓越的视频推理性能。

最近的“用视频推理”范式利用视频生成模型 (VGMs) 生成时间上连贯的视觉轨迹以完成推理任务。虽然最先进的 VGMs 在视觉质量上表现出色，但它们往往难以理解和遵循特定任务规则，导致在各种推理场景中出现逻辑错误。现有工作尝试利用视觉语言模型 (VLMs) 作为问题预求解器，为 VGM 生成或优化文本引导。然而，文本描述无法捕捉复杂的时空细节，且即使拥有有效规划，VGMs 也常常难以忠实地执行细粒度或长尾指令。虽然 VLMs 作为求解器表现不佳，但它们具备强大的感知能力，能够评估过程约束满足度和最终目标达成度。利用这一优势，我们提出一种范式转变，将 VLMs 的角色转变为“教师”。具体而言，VLM 教师提取任务特定规则以制定可微分奖励，通过轻量级 LoRA 模块的测试时在线优化来引导 VGM 推理器。该策略实现了自适应测试时优化，并将推理能力扩展至 VGM 固有边界之外。在符号视频推理基准 (VBVR-Bench) 和通用视频推理基准 (RULER-Bench) 上的评估表明，所提方法平均性能提升 16.7 分，在可比测试时成本下，显著优于 VLM-as-Solver 范式（+0.4 分）和 Best-of-N 缩放（+2.2 分）。这些发现表明，将 VLMs 作为测试时教师集成是一种有前景的实现可泛化视频推理的范式。项目页面：https://VLM-as-Teacher.github.io/

查看 arXiv 页面 (https://arxiv.org/abs/2606.02564) | 查看 PDF (https://arxiv.org/pdf/2606.02564) | 项目页面 (https://vlm-as-teacher.github.io/) | 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.02564)

在您的代理中获取此论文：

hf papers read 2606.02564

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

无模型关联此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.02564 以从此页面链接。

引用本论文的数据集0

无数据集关联此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.02564 以从此页面链接。

引用本论文的 Spaces0

无 Space 关联此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.02564 以从此页面链接。

包含本论文的收藏集0

无收藏集包含此论文

将本论文添加至一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

VLM是通过自适应测试时优化进行视频推理的优秀教师

论文页面 - VLMs 是视频推理的优秀教师：通过自适应测试时优化

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Spaces0

包含本论文的收藏集0

相似文章

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

视频模型可通过可验证奖励进行推理

视觉语言模型能否在数学教育中实现自适应？基于学习者模型的评价标准研究

通过闭环验证推理解锁复杂视觉生成

从演示到奖励：VLM奖励模型的测试时提示优化

提交意见反馈