@ManlingLi_: 视图规划:VLM能否预测每个摄像机移动如何改变视图,并提前规划多个这样的移动?我们引入…
摘要
介绍了ViewSuite,这是一个具有6自由度相机控制和约16.5万个任务的基准测试,用于评估VLM规划相机移动的能力。发现了一个规划差距:模型可以跟踪但无法组合计划,并提出了视图图蒸馏(RL-Graph-SFT)方法,将成功率从2.5%提升到47.8%。
查看缓存全文
缓存时间: 2026/06/18 22:11
用视角进行规划:
VLMs能预测每个相机移动如何改变视角,并提前规划多个此类移动吗?
我们推出ViewSuite,支持6自由度相机控制和约16.5万个任务实例,测试: 路径到视角 视角到路径 交互式视角规划
一个显著的规划差距出现了:
- 能大致“追踪”相机动作如何改变视角
- 但完全无法“组合”出一个朝向目标视角的计划
随后我们尝试用强化学习训练VLM。
- RL无法教会VLM这种规划能力,Qwen2.5-VL-7B的成功率仅2.5%。
- 采用视角图谱蒸馏(我们的RL-Graph-SFT框架),成功率从2.5%提升至47.8%。
下面,我们回答这些问题: Q1. 失败模式有哪些? Q2. 如何让RL生效? Q3. 模型学到了什么?能否打开模型看看训练前后的变化?这种空间先验能否迁移到其他视角相关任务?
由@James_KKW主导,感谢@LINJIEFUN @zhengyuan_yang @shiqi_chen17 @wzenus @drfeifei @jiajunwu_cs Leonidas Guibas、Lijuan Wang的共同努力。
与@StanfordAILab @StanfordSVL @MSFTResearch的联合成果。
相似文章
规划复杂视觉任务的更优方法
MIT研究人员开发了VLMFP,这是一种结合视觉语言模型与形式化规划软件的两阶段生成式AI方法,在机器人导航等复杂视觉规划任务中达到了70%的成功率,比现有基线方法高出近2.3倍。该方法能自动将视觉场景转化为传统求解器可处理的规划文件,从而在新环境中实现高效的长期规划。
SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力
SpatialAct是一个新的基于模拟器的基准,用于探索VLM智能体是否能在多轮反馈设置下进行连贯的空间推理并将其转化为3D环境中的行动。实验揭示了一个显著的推理到行动差距:当前的VLM尽管在孤立推理任务上表现良好,但难以维持空间信念并产生可靠的行为。
VLM是通过自适应测试时优化进行视频推理的优秀教师
本文提出一种新范式:视觉-语言模型(VLM)作为测试时教师,通过可微分奖励和LoRA优化引导视频生成模型(VGM),在视频推理基准测试上平均提升16.7个百分点。
Track2View:通过配对3D点轨迹实现4D一致的相机控制视频生成
Track2View 通过将视频扩散转换器基于配对3D点轨迹进行条件生成,从视频中生成新的相机视角,实现了最先进的视觉质量,并显著降低了旋转和平移误差。
OneVL:基于视觉语言解释的单步隐式推理与规划
# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v