@ManlingLi_: 视图规划:VLM能否预测每个摄像机移动如何改变视图,并提前规划多个这样的移动?我们引入…

X AI KOLs Following 论文

摘要

介绍了ViewSuite,这是一个具有6自由度相机控制和约16.5万个任务的基准测试,用于评估VLM规划相机移动的能力。发现了一个规划差距:模型可以跟踪但无法组合计划,并提出了视图图蒸馏(RL-Graph-SFT)方法,将成功率从2.5%提升到47.8%。

视图规划: VLM能否预测每个摄像机移动如何改变视图,并提前规划多个这样的移动? 我们引入了ViewSuite,它具有6自由度相机控制和大约16.5万个任务实例,测试了: - 路径到视图 - 视图到路径 - 交互式视图规划 出现了一个明显的规划差距: +大致可以“跟踪”相机动作如何改变视图 -完全无法“组合”出一个朝向目标视图的计划 然后我们尝试用强化学习训练VLM。 - 强化学习无法教会VLM这种规划能力,使用Qwen2.5-VL-7B时成功率仅为2.5%。 +通过视图图蒸馏(我们的RL-Graph-SFT框架),成功率从2.5%提升到了47.8% 下面,我们回答以下问题: Q1. 失败模式有哪些? Q2. 如何让强化学习工作? Q3. 模型学到了什么?我们能否打开模型看到前后变化?这种空间先验能否迁移到其他与视图相关的任务? 由@James_KKW领导,与@LINJIEFUN @zhengyuan_yang @shiqi_chen17 @wzenus @drfeifei @jiajunwu_cs Leonidas Guibas、Lijuan Wang合作愉快。 与@StanfordAILab @StanfordSVL @MSFTResearch的联合努力。
查看原文
查看缓存全文

缓存时间: 2026/06/18 22:11

用视角进行规划:

VLMs能预测每个相机移动如何改变视角,并提前规划多个此类移动吗?

我们推出ViewSuite,支持6自由度相机控制和约16.5万个任务实例,测试: 路径到视角 视角到路径 交互式视角规划

一个显著的规划差距出现了:

  • 能大致“追踪”相机动作如何改变视角
  • 但完全无法“组合”出一个朝向目标视角的计划

随后我们尝试用强化学习训练VLM。

  • RL无法教会VLM这种规划能力,Qwen2.5-VL-7B的成功率仅2.5%。
  • 采用视角图谱蒸馏(我们的RL-Graph-SFT框架),成功率从2.5%提升至47.8%。

下面,我们回答这些问题: Q1. 失败模式有哪些? Q2. 如何让RL生效? Q3. 模型学到了什么?能否打开模型看看训练前后的变化?这种空间先验能否迁移到其他视角相关任务?

由@James_KKW主导,感谢@LINJIEFUN @zhengyuan_yang @shiqi_chen17 @wzenus @drfeifei @jiajunwu_cs Leonidas Guibas、Lijuan Wang的共同努力。

与@StanfordAILab @StanfordSVL @MSFTResearch的联合成果。

相似文章

规划复杂视觉任务的更优方法

MIT News — Artificial Intelligence

MIT研究人员开发了VLMFP,这是一种结合视觉语言模型与形式化规划软件的两阶段生成式AI方法,在机器人导航等复杂视觉规划任务中达到了70%的成功率,比现有基线方法高出近2.3倍。该方法能自动将视觉场景转化为传统求解器可处理的规划文件,从而在新环境中实现高效的长期规划。

SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力

Hugging Face Daily Papers

SpatialAct是一个新的基于模拟器的基准,用于探索VLM智能体是否能在多轮反馈设置下进行连贯的空间推理并将其转化为3D环境中的行动。实验揭示了一个显著的推理到行动差距:当前的VLM尽管在孤立推理任务上表现良好,但难以维持空间信念并产生可靠的行为。

OneVL:基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v