@ManlingLi_: 视图规划：VLM能否预测每个摄像机移动如何改变视图，并提前规划多个这样的移动？我们引入…

X AI KOLs Following 2026/06/18 19:53 论文

vision-language-models camera-control reinforcement-learning view-planning dataset research ai

摘要

介绍了ViewSuite，这是一个具有6自由度相机控制和约16.5万个任务的基准测试，用于评估VLM规划相机移动的能力。发现了一个规划差距：模型可以跟踪但无法组合计划，并提出了视图图蒸馏（RL-Graph-SFT）方法，将成功率从2.5%提升到47.8%。

视图规划： VLM能否预测每个摄像机移动如何改变视图，并提前规划多个这样的移动？我们引入了ViewSuite，它具有6自由度相机控制和大约16.5万个任务实例，测试了： - 路径到视图 - 视图到路径 - 交互式视图规划出现了一个明显的规划差距：＋大致可以“跟踪”相机动作如何改变视图－完全无法“组合”出一个朝向目标视图的计划然后我们尝试用强化学习训练VLM。 - 强化学习无法教会VLM这种规划能力，使用Qwen2.5-VL-7B时成功率仅为2.5%。＋通过视图图蒸馏（我们的RL-Graph-SFT框架），成功率从2.5%提升到了47.8% 下面，我们回答以下问题： Q1. 失败模式有哪些？ Q2. 如何让强化学习工作？ Q3. 模型学到了什么？我们能否打开模型看到前后变化？这种空间先验能否迁移到其他与视图相关的任务？由@James_KKW领导，与@LINJIEFUN @zhengyuan_yang @shiqi_chen17 @wzenus @drfeifei @jiajunwu_cs Leonidas Guibas、Lijuan Wang合作愉快。与@StanfordAILab @StanfordSVL @MSFTResearch的联合努力。

查看原文

查看缓存全文

缓存时间: 2026/06/18 22:11

用视角进行规划：

VLMs能预测每个相机移动如何改变视角，并提前规划多个此类移动吗？

我们推出ViewSuite，支持6自由度相机控制和约16.5万个任务实例，测试：路径到视角视角到路径交互式视角规划

一个显著的规划差距出现了：

能大致“追踪”相机动作如何改变视角

但完全无法“组合”出一个朝向目标视角的计划

随后我们尝试用强化学习训练VLM。

RL无法教会VLM这种规划能力，Qwen2.5-VL-7B的成功率仅2.5%。

采用视角图谱蒸馏（我们的RL-Graph-SFT框架），成功率从2.5%提升至47.8%。

下面，我们回答这些问题： Q1. 失败模式有哪些？ Q2. 如何让RL生效？ Q3. 模型学到了什么？能否打开模型看看训练前后的变化？这种空间先验能否迁移到其他视角相关任务？

由@James_KKW主导，感谢@LINJIEFUN @zhengyuan_yang @shiqi_chen17 @wzenus @drfeifei @jiajunwu_cs Leonidas Guibas、Lijuan Wang的共同努力。

与@StanfordAILab @StanfordSVL @MSFTResearch的联合成果。

相似文章

规划复杂视觉任务的更优方法

MIT News — Artificial Intelligence

MIT研究人员开发了VLMFP，这是一种结合视觉语言模型与形式化规划软件的两阶段生成式AI方法，在机器人导航等复杂视觉规划任务中达到了70%的成功率，比现有基线方法高出近2.3倍。该方法能自动将视觉场景转化为传统求解器可处理的规划文件，从而在新环境中实现高效的长期规划。

SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力

Hugging Face Daily Papers

SpatialAct是一个新的基于模拟器的基准，用于探索VLM智能体是否能在多轮反馈设置下进行连贯的空间推理并将其转化为3D环境中的行动。实验揭示了一个显著的推理到行动差距：当前的VLM尽管在孤立推理任务上表现良好，但难以维持空间信念并产生可靠的行为。

VLM是通过自适应测试时优化进行视频推理的优秀教师

Hugging Face Daily Papers

本文提出一种新范式：视觉-语言模型（VLM）作为测试时教师，通过可微分奖励和LoRA优化引导视频生成模型（VGM），在视频推理基准测试上平均提升16.7个百分点。

Track2View：通过配对3D点轨迹实现4D一致的相机控制视频生成

Hugging Face Daily Papers

Track2View 通过将视频扩散转换器基于配对3D点轨迹进行条件生成，从视频中生成新的相机视角，实现了最先进的视觉质量，并显著降低了旋转和平移误差。

OneVL：基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL：基于视觉语言解释的单步隐式推理与规划来源：[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者：, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架，通过整合语言和 v

相似文章

规划复杂视觉任务的更优方法

SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力

VLM是通过自适应测试时优化进行视频推理的优秀教师

Track2View：通过配对3D点轨迹实现4D一致的相机控制视频生成

OneVL：基于视觉语言解释的单步隐式推理与规划

提交意见反馈