规划复杂视觉任务的更优方法
摘要
MIT研究人员开发了VLMFP,这是一种结合视觉语言模型与形式化规划软件的两阶段生成式AI方法,在机器人导航等复杂视觉规划任务中达到了70%的成功率,比现有基线方法高出近2.3倍。该方法能自动将视觉场景转化为传统求解器可处理的规划文件,从而在新环境中实现高效的长期规划。
<p>麻省理工学院(MIT)的研究人员开发了一种由生成式人工智能驱动的方法,用于规划机器人导航等长期视觉任务,其效果约为某些现有技术的两倍。</p><p>该方法使用专用的视觉语言模型来识别图像中的场景,并模拟达成目标所需的操作。随后,第二个模型将这些模拟结果转化为标准的问题规划编程语言,并对解决方案进行优化。</p><p>最终,该系统自动生成一组可输入传统规划软件的文件,由软件计算出达成目标的规划方案。这种两步式系统的平均成功率约为70%,远超表现最好的基线方法(仅约30%)。</p><p>重要的是,该系统能够解决此前未曾遇到的新问题,使其非常适合条件瞬息万变的真实应用场景。</p><p>“我们的框架融合了视觉语言模型的优势(例如理解图像的能力)以及形式化解算器的强大规划能力,”MIT航空航天系(AeroAstro)研究生、该技术研究开源论文的第一作者郝一伦(Yilun Hao)表示,“它能够处理单张图像,经过模拟推演后,生成一份可靠且适用于长周期规划的方案,这在许多实际应用中都能发挥作用。”</p><p>本文的其他作者还包括:来自MIT信息系统与决策系统实验室(LIDS)的研究生陈永超(Yongchao Chen)、AeroAstro副教授兼LIDS首席研究员樊楚楚(Chuchu Fan),以及MIT-IBM Watson AI Lab的研究科学家张阳(Yang Zhang)。该论文将在国际学习表征会议(ICLR)上展示。</p><p><strong>应对视觉任务</strong></p><p>过去几年间,樊楚楚及其同事一直致力于研究如何利用生成式AI模型执行复杂的推理与规划,通常采用大语言模型(LLM)来处理文本输入。</p><p>许多现实世界的规划问题(如机器人装配和自动驾驶)都包含视觉输入,而LLM难以单独有效处理这些内容。为此,研究人员转而利用具备处理图像与文本能力的强大AI系统——视觉语言模型(VLM),以拓展至视觉领域。</p><p>但VLM在理解场景中物体间的空间关系方面存在困难,且在多步推理时常出现错误,这使得利用VLM进行长距离规划变得颇具挑战。</p><p>另一方面,科学家们已经开发出稳健的形式化规划器,能够为复杂情境生成有效的长周期规划方案。然而,这类软件无法直接处理视觉输入,且需要专家知识将问题编码为求解器能够理解的特定语言。</p><p>樊楚楚团队打造了一套自动规划系统,融合了上述两种方法的优点。该系统名为VLM-guided formal planning(VLMFP),它通过协同工作两个专用VLM,将视觉规划问题转化为可供形式化规划软件直接使用的文件。</p><p>研究人员首先精心训练了一个名为SimVLM的小型模型,使其专注于用自然语言描述图像中的场景,并模拟该场景中的一系列动作。随后,一个规模大得多的模型GenVLM会利用SimVLM生成的描述,输出一组基于正式规划语言——规划域定义语言(PDDL)的初始文件。</p><p>这些文件可直接输入传统的PDDL求解器,由其计算分步解决方案以完成任务。GenVLM会将求解器的结果与模拟器输出进行对比,并迭代优化PDDL文件。</p><p>“生成器与模拟器协同工作,旨在达到完全一致的结果,即一次成功达成目标的动作模拟,”郝一伦表示。</p><p>由于GenVLM是一个大型生成式AI模型,它在训练过程中接触过大量PDDL示例,并掌握了如何利用这种形式化语言解决各类问题。这些先验知识使模型能够生成准确的PDDL文件。</p><p><strong>灵活的方案</strong></p><p>VLMFP会生成两份独立的PDDL文件。第一份是定义环境、合法操作及领域规则的“领域文件”。此外,它还会生成一份“问题文件”,用于界定当前具体问题的初始状态与目标。</p><p>“PDDL的一个优势在于,同一环境下的所有实例都共用同一份领域文件。这使得我们的框架非常擅长在同属一个领域的未见实例中进行泛化,”郝一伦解释道。</p><p>为了让系统有效实现泛化,研究人员为SimVLM精心设计了恰到好处的训练数据,促使模型学会理解问题与目标,而非死记硬背场景模式。测试表明,SimVLM在约85%的实验中都成功描述了场景、模拟了动作,并准确检测到了目标是否达成。</p><p>总体而言,VLMFP框架在六项2D规划任务上的成功率约为60%,在两项3D任务(包括多机器人协作与机器人装配)上的成功率超过80%。对于此前未见过的新场景,它也能生成有效规划的比例超过50%,大幅领先于基线方法。</p><p>“我们的框架能够适应不同情境下规则的变化。这赋予了系统足够的灵活性,以解决多种类型的基于视觉的规划问题,”樊楚楚补充道。</p><p>未来,研究人员希望让VLMFP能够处理更复杂的场景,并探索识别与缓解VLM产生“幻觉”的方法。</p><p>“从长远来看,生成式AI模型有望扮演智能体的角色,并调用合适的工具来解决更为错综复杂的问题。但什么是‘合适的工具’?我们又该如何将其整合进来?前路依然漫长,但通过将基于视觉的规划纳入其中,这项工作拼上了至关重要的一块拼图,”樊楚楚说道。</p><p>本研究部分资金由MIT-IBM Watson AI Lab提供。</p>
查看缓存全文
缓存时间:
2026/04/21 01:12
# 规划复杂视觉任务的新方法
Source: https://news.mit.edu/2026/better-method-planning-complex-visual-tasks-0311
麻省理工学院(MIT)的研究人员开发了一种由生成式人工智能驱动的长期视觉任务规划方法(例如机器人导航),其有效性大约是某些现有技术的两倍。
该方法使用一个专门的视觉-语言模型来感知图像中的场景,并模拟达到目标所需的操作。随后,第二个模型将这些模拟结果转换为用于规划问题的标准编程语言,并对解决方案进行优化。
最终,该系统自动生成一组文件,可输入至经典规划软件中进行计算,以得出实现目标的方案。这种两步法系统生成的计划平均成功率约为 70%,远超只能达到约 30% 成功率的最佳基线方法。
重要的是,该系统能够解决此前未遇到过的全新问题,这使其非常适合条件可能瞬息万变的真实环境。
“我们的框架结合了视觉-语言模型的优势(如图像理解能力)与形式化求解器强大的规划能力,”MIT航空航天专业(AeroAstro)研究生、该技术开源论文(https://arxiv.org/pdf/2510.03182)的第一作者 Yilun Hao 表示:“它能够从单张图像出发,经过模拟推演,最终生成可靠且长周期的计划,在众多实际应用中颇具价值。”
本文的其他作者包括:MIT信息与决策系统实验室(LIDS)研究生 Yongchao Chen;AeroAstro 副教授兼 LIDS 首席研究员 Chuchu Fan;以及 MIT-IBM Watson AI Lab 研究科学家 Yang Zhang。该论文将在国际表征学习会议(International Conference on Learning Representations)上宣读。
**应对视觉任务**
近年来,Fan 及其同事一直在研究如何利用生成式 AI 模型进行复杂推理与规划,通常采用大型语言模型(LLMs)来处理文本输入。
许多现实世界的规划问题(如机器人装配和自动驾驶)都涉及视觉输入,而 LLM 难以独立很好地处理这些内容。研究人员希望利用能够同时处理图像和文本的强大 AI 系统——视觉-语言模型(VLMs),将研究拓展至视觉领域。
然而,VLMs 难以理解场景中物体之间的空间关系,且在多步推理中经常出错。这使得将其应用于长期规划变得十分困难。
另一方面,科学家们已经开发出稳健的形式化规划器,能够为复杂情况生成有效的长周期计划。不过,这些软件系统无法处理视觉输入,且需要专家知识将问题编码为求解器能够理解的特定语言。
Fan 及其团队构建了一种自动规划系统,融合了两种方法的优势。该系统名为 VLM-guided formal planning(VLMFP),利用两个专门的 VLM 协同工作,将视觉规划问题转化为可直接供形式化规划软件使用的文件。
研究人员首先精心训练了一个名为 SimVLM 的小型模型,使其专精于用自然语言描述图像中的场景,并模拟该场景中的一系列动作。接着,一个体量大得多的模型(称为 GenVLM)会利用 SimVLM 的描述,生成一套使用形式化规划语言——规划领域定义语言(PDDL)的初始文件。
这些文件可直接输入经典的 PDDL 求解器,由其计算出分步执行的任务计划。GenVLM 会将求解器的结果与模拟器输出进行对比,并迭代优化 PDDL 文件。
“生成器和模拟器协同工作,以确保能够达到完全相同的结果,即完成目标的动作模拟,”Hao 表示。
由于 GenVLM 是一个大型生成式 AI 模型,它在训练过程中见过大量 PDDL 示例,并掌握了如何利用这种形式化语言解决各类问题。这种已有知识使模型能够生成准确的 PDDL 文件。
**灵活的解决方案**
VLMFP 会生成两份独立的 PDDL 文件。第一份是域文件(domain file),用于定义环境、有效动作及领域规则。第二份是问题文件(problem file),用于界定当前具体问题的初始状态和目标。
“PDDL 的一个优势在于,同一环境下的所有实例共享相同的域文件。这使得我们的框架在泛化到同一领域内的未见实例方面表现优异,”Hao 解释道。
为了让系统有效泛化,研究人员为 SimVLM 精心设计了恰到好处的训练数据,使模型既能理解问题与目标,又不会死记硬背场景中的模式。测试表明,SimVLM 在约 85% 的实验中都成功描述了场景、模拟了动作,并准确判断目标是否达成。
总体而言,VLMFP 框架在六项 2D 规划任务上的平均成功率约为 60%,在两项 3D 任务(包括多机器人协作和机器人装配)上的成功率超过 80%。此外,它还能对超过 50% 的未见场景生成有效计划,大幅领先基线方法。
“即使在不同情境下规则发生变化,我们的框架也能有效泛化。这赋予了我们系统灵活性,使其能够解决多种类型的基于视觉的规划问题,”Fan 补充道。
未来,研究人员希望让 VLMFP 能够处理更复杂的场景,并探索识别和缓解 VLMs 幻觉现象的方法。
“从长远来看,生成式 AI 模型可以充当智能体(agents),并利用合适的工具来解决更为复杂的问题。但‘合适的工具’究竟指什么?我们该如何将其整合进来?前路依然漫长,但通过将基于视觉的规划纳入其中,这项工作已成为拼图中至关重要的一块,”Fan 说道。
本研究部分由 MIT-IBM Watson AI Lab 资助。
相似文章
Hugging Face Daily Papers
# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v
Hugging Face Daily Papers
HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。
Hugging Face Daily Papers
提出 ToolsRL,一个两阶段强化学习框架,教多模态大模型使用简单视觉工具完成复杂视觉推理任务。
Hugging Face Daily Papers
LaviGen是一个框架,它重用3D生成模型进行自回归3D布局生成,使用改进的3D扩散模型和dual-guidance self-rollout蒸馏机制,在LayoutVLM基准上实现了比最先进方法高19%的物理合理性和快65%的计算速度。
Reddit r/LocalLLaMA
FastVLA,一款开源视觉-语言-动作模型,现可在 L4 GPU 上实现 5 Hz 机器人控制。