GeneralVLA-2:几何感知重建与受控记忆用于机器人规划
摘要
GeneralVLA-2 引入了 GeoFuse-MV3D 以改进 3D 重建,以及一个受控的 KnowledgeBank 以在机器人操作任务中实现更好的记忆管理,在多个基准测试上取得了性能提升。
查看缓存全文
缓存时间: 2026/06/22 09:30
论文页面 - GeneralVLA-2: 面向机器人规划的几何感知重建与受控记忆
来源: https://huggingface.co/papers/2606.17480
摘要
GeneralVLA-2 通过引入 GeoFuse-MV3D 来改进 3D 重建,并增强了 KnowledgeBank 的记忆管理能力,从而解决了视觉-语言-动作系统中的局限性,适用于机器人操作任务。
通用视觉-语言-动作系统 (https://huggingface.co/papers?q=vision-language-action%20systems) 需要以物体为中心的 3D 证据和可复用的操作经验来规划可靠的机器人轨迹。GeneralVLA 提供了一个层次化接口,用于将语言和 RGB-D 观测转换为 3D 末端执行器路径,但仍存在两个瓶颈。首先,单目 SAM3D 风格的物体重建可能对姿态和未见几何产生幻觉,而当有校准的多视角观测可用时,稳定的物体形状有助于操作。其次,原始的 KnowledgeBank (https://huggingface.co/papers?q=KnowledgeBank) 主要检索语义相似的片段并追加新知识,这使得难以控制记忆质量 (https://huggingface.co/papers?q=memory%20quality)、冲突、置信度 (https://huggingface.co/papers?q=confidence) 和几何相关性。为解决第一个挑战,我们引入了 GeoFuse-MV3D (https://huggingface.co/papers?q=GeoFuse-MV3D),这是一种几何先验引导的 MV-SAM3D (https://huggingface.co/papers?q=MV-SAM3D) 重建分支,它通过输入视图掩码验证外部几何线索,应用软视觉外壳支持 (https://huggingface.co/papers?q=visual-hull%20support),执行逐轴细化 (https://huggingface.co/papers?q=axis-wise%20refinement),并仅融合几何信息同时保留外观。为解决第二个挑战,我们升级了 KnowledgeBank (https://huggingface.co/papers?q=KnowledgeBank),使其成为一个受控的长期记忆系统,具有明确的元数据(包括质量、置信度 (https://huggingface.co/papers?q=confidence)、生命周期、验证器 (https://huggingface.co/papers?q=verifier) 和冲突),并结合了面向精度的检索 (https://huggingface.co/papers?q=precision-oriented%20retrieval)。最后,我们在 GSO-30 上评估重建分支,在 Terminal-Bench 2.0 和 SWE-Bench Verified 上评估记忆模块;GeoFuse-MV3D (https://huggingface.co/papers?q=GeoFuse-MV3D) 相较于 MV-SAM3D (https://huggingface.co/papers?q=MV-SAM3D) 基线,CD 和 LPIPS 分别降低了 2.20% 和 2.02%,PSNR 和 SSIM 分别提高了 2.36% 和 1.03%;KnowledgeBank (https://huggingface.co/papers?q=KnowledgeBank) 相较于 ReasoningBank,在 Terminal-Bench SR 上提高了 4.53%,在 SWE-Bench 解决率上提高了 3.73%,同时 AS 分别降低了 4.95% 和 5.65%。代码:https://github.com/AIGeeksGroup/GeneralVLA-2。网站:https://aigeeksgroup.github.io/GeneralVLA-2/。
查看 arXiv 页面 (https://arxiv.org/abs/2606.17480) 查看 PDF (https://arxiv.org/pdf/2606.17480) 项目页面 (https://aigeeksgroup.github.io/GeneralVLA-2/) GitHub4 (https://github.com/AIGeeksGroup/GeneralVLA-2) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.17480)
在您的代理中获取此论文:
hf papers read 2606\.17480
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2606.17480 以从此页面链接。
引用此论文的数据集0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2606.17480 以从此页面链接。
引用此论文的空间0
没有链接此论文的空间
在空间 README.md 中引用 arxiv.org/abs/2606.17480 以从此页面链接。
包含此论文的收藏0
没有包含此论文的收藏
将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
EventVLA: 事件驱动的视觉证据记忆用于长时域视觉-语言-动作策略
EventVLA 提出了一种稀疏视觉证据记忆框架用于长时域机器人操作,相较于最先进的记忆增强型VLA,平均成功率提升了40%。
HiVLA: 一种以视觉接地为中心的分层具身操作系统
HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
规划复杂视觉任务的更优方法
MIT研究人员开发了VLMFP,这是一种结合视觉语言模型与形式化规划软件的两阶段生成式AI方法,在机器人导航等复杂视觉规划任务中达到了70%的成功率,比现有基线方法高出近2.3倍。该方法能自动将视觉场景转化为传统求解器可处理的规划文件,从而在新环境中实现高效的长期规划。
刚刚开源 FastVLA
FastVLA,一款开源视觉-语言-动作模型,现可在 L4 GPU 上实现 5 Hz 机器人控制。