GeneralVLA-2：几何感知重建与受控记忆用于机器人规划

Hugging Face Daily Papers 2026/06/16 00:00 论文

摘要

GeneralVLA-2 引入了 GeoFuse-MV3D 以改进 3D 重建，以及一个受控的 KnowledgeBank 以在机器人操作任务中实现更好的记忆管理，在多个基准测试上取得了性能提升。

通用视觉-语言-动作系统需要以物体为中心的3D证据和可重用的操作经验来规划可靠的机器人轨迹。GeneralVLA 提供了一个分层接口，用于将语言和 RGB-D 观测转换为 3D 末端执行器路径，但存在两个瓶颈。首先，单目 SAM3D 风格的物体重建可能会幻觉出姿态和不可见的几何形状，而操作则受益于在存在校准的多视图观测时的稳定物体形状。其次，原始的 KnowledgeBank 主要检索语义相似的片段并追加新知识，这使得难以控制记忆质量、冲突、置信度和几何相关性。为了解决第一个挑战，我们引入了 GeoFuse-MV3D，这是一个几何先验引导的 MV-SAM3D 重建分支，它使用输入视图掩码验证外部几何线索，应用软视觉外壳支持，执行轴方向细化，并仅融合几何形状同时保留外观。为了解决第二个挑战，我们将 KnowledgeBank 升级为一个受控的长期记忆系统，具有明确的质量、置信度、生命周期、验证器和冲突元数据，以及精度导向的检索。最后，我们在 GSO-30 上评估了重建分支，在 Terminal-Bench 2.0 和 SWE-Bench Verified 上评估了记忆模块；GeoFuse-MV3D 相比 MV-SAM3D 基线，CD 和 LPIPS 分别降低了 2.20% 和 2.02%，PSNR 和 SSIM 分别提升了 2.36% 和 1.03%；KnowledgeBank 相比 ReasoningBank，在 Terminal-Bench SR 上提升了 4.53%，在 SWE-Bench resolve rate 上提升了 3.73%，同时 AS 分别降低了 4.95% 和 5.65%。代码：https://github.com/AIGeeksGroup/GeneralVLA-2。网站：https://aigeeksgroup.github.io/GeneralVLA-2。

查看原文

查看缓存全文

缓存时间: 2026/06/22 09:30

论文页面 - GeneralVLA-2: 面向机器人规划的几何感知重建与受控记忆

来源: https://huggingface.co/papers/2606.17480

摘要

GeneralVLA-2 通过引入 GeoFuse-MV3D 来改进 3D 重建，并增强了 KnowledgeBank 的记忆管理能力，从而解决了视觉-语言-动作系统中的局限性，适用于机器人操作任务。

通用视觉-语言-动作系统 (https://huggingface.co/papers?q=vision-language-action%20systems) 需要以物体为中心的 3D 证据和可复用的操作经验来规划可靠的机器人轨迹。GeneralVLA 提供了一个层次化接口，用于将语言和 RGB-D 观测转换为 3D 末端执行器路径，但仍存在两个瓶颈。首先，单目 SAM3D 风格的物体重建可能对姿态和未见几何产生幻觉，而当有校准的多视角观测可用时，稳定的物体形状有助于操作。其次，原始的 KnowledgeBank (https://huggingface.co/papers?q=KnowledgeBank) 主要检索语义相似的片段并追加新知识，这使得难以控制记忆质量 (https://huggingface.co/papers?q=memory%20quality)、冲突、置信度 (https://huggingface.co/papers?q=confidence) 和几何相关性。为解决第一个挑战，我们引入了 GeoFuse-MV3D (https://huggingface.co/papers?q=GeoFuse-MV3D)，这是一种几何先验引导的 MV-SAM3D (https://huggingface.co/papers?q=MV-SAM3D) 重建分支，它通过输入视图掩码验证外部几何线索，应用软视觉外壳支持 (https://huggingface.co/papers?q=visual-hull%20support)，执行逐轴细化 (https://huggingface.co/papers?q=axis-wise%20refinement)，并仅融合几何信息同时保留外观。为解决第二个挑战，我们升级了 KnowledgeBank (https://huggingface.co/papers?q=KnowledgeBank)，使其成为一个受控的长期记忆系统，具有明确的元数据（包括质量、置信度 (https://huggingface.co/papers?q=confidence)、生命周期、验证器 (https://huggingface.co/papers?q=verifier) 和冲突），并结合了面向精度的检索 (https://huggingface.co/papers?q=precision-oriented%20retrieval)。最后，我们在 GSO-30 上评估重建分支，在 Terminal-Bench 2.0 和 SWE-Bench Verified 上评估记忆模块；GeoFuse-MV3D (https://huggingface.co/papers?q=GeoFuse-MV3D) 相较于 MV-SAM3D (https://huggingface.co/papers?q=MV-SAM3D) 基线，CD 和 LPIPS 分别降低了 2.20% 和 2.02%，PSNR 和 SSIM 分别提高了 2.36% 和 1.03%；KnowledgeBank (https://huggingface.co/papers?q=KnowledgeBank) 相较于 ReasoningBank，在 Terminal-Bench SR 上提高了 4.53%，在 SWE-Bench 解决率上提高了 3.73%，同时 AS 分别降低了 4.95% 和 5.65%。代码：https://github.com/AIGeeksGroup/GeneralVLA-2。网站：https://aigeeksgroup.github.io/GeneralVLA-2/。

查看 arXiv 页面 (https://arxiv.org/abs/2606.17480) 查看 PDF (https://arxiv.org/pdf/2606.17480) 项目页面 (https://aigeeksgroup.github.io/GeneralVLA-2/) GitHub4 (https://github.com/AIGeeksGroup/GeneralVLA-2) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.17480)

在您的代理中获取此论文：

hf papers read 2606\.17480

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2606.17480 以从此页面链接。

引用此论文的数据集0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2606.17480 以从此页面链接。

引用此论文的空间0

没有链接此论文的空间

在空间 README.md 中引用 arxiv.org/abs/2606.17480 以从此页面链接。

包含此论文的收藏0

没有包含此论文的收藏

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

GeneralVLA-2：几何感知重建与受控记忆用于机器人规划

论文页面 - GeneralVLA-2: 面向机器人规划的几何感知重建与受控记忆

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的空间0

包含此论文的收藏0

相似文章

EventVLA: 事件驱动的视觉证据记忆用于长时域视觉-语言-动作策略

HiVLA: 一种以视觉接地为中心的分层具身操作系统

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

规划复杂视觉任务的更优方法

刚刚开源 FastVLA

提交意见反馈