标签
介绍了 Target Viewpoint Reproduction (TVR) 任务和 TVRBench 基准,用于评估基础模型主动调整 3D 视角以匹配目标图像的能力。实验揭示了当前开源和闭源模型的显著局限性,统一的后训练框架将成功率从约12%提升至约51%。
介绍了 ESI-BENCH,这是一个基于 OmniGibson 构建的全面具身空间智能基准,涵盖 10 个任务类别和 29 个子类别。实验表明,主动探索显著优于被动方法,失败主要源于行动盲视而非感知,揭示了模型与人类相比的元认知差距。