标签
Skill-3D是一个框架,通过自我进化的记忆与技能库使AI智能体学习场景感知技能,在3D空间推理任务中显著提升工具使用能力(例如,在VSI-Bench上从39%提升至78%)。
本文提出GASP框架,通过深度监督结合对比损失和深度一致性损失将几何先验注入视觉语言模型,在3D空间推理基准上取得了显著提升,且无需使用3D VQA数据。