标签
PanoWorld引入了球形空间交叉注意力机制用于全景推理,解决了多模态大语言模型在360度空间理解中的局限性。它构建了一个大规模管线用于几何感知监督,并提出一个诊断性基准,在多个基准上取得了最先进的结果。