标签
Stream3D-VLM 是一款在线3D视觉-语言模型,通过增量整合几何先验并使用几何自适应体素压缩,能够从流式视频中实现实时空间理解,在3D空间理解任务上优于现有模型。
PanoWorld引入了球形空间交叉注意力机制用于全景推理,解决了多模态大语言模型在360度空间理解中的局限性。它构建了一个大规模管线用于几何感知监督,并提出一个诊断性基准,在多个基准上取得了最先进的结果。