spatial-understanding

标签

Cards List
#spatial-understanding

Stream3D-VLM:基于增量几何先验的在线3D空间理解

Hugging Face Daily Papers · 5天前 缓存

Stream3D-VLM 是一款在线3D视觉-语言模型,通过增量整合几何先验并使用几何自适应体素压缩,能够从流式视频中实现实时空间理解,在3D空间理解任务上优于现有模型。

0 人收藏 0 人点赞
#spatial-understanding

PanoWorld: 迈向360度全景世界中的空间超感知

Hugging Face Daily Papers · 2026-05-13 缓存

PanoWorld引入了球形空间交叉注意力机制用于全景推理,解决了多模态大语言模型在360度空间理解中的局限性。它构建了一个大规模管线用于几何感知监督,并提出一个诊断性基准,在多个基准上取得了最先进的结果。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈