spatial-grounding

#spatial-grounding

ABACUS: 适配统一基础模型以桥接图像计数理解与生成

Hugging Face Daily Papers ↗ · 2026-06-22 缓存

ABACUS 是一个统一的视觉语言模型，可处理多个计数任务和忠实于计数的图像生成，无需针对特定基准进行训练，在七个基准测试中取得了最先进的结果。

0 人收藏 0 人点赞

#spatial-grounding

AnchorWorld: 具身自我中心世界模拟与基于视角的演化定制

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

AnchorWorld是一个用于自我中心世界模拟的框架，通过3D人体运动和锚点视角定义增强了交互完整性并实现了灵活的世界定制，性能优于最先进的基线。

0 人收藏 0 人点赞

#spatial-grounding

检索、整合与综合：空间-语义接地潜层视觉推理

arXiv cs.CL ↗ · 2026-05-11 缓存

本文介绍了 RIS，这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架，旨在克服信息瓶颈。该框架提出将潜在令牌（tokens）锚定于空间和语义证据之上，在 V* 和 HRBench 等基准测试中展现出性能提升。

0 人收藏 0 人点赞

#spatial-grounding

CityRAG：基于空间锚定的视频生成，步入真实城市

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

CityRAG 提出一种视频生成模型，利用地理注册数据生成长时、物理一致、3D 连贯的真实城市视频，为机器人与自动驾驶提供可导航、可仿真的逼真环境。

0 人收藏 0 人点赞

#spatial-grounding

GIST: 通过智能语义拓扑的多模态知识提取与空间定位

arXiv cs.AI ↗ · 2026-04-20 缓存

GIST 是一个多模态知识提取管道，将移动点云数据转换为语义注释的导航拓扑结构，用于密集环境，支持语义搜索、定位和自然语言路由，在真实场景评估中实现 80% 的导航成功率。

0 人收藏 0 人点赞

#spatial-grounding

SGOCR：一个空间定位的、以OCR为核心的流水线与V1数据集 [P]

Reddit r/MachineLearning ↗ · 2026-04-20

大家好！我一直在独立研究和开发小巧但强大的视觉语言模型（VLM），并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中，而是试图让模型推理文本或场景本身。这促使我投入两周的副项目，创建了SGOCR，一个开源数据集流水线，用于生成空间定位的、以OCR为核心的VQA元组，包含大量丰富的元数据以支持多样化的VLM训练策

0 人收藏 0 人点赞

spatial-grounding

ABACUS: 适配统一基础模型以桥接图像计数理解与生成

AnchorWorld: 具身自我中心世界模拟与基于视角的演化定制

检索、整合与综合：空间-语义接地潜层视觉推理

CityRAG：基于空间锚定的视频生成，步入真实城市

GIST: 通过智能语义拓扑的多模态知识提取与空间定位

SGOCR：一个空间定位的、以OCR为核心的流水线与V1数据集 [P]

提交意见反馈