标签
ABACUS 是一个统一的视觉语言模型,可处理多个计数任务和忠实于计数的图像生成,无需针对特定基准进行训练,在七个基准测试中取得了最先进的结果。
AnchorWorld是一个用于自我中心世界模拟的框架,通过3D人体运动和锚点视角定义增强了交互完整性并实现了灵活的世界定制,性能优于最先进的基线。
本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。
CityRAG 提出一种视频生成模型,利用地理注册数据生成长时、物理一致、3D 连贯的真实城市视频,为机器人与自动驾驶提供可导航、可仿真的逼真环境。
GIST 是一个多模态知识提取管道,将移动点云数据转换为语义注释的导航拓扑结构,用于密集环境,支持语义搜索、定位和自然语言路由,在真实场景评估中实现 80% 的导航成功率。
大家好!我一直在独立研究和开发小巧但强大的视觉语言模型(VLM),并注意到视觉数据集中的一个空白——没有一个数据集在教我的模型简单地将文本定位到图像中,而是试图让模型推理文本或场景本身。这促使我投入两周的副项目,创建了SGOCR,一个开源数据集流水线,用于生成空间定位的、以OCR为核心的VQA元组,包含大量丰富的元数据以支持多样化的VLM训练策