标签
General Intuition 以23亿美元估值筹集了3.2亿美元,用于开发基于视频游戏动作标签训练的AI代理,展示了一个单一模型,只需极少微调即可玩游戏并控制现实世界机器人。
重点介绍近期三篇AI论文:SpatialClaw(通过代码实现无需训练的空间推理),SkillWeaver(组合式技能路由,采用分解-检索-组合流水线),以及PreAct(将智能体运行编译为快速状态机,用于重复任务)。
一项非正式实验使用棋盘揭示了视觉语言模型尽管能正确识别棋子,但在空间推理和精确结构化输出方面常常失败,突显了VLM评估中的一个关键差距。
General Intuition 是一家初创公司,正在构建一个基础模型,利用视频游戏数据训练AI代理人进行时空推理。该公司正在洽谈以20亿美元估值融资3亿美元,得到了 Jeff Bezos 和 Eric Schmidt 的支持。
英伟达推出了SpatialClaw,一个基于代码的免训练代理框架,用于复杂视觉空间推理任务,在20个基准上平均达到59.9%,比之前最佳模型高11.2分。
本文介绍了视觉具象化推理,一种使视觉语言模型能够将自然语言推理与使用点或框的明确视觉证据基础相结合的方法。一个可扩展的合成流水线和基础感知的强化学习提高了推理准确性,使得一个4B模型在空间和计数基准上能够匹配甚至超越一个27B模型。
NVIDIA 推出 SpatialClaw,一个无需训练的空间推理智能体,利用 VLM 在持久化内核中编写 Python 代码,组合感知工具,并修订计划,在20项基准测试中超越先前智能体 +11.2 分。
本文提出一种自监督强化学习框架,利用一致性验证器(检查变换下几何和语义一致性的奖励函数)来提升大型推理模型的空间推理能力,无需真实标注。该方法接近监督微调的准确率,并能泛化到多种任务。
论文提出了SVoT,一种用于多模态大语言模型(MLLMs)中多跳空间推理的强化学习框架,该框架生成交错、可验证的中间状态和可视化,在涉及多对象交互和数值推理的新基准测试上取得了显著的准确性提升。
SpatialClaw是一个无需训练的框架,它采用代码作为动作接口,使视觉语言模型能够进行灵活、有状态的空间推理,在多种3D/4D空间推理任务上取得了卓越性能。
本文提出了Architect-Ant,一个可编辑的建筑平面图自动家具布局框架,以及一个包含270个带家具标注的平面图的精选数据集(AntPlan-270)。该方法使用微调的视觉语言模型和领域特定语言生成几何有效且功能合理的家具布局,并可光栅化为蓝图风格图像。
一种无需训练的空间推理框架,它利用由预测3D几何生成的合成新视角视频,实现对自我中心视频中结论的重新审视。
本文发现了一种基于LLM的LEGO组装生成中的失败模式PhysHack,并提出PVPO,一种结合基于模型的数据选择的高效样本强化学习方法,仅使用一小部分训练数据即可改善物理和语义对齐。
AlloSpatial是一个代理框架,通过将自我中心观察转换为结构化的全局空间表征,利用认知映射和工具使用推理,增强基础模型的空间推理能力。在基准测试中性能提升5%-18%,并通过冷启动强化学习胜过更大的模型。
SpatialWorld是一个统一的基准测试,用于评估多模态智能体在各种真实世界任务中的交互式空间推理能力。结果表明,即使是最强大的模型,其任务成功率也很低。
本文提出了Astra,一个主动式空间推理框架,将经过强化学习训练的VLM策略与一个世界模拟器结合起来,生成新视角的观察结果,以改进视觉语言模型中的空间推理能力。
一项基准测试评估了LLMs在带有格式约束的严格推箱子谜题上的表现,发现只有ChatGPT、Qwen3.7-max和Gemini 3.5-thinking成功,而其他模型因非法移动或格式错误而失败。
提出SpecFlow,一种轻量级多模态空间推理框架,在固定大小的离散余弦空间中表示中间视觉思维,将计算和KV缓存成本降低多达2.1倍,同时保持有竞争力的性能。
Imaginative Perception Tokens (IPT) 通过外化来自不同视角的中间感知表征,增强了视觉-语言模型的空间推理能力,在视角推理、路径追踪和多视角计数任务上优于传统的基于文本的推理。
GridVQA-X 引入了一个诊断框架,通过区分多模态模型中真正的空间关系推理与跨模态捷径,来评估跨模态可解释性。