spatial-reasoning

标签

Cards List
#spatial-reasoning

General Intuition 的23亿美元赌局:视频游戏训练AI代理应用于现实世界

TechCrunch AI · 2天前 缓存

General Intuition 以23亿美元估值筹集了3.2亿美元,用于开发基于视频游戏动作标签训练的AI代理,展示了一个单一模型,只需极少微调即可玩游戏并控制现实世界机器人。

0 人收藏 0 人点赞
#spatial-reasoning

@dair_ai: https://x.com/dair_ai/status/2068724104815890889

X AI KOLs Following · 6天前 缓存

重点介绍近期三篇AI论文:SpatialClaw(通过代码实现无需训练的空间推理),SkillWeaver(组合式技能路由,采用分解-检索-组合流水线),以及PreAct(将智能体运行编译为快速状态机,用于重复任务)。

0 人收藏 0 人点赞
#spatial-reasoning

棋盘是捕捉VLM仍然出错之处的极好方法

Reddit r/artificial · 2026-06-18

一项非正式实验使用棋盘揭示了视觉语言模型尽管能正确识别棋子,但在空间推理和精确结构化输出方面常常失败,突显了VLM评估中的一个关键差距。

0 人收藏 0 人点赞
#spatial-reasoning

General Intuition 正在洽谈以约20亿美元估值融资3亿美元

TechCrunch AI · 2026-06-18 缓存

General Intuition 是一家初创公司,正在构建一个基础模型,利用视频游戏数据训练AI代理人进行时空推理。该公司正在洽谈以20亿美元估值融资3亿美元,得到了 Jeff Bezos 和 Eric Schmidt 的支持。

0 人收藏 0 人点赞
#spatial-reasoning

@Phoenixyin13: 英伟达的SpatialClaw新鲜出炉。 这个框架,直接可以让 VLM 在持久的 Python 环境里一步步写代码,像 Jupyter 一样慢慢来。从调用 SAM3 看东西,算深度、用 NumPy、SciPy 处理数据、实时看结果,不行就…

X AI KOLs Timeline · 2026-06-17 缓存

英伟达推出了SpatialClaw,一个基于代码的免训练代理框架,用于复杂视觉空间推理任务,在20个基准上平均达到59.9%,比之前最佳模型高11.2分。

0 人收藏 0 人点赞
#spatial-reasoning

视觉具象化推理

Hugging Face Daily Papers · 2026-06-15 缓存

本文介绍了视觉具象化推理,一种使视觉语言模型能够将自然语言推理与使用点或框的明确视觉证据基础相结合的方法。一个可扩展的合成流水线和基础感知的强化学习提高了推理准确性,使得一个4B模型在空间和计数基准上能够匹配甚至超越一个27B模型。

0 人收藏 0 人点赞
#spatial-reasoning

@HuggingPapers: SpatialClaw NVIDIA 发布一个无需训练的空间推理智能体,以代码作为交互接口。VLM 编写 P…

X AI KOLs Following · 2026-06-12 缓存

NVIDIA 推出 SpatialClaw,一个无需训练的空间推理智能体,利用 VLM 在持久化内核中编写 Python 代码,组合感知工具,并修订计划,在20项基准测试中超越先前智能体 +11.2 分。

0 人收藏 0 人点赞
#spatial-reasoning

质询的艺术:一致性增强空间推理中的事实性

arXiv cs.AI · 2026-06-11 缓存

本文提出一种自监督强化学习框架,利用一致性验证器(检查变换下几何和语义一致性的奖励函数)来提升大型推理模型的空间推理能力,无需真实标注。该方法接近监督微调的准确率,并能泛化到多种任务。

0 人收藏 0 人点赞
#spatial-reasoning

SVoT: 基于强化学习的状态感知思维可视化空间推理

arXiv cs.AI · 2026-06-11 缓存

论文提出了SVoT,一种用于多模态大语言模型(MLLMs)中多跳空间推理的强化学习框架,该框架生成交错、可验证的中间状态和可视化,在涉及多对象交互和数值推理的新基准测试上取得了显著的准确性提升。

0 人收藏 0 人点赞
#spatial-reasoning

SpatialClaw: 重新思考智能体空间推理的动作接口

Hugging Face Daily Papers · 2026-06-11 缓存

SpatialClaw是一个无需训练的框架,它采用代码作为动作接口,使视觉语言模型能够进行灵活、有状态的空间推理,在多种3D/4D空间推理任务上取得了卓越性能。

0 人收藏 0 人点赞
#spatial-reasoning

Architect-Ant:可编辑的建筑平面图自动家具布局

arXiv cs.AI · 2026-06-10 缓存

本文提出了Architect-Ant,一个可编辑的建筑平面图自动家具布局框架,以及一个包含270个带家具标注的平面图的精选数据集(AntPlan-270)。该方法使用微调的视觉语言模型和领域特定语言生成几何有效且功能合理的家具布局,并可光栅化为蓝图风格图像。

0 人收藏 0 人点赞
#spatial-reasoning

推理,然后重新推理:跨视角回顾提升空间推理

Hugging Face Daily Papers · 2026-06-10 缓存

一种无需训练的空间推理框架,它利用由预测3D几何生成的合成新视角视频,实现对自我中心视频中结论的重新审视。

0 人收藏 0 人点赞
#spatial-reasoning

用于LEGO空间物理推理的高效样本后训练

arXiv cs.LG · 2026-06-09 缓存

本文发现了一种基于LLM的LEGO组装生成中的失败模式PhysHack,并提出PVPO,一种结合基于模型的数据选择的高效样本强化学习方法,仅使用一小部分训练数据即可改善物理和语义对齐。

0 人收藏 0 人点赞
#spatial-reasoning

AlloSpatial:面向基础模型空间推理的代理框架

Hugging Face Daily Papers · 2026-06-08 缓存

AlloSpatial是一个代理框架,通过将自我中心观察转换为结构化的全局空间表征,利用认知映射和工具使用推理,增强基础模型的空间推理能力。在基准测试中性能提升5%-18%,并通过冷启动强化学习胜过更大的模型。

0 人收藏 0 人点赞
#spatial-reasoning

SpatialWorld: 多模态智能体在真实世界任务中的交互式空间推理基准测试

Hugging Face Daily Papers · 2026-06-08 缓存

SpatialWorld是一个统一的基准测试,用于评估多模态智能体在各种真实世界任务中的交互式空间推理能力。结果表明,即使是最强大的模型,其任务成功率也很低。

0 人收藏 0 人点赞
#spatial-reasoning

用想象力思考:基于世界模拟器的主动式视觉空间推理

Hugging Face Daily Papers · 2026-06-04 缓存

本文提出了Astra,一个主动式空间推理框架,将经过强化学习训练的VLM策略与一个世界模拟器结合起来,生成新视角的观察结果,以改进视觉语言模型中的空间推理能力。

0 人收藏 0 人点赞
#spatial-reasoning

LLM能否遵守严格的二维空间约束?(使用推箱子游戏进行测试)

Reddit r/LocalLLaMA · 2026-06-03

一项基准测试评估了LLMs在带有格式约束的严格推箱子谜题上的表现,发现只有ChatGPT、Qwen3.7-max和Gemini 3.5-thinking成功,而其他模型因非法移动或格式错误而失败。

0 人收藏 0 人点赞
#spatial-reasoning

用于轻量级多模态推理的光谱渐进式思路流

arXiv cs.LG · 2026-06-03 缓存

提出SpecFlow,一种轻量级多模态空间推理框架,在固定大小的离散余弦空间中表示中间视觉思维,将计算和KV缓存成本降低多达2.1倍,同时保持有竞争力的性能。

0 人收藏 0 人点赞
#spatial-reasoning

Imaginative Perception Tokens 增强多模态语言模型的空间推理能力

Hugging Face Daily Papers · 2026-06-03 缓存

Imaginative Perception Tokens (IPT) 通过外化来自不同视角的中间感知表征,增强了视觉-语言模型的空间推理能力,在视角推理、路径追踪和多视角计数任务上优于传统的基于文本的推理。

0 人收藏 0 人点赞
#spatial-reasoning

GridVQA-X:评估多模态可解释性方法的框架

Hugging Face Daily Papers · 2026-06-02 缓存

GridVQA-X 引入了一个诊断框架,通过区分多模态模型中真正的空间关系推理与跨模态捷径,来评估跨模态可解释性。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈