spatial-reasoning

#spatial-reasoning

通过宽基线匹配激发MLLMs中的复杂空间推理

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

本文介绍了ReasonMatch-Bench，一个用于多模态大语言模型中宽基线匹配的基准，并提出了动态对应强化学习（DCRL）以提升空间推理能力。实验表明，该方法在基准测试上取得了显著提升，同时保持了通用性能。

0 人收藏 0 人点赞

#spatial-reasoning

人类智能有多少是硬编码在DNA中的？LLMs vs 人类

Reddit r/singularity ↗ · 2026-06-01

一篇讨论质疑Yann LeCun对人类学习与AI的对比，认为人类继承了数百万年进化预训练硬编码在基因中，赋予婴儿先进的空间推理基础，而LLMs缺乏这一点。

0 人收藏 0 人点赞

#spatial-reasoning

代理技能应超越纯文本：视觉技能的必要性

Hugging Face Daily Papers ↗ · 2026-05-31 缓存

本文认为代理技能应包含视觉信息，而不仅仅是文本，并提出了一种多模态技能范式，将文本逻辑与视觉支持相结合。实验表明，在视觉中心任务中，视觉技能优于纯文本方法。

0 人收藏 0 人点赞

#spatial-reasoning

MechVQA: 在全面机械图纸理解中对多模态LLM进行基准测试与增强

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

本文介绍了MechVQA，一个包含3.3k高密度机械工程图纸和21k问答对的数据集，以及MechVL模型，该模型在MechVQA总分上优于现有基线7.57个百分点，推动了多模态LLM对机械图纸的理解。

0 人收藏 0 人点赞

#spatial-reasoning

SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力

Hugging Face Daily Papers ↗ · 2026-05-29

SpatialAct是一个新的基于模拟器的基准，用于探索VLM智能体是否能在多轮反馈设置下进行连贯的空间推理并将其转化为3D环境中的行动。实验揭示了一个显著的推理到行动差距：当前的VLM尽管在孤立推理任务上表现良好，但难以维持空间信念并产生可靠的行为。

0 人收藏 0 人点赞

#spatial-reasoning

看见不等于知道：VLMs 知道何时不应回答空间问题吗（以及原因）？

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

本文介绍了 SpatialUncertain，这是一个用于评估视觉语言模型能否识别因遮挡或视角模糊而无法回答空间问题的基准，揭示了模型过度自信和回避行为不佳的问题。

0 人收藏 0 人点赞

#spatial-reasoning

为什么远处看起来在上方：探究视觉-语言模型中的空间表征

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

探究视觉-语言模型中的空间表征，揭示了一个普遍存在的偏差：模型将图像中的垂直位置与距离混为一谈，并引入了 SpatialTunnel 合成基准来暴露这一捷径；研究发现，更好的解耦空间表征能提升模型的鲁棒性。

0 人收藏 0 人点赞

#spatial-reasoning

SPACENUM: 重新审视VLMs中的空间数值理解

arXiv cs.AI ↗ · 2026-05-25 缓存

本文提出SpaceNum，一个统一的框架，用于评估视觉语言模型（VLMs）在空间上下文中理解数值的能力，发现当前模型在很大程度上未能将数字与空间对应起来，且常常表现出接近随机猜测的性能。

0 人收藏 0 人点赞

#spatial-reasoning

分层递归推理中的交互局部性

arXiv cs.AI ↗ · 2026-05-22 缓存

提出了交互局部性（interaction locality）这一任务几何感知框架，用于衡量空间推理模型中的信息流是停留在局部单元内还是跨越到全局结构，并将其应用于HRM、TRM和MTU3D模型，在网格基准测试和具身3D定位任务上进行评估。

0 人收藏 0 人点赞

#spatial-reasoning

解锁VLM中的稠密度量深度估计

Hugging Face Daily Papers ↗ · 2026-05-15 缓存

DepthVLM通过轻量级深度头和统一的视觉-文本监督增强了视觉语言模型，实现了稠密度量深度估计和改进的3D空间推理，同时保持了多模态能力。

0 人收藏 0 人点赞

#spatial-reasoning

Perceptron Mk1 震撼发布高性能视频分析AI模型，比Anthropic、OpenAI和Google便宜80-90%（8分钟阅读）

TLDR AI ↗ · 2026-05-13 缓存

Perceptron公司发布了其旗舰视频分析模型Mk1，声称成本比竞争对手低80-90%，同时在空间和视频推理基准上表现出色。

0 人收藏 0 人点赞

#spatial-reasoning

基于大语言模型的空间构建中的2.5维分解

arXiv cs.AI ↗ · 2026-05-11 缓存

本文提出了一种利用2.5维分解的神经符号流水线，通过将垂直坐标计算卸载至确定性执行器，提高了基于大语言模型的空间构建准确性，在基准测试和边缘硬件上均实现了高精度。

0 人收藏 0 人点赞

#spatial-reasoning

@GoogleDeepMind: 我们推出了一个升级版本，旨在帮助机器人理解物理世界。Gemini Robotics-ER 1.6 具有显著的…

X AI KOLs ↗ · 2026-04-14 缓存

Google DeepMind 发布了 Gemini Robotics-ER 1.6，这是一个升级的模型，具有增强的视觉和空间理解能力，使机器人能够更好地推理和与物理世界互动。

0 人收藏 0 人点赞

#spatial-reasoning

Gemini Robotics-ER 1.6: 通过增强具身推理赋能真实世界机器人任务

Google DeepMind Blog ↗ · 2026-04-13 缓存

Google DeepMind 推出 Gemini Robotics-ER 1.6，这是一款专注于提升机器人具身推理能力的 AI 模型，通过改进空间感知、任务规划和仪器读数能力来实现这一目标。

0 人收藏 0 人点赞

spatial-reasoning

提交意见反馈