SpaceDG:视觉退化下的空间智能基准测试
摘要
SpaceDG是一个大规模数据集和基准测试,用于评估多模态语言模型在运动模糊、低光照等视觉退化条件下的空间推理鲁棒性,揭示了显著的性能差距,并表明在SpaceDG上进行微调可在不降低干净图像性能的前提下提升鲁棒性。
查看缓存全文
缓存时间: 2026/05/22 06:27
论文页面 - SpaceDG: 视觉退化场景下的空间智能基准测试
来源:https://huggingface.co/papers/2605.22536 作者:
,
,
,
,
,
,
,
,
,
摘要
SpaceDG 数据集和基准测试评估了多模态语言模型在视觉退化条件下的空间推理鲁棒性,揭示了显著的性能差距,并展示了通过针对性训练能够提升鲁棒性。
多模态大语言模型(https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models,MLLMs)在空间智能(https://huggingface.co/papers?q=spatial%20intelligence)方面取得了快速进展,但现有的空间推理基准测试大多假设输入为完美视觉,忽略了实际部署中常见的退化情况,如运动模糊、低光照、恶劣天气、镜头畸变和压缩伪影。这引出一个根本性问题:当视觉观测不完美时,当前多模态大语言模型的空间智能鲁棒性如何?为了回答这个问题,我们提出了 SpaceDG,这是首个面向退化感知空间理解的大规模数据集。它基于物理驱动的退化合成引擎构建,将退化形成过程融入3D Gaussian Splatting(https://huggingface.co/papers?q=3D%20Gaussian%20Splatting,3DGS)渲染中,从而实现对九种退化类型的逼真模拟。最终生成的数据集包含近 1,000 个室内场景的约 100 万条问答对。我们还引入了 SpaceDG-Bench,这是一个经过人工验证的基准测试,包含 1,102 个问题,涵盖 11 个推理类别和 9 种视觉退化类型,产生了超过 10,000 个 VQA 实例。对 25 个开源和闭源多模态大语言模型的评估显示,视觉退化会持续且显著地削弱空间推理能力,暴露出关键的鲁棒性差距。最后,我们证明在 SpaceDG 上进行微调显著提升了退化鲁棒性,甚至在退化条件下能够超越人类表现,同时不降低在干净图像上的性能,这表明退化感知训练对于鲁棒空间智能具有前景。
查看 arXiv 页面(https://arxiv.org/abs/2605.22536) 查看 PDF(https://arxiv.org/pdf/2605.22536) 项目页面(https://visionary-laboratory.github.io/SpaceDG/) GitHub15(https://github.com/Visionary-Laboratory/SpaceDG) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.22536)
在您的代理中获取此论文:
hf papers read 2605.22536
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型(0 个)
尚无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.22536 以将其链接至此页面。
引用本论文的数据集(0 个)
尚无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.22536 以将其链接至此页面。
引用本论文的 Spaces(0 个)
尚无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.22536 以将其链接至此页面。
包含本论文的收藏集(0 个)
尚无收藏集包含此论文
请将此论文添加到收藏集(https://huggingface.co/new-collection)以将其链接至此页面。
相似文章
Surface Evolver Bench: 要求大型语言模型以自定义数据格式编写复杂物理模拟的基准测试
介绍Surface Evolver Bench,这是一个评估大型语言模型以自定义数据格式编写复杂物理模拟的基准测试。
@akshay_pachaar: 不要训练模型,而要进化工具层。
文章讨论了 Hugging Face 的一个实验:一个自动循环仅重写冻结模型周围的代码(工具层),在不改变模型权重的情况下,将其基准分数从 0% 提升到接近 Sonnet 4.6 的水平,且成本更低。这证明许多基准测试失败源于工具层,而非模型本身。
后续:DeepSeek V4 Flash 在双 RTX PRO 6000 上完成真实编程任务的速度快于 Sonnet 和 Opus,质量与 Sonnet 相当
DeepSeek V4 Flash 在双 RTX PRO 6000 GPU 上完成真实编程任务的速度快于 Anthropic 的 Sonnet 和 Opus 模型,同时达到与 Sonnet 相近的质量。
@Xudong07452910: Hacker News 上有一篇评论区火了的文章:Qwen 3.6 27B 是本地开发的理想选择。 核心发现是:密集参数模型、原生支持 256k 上下文,在 MacBook Max M5 上跑 Q8_0 量化版能达到 30 tokens/…
Qwen 3.6 27B is a dense 27B model that achieves impressive performance on local hardware with 256k context, running at 30 tokens/s on MacBook Max M5 and 50 tokens/s on RTX 5090, and is considered by some as the first local model with true general intelligence.
Pre-Flight: 评估大型语言模型航空运行知识的基准测试
本文介绍了Pre-Flight,这是一个包含300道多选题的开源基准测试,旨在评估大型语言模型在航空运行知识方面的表现,覆盖国际法规和地面操作。结果显示,即使是2026年最强模型也只能达到82.7%的准确率,远低于约95%的专家参考水平,突显了持续存在的可靠性差距。