spatial-shortcuts

#spatial-shortcuts

为什么远处看起来在上方：探究视觉-语言模型中的空间表征

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

探究视觉-语言模型中的空间表征，揭示了一个普遍存在的偏差：模型将图像中的垂直位置与距离混为一谈，并引入了 SpatialTunnel 合成基准来暴露这一捷径；研究发现，更好的解耦空间表征能提升模型的鲁棒性。

0 人收藏 0 人点赞