余弦相似度具有误导性:辅助损失重塑了视觉语言模型,而非其潜变量
摘要
该论文挑战了“监督潜变量与视觉目标之间的余弦对齐能提高视觉语言模型准确性”的假设,发现了强烈的负相关。引入了PRISM诊断方法,揭示答案是从潜变量下游解码的,而非潜变量内部,并且辅助损失通过共享参数重塑了语言模型。
查看缓存全文
缓存时间: 2026/06/09 08:41
论文页面 - 余弦误导:辅助损失重塑视觉语言模型,而非其潜在表示
来源:https://huggingface.co/papers/2606.05753
摘要
本研究挑战了潜在视觉推理领域的传统认知,证明监督潜在表示与视觉目标之间的余弦对齐与模型准确率呈负相关,同时揭示答案是在潜在表示之后的下游阶段被解码,而非在其内部。
潜在视觉推理(https://huggingface.co/papers?q=Latent%20visual%20reasoning)(LVR)在视觉语言模型(https://huggingface.co/papers?q=vision-language%20models)(VLM)的感知与答案生成之间插入监督潜在令牌(https://huggingface.co/papers?q=supervised%20latent%20tokens)。该领域使用这些潜在表示与其视觉目标之间的对齐程度——即余弦相似度(https://huggingface.co/papers?q=cosine%20similarity)或均方误差(https://huggingface.co/papers?q=mean%20squared%20error)(MSE)——作为训练损失和质量指标,假设更好的对齐会带来更好的答案。我们通过设计一个包含五种LVR变体的矩阵进行验证,发现这一假设恰好相反:在所有五种变体中,余弦对齐与准确率呈负相关(r=-0.94)。为解释这一现象,我们引入了PRISM——一对推理时的诊断工具:线性探针(https://huggingface.co/papers?q=linear%20probe)用于探查答案在何处可被解码,以及破坏性测试(https://huggingface.co/papers?q=corruption%20test)用于判断潜在表示是否承担关键作用。结果显示,监督潜在表示在很大程度上被旁路了:破坏它们对准确率的影响最多仅四个百分点。答案在潜在表示的下游可被解码,但在其位置则不能,并且这种可解码性差距的大小预测了每种变体在扰动下对潜在表示的依赖程度。与信息瓶颈(https://huggingface.co/papers?q=Information%20Bottleneck)视角下的损失解读一致,辅助目标是通过共享参数(https://huggingface.co/papers?q=shared%20parameters)重塑语言模型,而不是通过它名义上优化的潜在变量。
查看arXiv页面(https://arxiv.org/abs/2606.05753)查看PDF(https://arxiv.org/pdf/2606.05753)GitHub0(https://github.com/xiuyuz/cosine-misleads)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05753)
在你的智能体中获取此论文:
hf papers read 2606.05753
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型关联此论文
请在模型README.md中引用arxiv.org/abs/2606.05753以从此页面关联。
引用此论文的数据集0
暂无数据集关联此论文
请在数据集README.md中引用arxiv.org/abs/2606.05753以从此页面关联。
引用此论文的Space0
暂无Space关联此论文
请在Space README.md中引用arxiv.org/abs/2606.05753以从此页面关联。
包含此论文的收藏集0
暂无收藏集包含此论文
请将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面关联。
相似文章
大型视觉-语言模型在注意力机制中迷失
这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。
超越余弦相似度:重新思考大语言模型中的层相关性
本文证明,余弦相似度作为评估大语言模型中层重要性的指标效果不佳,并提出使用层移除后实际准确率下降作为更稳健的度量标准。
视觉语言模型真的能进行视觉推理吗?模态差距的严格研究
本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。
为什么远处看起来在上方:探究视觉-语言模型中的空间表征
探究视觉-语言模型中的空间表征,揭示了一个普遍存在的偏差:模型将图像中的垂直位置与距离混为一谈,并引入了 SpatialTunnel 合成基准来暴露这一捷径;研究发现,更好的解耦空间表征能提升模型的鲁棒性。
超越英语:揭示视觉-语言-动作模型中的多语言差距
本文首次系统研究了视觉-语言-动作(VLA)模型中的多语言指令跟随问题,揭示了当模型基于英语训练时,在其他语言上的性能显著下降。作者提出了多语言主成分对齐(MPCA)方法来缩小多语言性能差距。