余弦相似度具有误导性:辅助损失重塑了视觉语言模型,而非其潜变量

Hugging Face Daily Papers 论文

摘要

该论文挑战了“监督潜变量与视觉目标之间的余弦对齐能提高视觉语言模型准确性”的假设,发现了强烈的负相关。引入了PRISM诊断方法,揭示答案是从潜变量下游解码的,而非潜变量内部,并且辅助损失通过共享参数重塑了语言模型。

潜变量视觉推理(LVR)在视觉语言模型(VLM)的感知和答案生成之间插入监督潜变量 token。该领域使用这些潜变量与其视觉目标之间的对齐(即余弦相似度或均方误差MSE)作为训练损失和质量指标,假设更好的对齐会带来更好的答案。我们通过一个包含五种LVR变体的设计矩阵进行测试,发现这一假设被颠覆:在所有五种变体中,余弦对齐与准确率呈负相关(r=-0.94)。为解释这一点,我们引入了PRISM——一对推理时诊断方法:一个线性探针,用于询问答案在何处可解码;以及一个破坏性测试,用于询问潜变量是否承载关键信息。监督潜变量在很大程度上被绕过了。破坏它们最多使准确率改变四个百分点。答案可在潜变量下游解码,但不在潜变量本身,并且这种可解码性差距的大小预测了每种变体在扰动下对其潜变量的依赖程度。与损失的信息瓶颈解读一致,辅助目标通过共享参数重塑了语言模型,而不是通过其名义上优化的潜变量。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:41

论文页面 - 余弦误导:辅助损失重塑视觉语言模型,而非其潜在表示

来源:https://huggingface.co/papers/2606.05753

摘要

本研究挑战了潜在视觉推理领域的传统认知,证明监督潜在表示与视觉目标之间的余弦对齐与模型准确率呈负相关,同时揭示答案是在潜在表示之后的下游阶段被解码,而非在其内部。

潜在视觉推理(https://huggingface.co/papers?q=Latent%20visual%20reasoning)(LVR)在视觉语言模型(https://huggingface.co/papers?q=vision-language%20models)(VLM)的感知与答案生成之间插入监督潜在令牌(https://huggingface.co/papers?q=supervised%20latent%20tokens)。该领域使用这些潜在表示与其视觉目标之间的对齐程度——即余弦相似度(https://huggingface.co/papers?q=cosine%20similarity)或均方误差(https://huggingface.co/papers?q=mean%20squared%20error)(MSE)——作为训练损失和质量指标,假设更好的对齐会带来更好的答案。我们通过设计一个包含五种LVR变体的矩阵进行验证,发现这一假设恰好相反:在所有五种变体中,余弦对齐与准确率呈负相关(r=-0.94)。为解释这一现象,我们引入了PRISM——一对推理时的诊断工具:线性探针(https://huggingface.co/papers?q=linear%20probe)用于探查答案在何处可被解码,以及破坏性测试(https://huggingface.co/papers?q=corruption%20test)用于判断潜在表示是否承担关键作用。结果显示,监督潜在表示在很大程度上被旁路了:破坏它们对准确率的影响最多仅四个百分点。答案在潜在表示的下游可被解码,但在其位置则不能,并且这种可解码性差距的大小预测了每种变体在扰动下对潜在表示的依赖程度。与信息瓶颈(https://huggingface.co/papers?q=Information%20Bottleneck)视角下的损失解读一致,辅助目标是通过共享参数(https://huggingface.co/papers?q=shared%20parameters)重塑语言模型,而不是通过它名义上优化的潜在变量。

查看arXiv页面(https://arxiv.org/abs/2606.05753)查看PDF(https://arxiv.org/pdf/2606.05753)GitHub0(https://github.com/xiuyuz/cosine-misleads)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05753)

在你的智能体中获取此论文:

hf papers read 2606.05753

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型README.md中引用arxiv.org/abs/2606.05753以从此页面关联。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集README.md中引用arxiv.org/abs/2606.05753以从此页面关联。

引用此论文的Space0

暂无Space关联此论文

请在Space README.md中引用arxiv.org/abs/2606.05753以从此页面关联。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面关联。

相似文章

大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI

这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。

超越英语:揭示视觉-语言-动作模型中的多语言差距

arXiv cs.CL

本文首次系统研究了视觉-语言-动作(VLA)模型中的多语言指令跟随问题,揭示了当模型基于英语训练时,在其他语言上的性能显著下降。作者提出了多语言主成分对齐(MPCA)方法来缩小多语言性能差距。