余弦相似度具有误导性：辅助损失重塑了视觉语言模型，而非其潜变量

Hugging Face Daily Papers 2026/06/04 00:00 论文

摘要

该论文挑战了“监督潜变量与视觉目标之间的余弦对齐能提高视觉语言模型准确性”的假设，发现了强烈的负相关。引入了PRISM诊断方法，揭示答案是从潜变量下游解码的，而非潜变量内部，并且辅助损失通过共享参数重塑了语言模型。

潜变量视觉推理（LVR）在视觉语言模型（VLM）的感知和答案生成之间插入监督潜变量 token。该领域使用这些潜变量与其视觉目标之间的对齐（即余弦相似度或均方误差MSE）作为训练损失和质量指标，假设更好的对齐会带来更好的答案。我们通过一个包含五种LVR变体的设计矩阵进行测试，发现这一假设被颠覆：在所有五种变体中，余弦对齐与准确率呈负相关（r=-0.94）。为解释这一点，我们引入了PRISM——一对推理时诊断方法：一个线性探针，用于询问答案在何处可解码；以及一个破坏性测试，用于询问潜变量是否承载关键信息。监督潜变量在很大程度上被绕过了。破坏它们最多使准确率改变四个百分点。答案可在潜变量下游解码，但不在潜变量本身，并且这种可解码性差距的大小预测了每种变体在扰动下对其潜变量的依赖程度。与损失的信息瓶颈解读一致，辅助目标通过共享参数重塑了语言模型，而不是通过其名义上优化的潜变量。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:41

论文页面 - 余弦误导：辅助损失重塑视觉语言模型，而非其潜在表示

来源：https://huggingface.co/papers/2606.05753

摘要

本研究挑战了潜在视觉推理领域的传统认知，证明监督潜在表示与视觉目标之间的余弦对齐与模型准确率呈负相关，同时揭示答案是在潜在表示之后的下游阶段被解码，而非在其内部。

潜在视觉推理（https://huggingface.co/papers?q=Latent%20visual%20reasoning）（LVR）在视觉语言模型（https://huggingface.co/papers?q=vision-language%20models）（VLM）的感知与答案生成之间插入监督潜在令牌（https://huggingface.co/papers?q=supervised%20latent%20tokens）。该领域使用这些潜在表示与其视觉目标之间的对齐程度——即余弦相似度（https://huggingface.co/papers?q=cosine%20similarity）或均方误差（https://huggingface.co/papers?q=mean%20squared%20error）（MSE）——作为训练损失和质量指标，假设更好的对齐会带来更好的答案。我们通过设计一个包含五种LVR变体的矩阵进行验证，发现这一假设恰好相反：在所有五种变体中，余弦对齐与准确率呈负相关（r=-0.94）。为解释这一现象，我们引入了PRISM——一对推理时的诊断工具：线性探针（https://huggingface.co/papers?q=linear%20probe）用于探查答案在何处可被解码，以及破坏性测试（https://huggingface.co/papers?q=corruption%20test）用于判断潜在表示是否承担关键作用。结果显示，监督潜在表示在很大程度上被旁路了：破坏它们对准确率的影响最多仅四个百分点。答案在潜在表示的下游可被解码，但在其位置则不能，并且这种可解码性差距的大小预测了每种变体在扰动下对潜在表示的依赖程度。与信息瓶颈（https://huggingface.co/papers?q=Information%20Bottleneck）视角下的损失解读一致，辅助目标是通过共享参数（https://huggingface.co/papers?q=shared%20parameters）重塑语言模型，而不是通过它名义上优化的潜在变量。

查看arXiv页面（https://arxiv.org/abs/2606.05753）查看PDF（https://arxiv.org/pdf/2606.05753）GitHub0（https://github.com/xiuyuz/cosine-misleads）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.05753）

在你的智能体中获取此论文：

hf papers read 2606.05753

没有最新CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型README.md中引用arxiv.org/abs/2606.05753以从此页面关联。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集README.md中引用arxiv.org/abs/2606.05753以从此页面关联。

引用此论文的Space0

暂无Space关联此论文

请在Space README.md中引用arxiv.org/abs/2606.05753以从此页面关联。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面关联。

余弦相似度具有误导性：辅助损失重塑了视觉语言模型，而非其潜变量

论文页面 - 余弦误导：辅助损失重塑视觉语言模型，而非其潜在表示

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

大型视觉-语言模型在注意力机制中迷失

超越余弦相似度：重新思考大语言模型中的层相关性

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

为什么远处看起来在上方：探究视觉-语言模型中的空间表征

超越英语：揭示视觉-语言-动作模型中的多语言差距

提交意见反馈