cosine-alignment

#cosine-alignment

余弦相似度具有误导性：辅助损失重塑了视觉语言模型，而非其潜变量

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

该论文挑战了“监督潜变量与视觉目标之间的余弦对齐能提高视觉语言模型准确性”的假设，发现了强烈的负相关。引入了PRISM诊断方法，揭示答案是从潜变量下游解码的，而非潜变量内部，并且辅助损失通过共享参数重塑了语言模型。

0 人收藏 0 人点赞