比较线性探针与马氏余弦相似度
摘要
本文扩展了经验发现:线性探针之间的马氏余弦相似度(MCS)线性预测了分布外AUROC,并在高斯假设下从理论上证明了这一关系。
查看缓存全文
缓存时间: 2026/06/23 21:44
论文页面 - 比较线性探针与马氏余弦相似度
来源:https://huggingface.co/papers/2606.19603
摘要
马氏余弦相似度提供了一种理论上严谨的方法来比较线性探针,与分布外性能指标高度相关。
线性探针(https://huggingface.co/papers?q=Linear%20probes)广泛用于可解释性研究,通常通过余弦相似度进行比较。两个方向之间的马氏余弦相似度(https://huggingface.co/papers?q=Mahalanobis%20cosine%20similarity)(MCS)通过测试数据协方差(https://huggingface.co/papers?q=test%20data%20covariance)重新加权内积,是一种自然的任务感知改进。Ying等人(2026)报告称,探针与在分布外(OOD)数据上训练的参考探针(https://huggingface.co/papers?q=reference%20probe)的MCS几乎完美线性地预测了该探针的OOD AUROC(R² = 0.98)。在此,我们跨模型、层和概念领域扩展了这一经验发现,并以封闭形式证明了这一普遍现象:对于投影服从高斯分布的平衡类别,OOD AUROC与参考探针(https://huggingface.co/papers?q=reference%20probe)的MCS呈线性关系,因为两者都是探针在测试数据上信噪比(https://huggingface.co/papers?q=signal-to-noise%20ratio)(SNR)的S形函数(https://huggingface.co/papers?q=sigmoid-shaped%20functions)。该理论还预测了这种线性关系何时失效,并通过实验验证。MCS为比较线性探针(https://huggingface.co/papers?q=linear%20probes)提供了比欧氏余弦相似度更具理论依据和实证效果的选择。
查看 arXiv 页面(https://arxiv.org/abs/2606.19603)查看 PDF(https://arxiv.org/pdf/2606.19603)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19603)
在你的 agent 中获取此论文:
hf papers read 2606.19603
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2606.19603 以从本页链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2606.19603 以从本页链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.19603 以从本页链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从本页链接。
相似文章
平均池化余弦相似度不具备长度不变性:针对长度不变替代方案的理论与跨领域证据
本文证明了在表示各向异性条件下,平均池化余弦相似度并不具备长度不变性,表明其会随着序列长度的增加而人为夸大相似度。文章主张将中心化核对齐(CKA)作为默认指标,以纠正跨语言和跨表示分析中的偏差。
大语言模型中欺骗探测探头的压力测试:可伸缩性、鲁棒性与欺骗表征的几何特性
本文系统测试了用于大语言模型欺骗检测的线性探头,发现它们在分布偏移下失效,但风格增强型探头能恢复性能,并揭示欺骗是通过分布式亚阈值特征编码的。
探究语言模型的思维失调过程
本文提出通过将LLM的失调分解为细粒度的认知过程(失调指标),并利用线性探针检测内部激活中的这些指标,从而在分布外对话记录上实现了高AUROC。
Polar Probe线性解码LLM中的语义结构
本文提出了一种Polar Probe,通过在学习的子空间中用距离和方向表示实体关系,从LLM激活中线性恢复语义结构。在算术、视觉场景、家谱、地铁地图和社交互动等多个领域的测试表明,该编码出现在中间层,能泛化到新实体,并对模型预测产生因果影响。
线性探针在语言模型隐藏状态中检测的是任务格式,而非推理模式
本文证明,基于LLM隐藏状态的线性探针检测到的是任务格式混淆因素(例如来源身份、回答长度),而非不同的推理模式。通过残差化和因果引导,表明高探针准确率源于表面特征,而非计算结构。