比较线性探针与马氏余弦相似度

Hugging Face Daily Papers 论文

摘要

本文扩展了经验发现:线性探针之间的马氏余弦相似度(MCS)线性预测了分布外AUROC,并在高斯假设下从理论上证明了这一关系。

线性探针在可解释性研究中广泛使用,通常通过余弦相似度进行比较。两个方向之间的马氏余弦相似度(MCS),通过测试数据协方差重新加权内积,是一种自然的任务感知改进。Ying等人(2026)报告称,探针与在分布外(OOD)数据上训练的参考探针之间的MCS几乎完美地线性预测了该探针的OOD AUROC(R² = 0.98)。在此,我们将这一经验发现扩展到多个模型、层和概念领域,并封闭形式证明了这一普遍现象:对于投影为高斯的平衡类别,OOD AUROC和与参考探针的MCS是线性的,因为两者都是探针对测试数据信噪比(SNR)的S形函数。该理论还预测了线性失效的情况,我们通过实验进行了验证。MCS为比较线性探针提供了一种有理论基础且经验有效的替代方案,代替欧几里得余弦相似度。
查看原文
查看缓存全文

缓存时间: 2026/06/23 21:44

论文页面 - 比较线性探针与马氏余弦相似度

来源:https://huggingface.co/papers/2606.19603

摘要

马氏余弦相似度提供了一种理论上严谨的方法来比较线性探针,与分布外性能指标高度相关。

线性探针(https://huggingface.co/papers?q=Linear%20probes)广泛用于可解释性研究,通常通过余弦相似度进行比较。两个方向之间的马氏余弦相似度(https://huggingface.co/papers?q=Mahalanobis%20cosine%20similarity)(MCS)通过测试数据协方差(https://huggingface.co/papers?q=test%20data%20covariance)重新加权内积,是一种自然的任务感知改进。Ying等人(2026)报告称,探针与在分布外(OOD)数据上训练的参考探针(https://huggingface.co/papers?q=reference%20probe)的MCS几乎完美线性地预测了该探针的OOD AUROC(R² = 0.98)。在此,我们跨模型、层和概念领域扩展了这一经验发现,并以封闭形式证明了这一普遍现象:对于投影服从高斯分布的平衡类别,OOD AUROC与参考探针(https://huggingface.co/papers?q=reference%20probe)的MCS呈线性关系,因为两者都是探针在测试数据上信噪比(https://huggingface.co/papers?q=signal-to-noise%20ratio)(SNR)的S形函数(https://huggingface.co/papers?q=sigmoid-shaped%20functions)。该理论还预测了这种线性关系何时失效,并通过实验验证。MCS为比较线性探针(https://huggingface.co/papers?q=linear%20probes)提供了比欧氏余弦相似度更具理论依据和实证效果的选择。

查看 arXiv 页面(https://arxiv.org/abs/2606.19603)查看 PDF(https://arxiv.org/pdf/2606.19603)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.19603)

在你的 agent 中获取此论文:

hf papers read 2606.19603

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.19603 以从本页链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.19603 以从本页链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.19603 以从本页链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以从本页链接。

相似文章

探究语言模型的思维失调过程

arXiv cs.AI

本文提出通过将LLM的失调分解为细粒度的认知过程(失调指标),并利用线性探针检测内部激活中的这些指标,从而在分布外对话记录上实现了高AUROC。

Polar Probe线性解码LLM中的语义结构

arXiv cs.CL

本文提出了一种Polar Probe,通过在学习的子空间中用距离和方向表示实体关系,从LLM激活中线性恢复语义结构。在算术、视觉场景、家谱、地铁地图和社交互动等多个领域的测试表明,该编码出现在中间层,能泛化到新实体,并对模型预测产生因果影响。