比较线性探针与马氏余弦相似度

Hugging Face Daily Papers 2026/06/17 00:00 论文

摘要

本文扩展了经验发现：线性探针之间的马氏余弦相似度（MCS）线性预测了分布外AUROC，并在高斯假设下从理论上证明了这一关系。

线性探针在可解释性研究中广泛使用，通常通过余弦相似度进行比较。两个方向之间的马氏余弦相似度（MCS），通过测试数据协方差重新加权内积，是一种自然的任务感知改进。Ying等人（2026）报告称，探针与在分布外（OOD）数据上训练的参考探针之间的MCS几乎完美地线性预测了该探针的OOD AUROC（R² = 0.98）。在此，我们将这一经验发现扩展到多个模型、层和概念领域，并封闭形式证明了这一普遍现象：对于投影为高斯的平衡类别，OOD AUROC和与参考探针的MCS是线性的，因为两者都是探针对测试数据信噪比（SNR）的S形函数。该理论还预测了线性失效的情况，我们通过实验进行了验证。MCS为比较线性探针提供了一种有理论基础且经验有效的替代方案，代替欧几里得余弦相似度。

查看原文

查看缓存全文

缓存时间: 2026/06/23 21:44

论文页面 - 比较线性探针与马氏余弦相似度

来源：https://huggingface.co/papers/2606.19603

摘要

马氏余弦相似度提供了一种理论上严谨的方法来比较线性探针，与分布外性能指标高度相关。

线性探针（https://huggingface.co/papers?q=Linear%20probes）广泛用于可解释性研究，通常通过余弦相似度进行比较。两个方向之间的马氏余弦相似度（https://huggingface.co/papers?q=Mahalanobis%20cosine%20similarity）（MCS）通过测试数据协方差（https://huggingface.co/papers?q=test%20data%20covariance）重新加权内积，是一种自然的任务感知改进。Ying等人（2026）报告称，探针与在分布外（OOD）数据上训练的参考探针（https://huggingface.co/papers?q=reference%20probe）的MCS几乎完美线性地预测了该探针的OOD AUROC（R² = 0.98）。在此，我们跨模型、层和概念领域扩展了这一经验发现，并以封闭形式证明了这一普遍现象：对于投影服从高斯分布的平衡类别，OOD AUROC与参考探针（https://huggingface.co/papers?q=reference%20probe）的MCS呈线性关系，因为两者都是探针在测试数据上信噪比（https://huggingface.co/papers?q=signal-to-noise%20ratio）（SNR）的S形函数（https://huggingface.co/papers?q=sigmoid-shaped%20functions）。该理论还预测了这种线性关系何时失效，并通过实验验证。MCS为比较线性探针（https://huggingface.co/papers?q=linear%20probes）提供了比欧氏余弦相似度更具理论依据和实证效果的选择。

查看 arXiv 页面（https://arxiv.org/abs/2606.19603）查看 PDF（https://arxiv.org/pdf/2606.19603）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.19603）

在你的 agent 中获取此论文：

hf papers read 2606.19603

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2606.19603 以从本页链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2606.19603 以从本页链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.19603 以从本页链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）以从本页链接。

比较线性探针与马氏余弦相似度

论文页面 - 比较线性探针与马氏余弦相似度

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

平均池化余弦相似度不具备长度不变性：针对长度不变替代方案的理论与跨领域证据

大语言模型中欺骗探测探头的压力测试：可伸缩性、鲁棒性与欺骗表征的几何特性

探究语言模型的思维失调过程

Polar Probe线性解码LLM中的语义结构

线性探针在语言模型隐藏状态中检测的是任务格式，而非推理模式

提交意见反馈