标签
本文引入读出-中介角度,证明线性探针可以从语言模型激活中解码出与模型实际因果计算正交的信息,从而削弱了基于探针的可解释性。该发现跨模型规模和系列得到复现,揭示出使用探针进行机制理解或安全监控的一个根本性失败模式。