confounds

#confounds

线性探针在语言模型隐藏状态中检测的是任务格式，而非推理模式

arXiv cs.CL ↗ · 昨天缓存

本文证明，基于LLM隐藏状态的线性探针检测到的是任务格式混淆因素（例如来源身份、回答长度），而非不同的推理模式。通过残差化和因果引导，表明高探针准确率源于表面特征，而非计算结构。

0 人收藏 0 人点赞