标签
本文探究了为何指令调优的语言模型在将变量名替换为占位符后,对因果推理问题给出不同答案,发现问题源于表征错位而非信息丢失。作者引入了Vernier方法,通过配对视图权重更新和机制检查,揭示出答案相关内容在占位符视图中仍然存在但错位。