counterfactual-augmentation

#counterfactual-augmentation

Vernier: 探究因果推理中词汇缺口背后的表征错位

arXiv cs.CL ↗ · 4天前缓存

本文探究了为何指令调优的语言模型在将变量名替换为占位符后，对因果推理问题给出不同答案，发现问题源于表征错位而非信息丢失。作者引入了Vernier方法，通过配对视图权重更新和机制检查，揭示出答案相关内容在占位符视图中仍然存在但错位。

0 人收藏 0 人点赞