标签
一位研究人员分享了一项实验计划,旨在通过对比性目标SFT和电路追踪来识别31B模型中能力维度之间的因果依赖关系,并寻求关于方法论和相关工作的反馈。
本文诊断了 attribution patching 中的系统性误差——这是一种用于语言模型因果定位的基于梯度的近似方法——并提出了一种使用 Hessian-vector product 的二阶修正,该修正以极小的额外计算成本提高了可靠性。
提出了 MechRL,一种利用强化学习自动发现 transformer 语言模型中电路的方案。经过多任务训练的 PPO 代理发现了与已知典型电路匹配的注意力头电路,并能泛化到一项保留任务上。
介绍了一种三步法,用于识别预训练Transformer中的注意力头电路,该方法使用频谱信号和任务模式筛选,无需标签,并在51M到1B参数模型及多种架构上验证。
研究人员推出了 PIE,这是一种面向跨层转码器(CLT)的原生框架,通过基于特征归因的剪枝技术实现高效的电路发现。该方法在特征选择上实现了约 40 倍的压缩,同时成功保持了 IOI 和 Doc-String 任务的行为保真度。