标签
提出了 MechRL,一种利用强化学习自动发现 transformer 语言模型中电路的方案。经过多任务训练的 PPO 代理发现了与已知典型电路匹配的注意力头电路,并能泛化到一项保留任务上。
介绍了一种三步法,用于识别预训练Transformer中的注意力头电路,该方法使用频谱信号和任务模式筛选,无需标签,并在51M到1B参数模型及多种架构上验证。
P2D是一个统一框架,利用任务敏感的注意力头进行数据选择和结构剪枝,通过仅更新10%的头部和10%的数据,实现了8.3个百分点的性能提升和7.0倍的加速。
本文研究了权重衰减如何作为控制参数,使在模算术上训练的Transformer在记忆与泛化之间发生转变,并引入了两种基于注意力激活的廉价在线诊断指标,用以追踪这些动态。
引入反事实定位方法,用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境,包含四个推理模型的146万句子语料库。研究表明,基于注意力的转换特征在不同环境中具有泛化能力,可用于检测欺骗承诺。
本文识别了在80亿参数语言模型中语言切换后门的底层电路,其中三个词的拉丁触发器通过注意力头和正交潜在子空间将英语输出重定向为法语,最后一层的MLP将潜在信号转换为法语logits。
本文通过机制分析研究视觉-语言模型中的提示诱导幻觉,识别出导致模型偏向文本提示而忽视视觉证据的特定注意力头。作者证明了删除这些PIH头可以在无需额外训练的情况下减少至少40%的幻觉,揭示了该故障模式背后的模型特定机制。