circuit-discovery

#circuit-discovery

对比性目标SFT作为机制解释方法——有人用这种方式映射因果依赖关系吗？[D]

Reddit r/MachineLearning ↗ · 2天前

一位研究人员分享了一项实验计划，旨在通过对比性目标SFT和电路追踪来识别31B模型中能力维度之间的因果依赖关系，并寻求关于方法论和相关工作的反馈。

0 人收藏 0 人点赞

#circuit-discovery

arXiv cs.LG ↗ · 2026-06-10 缓存

本文诊断了 attribution patching 中的系统性误差——这是一种用于语言模型因果定位的基于梯度的近似方法——并提出了一种使用 Hessian-vector product 的二阶修正，该修正以极小的额外计算成本提高了可靠性。

0 人收藏 0 人点赞

#circuit-discovery

arXiv cs.LG ↗ · 2026-05-27 缓存

提出了 MechRL，一种利用强化学习自动发现 transformer 语言模型中电路的方案。经过多任务训练的 PPO 代理发现了与已知典型电路匹配的注意力头电路，并能泛化到一项保留任务上。

0 人收藏 0 人点赞

#circuit-discovery

arXiv cs.LG ↗ · 2026-05-26 缓存

介绍了一种三步法，用于识别预训练Transformer中的注意力头电路，该方法使用频谱信号和任务模式筛选，无需标签，并在51M到1B参数模型及多种架构上验证。

0 人收藏 0 人点赞

#circuit-discovery

arXiv cs.CL ↗ · 2026-04-21 缓存

研究人员推出了 PIE，这是一种面向跨层转码器（CLT）的原生框架，通过基于特征归因的剪枝技术实现高效的电路发现。该方法在特征选择上实现了约 40 倍的压缩，同时成功保持了 IOI 和 Doc-String 任务的行为保真度。

0 人收藏 0 人点赞