circuit-discovery

标签

Cards List
#circuit-discovery

对比性目标SFT作为机制解释方法——有人用这种方式映射因果依赖关系吗?[D]

Reddit r/MachineLearning · 2天前

一位研究人员分享了一项实验计划,旨在通过对比性目标SFT和电路追踪来识别31B模型中能力维度之间的因果依赖关系,并寻求关于方法论和相关工作的反馈。

0 人收藏 0 人点赞
#circuit-discovery

当 Attribution Patching 存在偏差:诊断与二阶修正

arXiv cs.LG · 2026-06-10 缓存

本文诊断了 attribution patching 中的系统性误差——这是一种用于语言模型因果定位的基于梯度的近似方法——并提出了一种使用 Hessian-vector product 的二阶修正,该修正以极小的额外计算成本提高了可靠性。

0 人收藏 0 人点赞
#circuit-discovery

MechRL:强化学习代理用于机制可解释性中的电路发现

arXiv cs.LG · 2026-05-27 缓存

提出了 MechRL,一种利用强化学习自动发现 transformer 语言模型中电路的方案。经过多任务训练的 PPO 代理发现了与已知典型电路匹配的注意力头电路,并能泛化到一项保留任务上。

0 人收藏 0 人点赞
#circuit-discovery

光谱探针电路:识别预训练Transformer中注意力头电路的三步法

arXiv cs.LG · 2026-05-26 缓存

介绍了一种三步法,用于识别预训练Transformer中的注意力头电路,该方法使用频谱信号和任务模式筛选,无需标签,并在51M到1B参数模型及多种架构上验证。

0 人收藏 0 人点赞
#circuit-discovery

剪枝、解释与评估:一种基于特征归因的跨层转码器原生高效电路发现框架

arXiv cs.CL · 2026-04-21 缓存

研究人员推出了 PIE,这是一种面向跨层转码器(CLT)的原生框架,通过基于特征归因的剪枝技术实现高效的电路发现。该方法在特征选择上实现了约 40 倍的压缩,同时成功保持了 IOI 和 Doc-String 任务的行为保真度。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈