标签
本文对比了 Crosscoders 和差分稀疏自编码器(Diff-SAE)在检测微调大型语言模型后门方面的表现,发现 Diff-SAE 通过隔离方向性激活偏移,其性能显著优于 Crosscoders。