backdoor-detection

#backdoor-detection

激活差异揭示后门：SAE 架构对比研究

arXiv cs.CL ↗ · 2天前缓存

本文对比了 Crosscoders 和差分稀疏自编码器（Diff-SAE）在检测微调大型语言模型后门方面的表现，发现 Diff-SAE 通过隔离方向性激活偏移，其性能显著优于 Crosscoders。

0 人收藏 0 人点赞