backdoor-detection

标签

Cards List
#backdoor-detection

激活差异揭示后门:SAE 架构对比研究

arXiv cs.CL · 2天前 缓存

本文对比了 Crosscoders 和差分稀疏自编码器(Diff-SAE)在检测微调大型语言模型后门方面的表现,发现 Diff-SAE 通过隔离方向性激活偏移,其性能显著优于 Crosscoders。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈