unified-detection

标签

Cards List
#unified-detection

共享潜在结构实现LLMs中后门攻击的统一检测与缓解

arXiv cs.AI · 3天前 缓存

本文识别了LLMs中不同后门行为之间的共享潜在机制,利用稀疏自编码器检测并因果抑制这些特征,从而在多种模型和攻击类型中实现统一的后门检测与缓解。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈