BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
shared-latent-structures
标签
Cards
List
#shared-latent-structures
共享潜在结构实现LLMs中后门攻击的统一检测与缓解
arXiv cs.AI
↗
· 3天前
缓存
本文识别了LLMs中不同后门行为之间的共享潜在机制,利用稀疏自编码器检测并因果抑制这些特征,从而在多种模型和攻击类型中实现统一的后门检测与缓解。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交