BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
activation-explainer
标签
Cards
List
#activation-explainer
解码推理型LLM中隐藏的欺骗:用于欺骗审计的激活解释器
arXiv cs.CL
↗
· 2天前
缓存
提出了STATEWITNESS,一种用于审计推理型LLM中欺骗的激活解释器,相比现有监测器取得了显著改进,并提供了可供人工检查的证据。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交