activation-explainer

标签

Cards List
#activation-explainer

解码推理型LLM中隐藏的欺骗:用于欺骗审计的激活解释器

arXiv cs.CL · 2天前 缓存

提出了STATEWITNESS,一种用于审计推理型LLM中欺骗的激活解释器,相比现有监测器取得了显著改进,并提供了可供人工检查的证据。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈