monosemanticity

标签

Cards List
#monosemanticity

扩展单义性:从Claude 3 Sonnet中提取可解释特征

arXiv cs.AI · 2026-05-29 缓存

本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征,解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性,并涵盖欺骗、谄媚等安全相关概念,且对模型输出具有因果影响。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈