monosemanticity

#monosemanticity

扩展单义性：从Claude 3 Sonnet中提取可解释特征

arXiv cs.AI ↗ · 2026-05-29 缓存

本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征，解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性，并涵盖欺骗、谄媚等安全相关概念，且对模型输出具有因果影响。

0 人收藏 0 人点赞