标签
本文提出了一种事后认证框架,用于基于稀疏自编码器(SAE)的可解释性,通过可测量量推导出冻结语言模型风险的上界。该框架在GPT-2 Small、Gemma-2B和Llama-3-8B上得到了验证,显示出非空洞的界,并揭示了深度相关的行为。
本文证明了对稀疏自编码器(SAE)特征的干预可能不可靠,因为受抑制的行为可以通过残差空间优化恢复,即使干预仍然有效。它揭示了语言模型中特征级控制与实际行为完整性之间的关键差距。
本文提出用余弦相似度与输入幅值的可学习组合替代稀疏自编码器中的内积评分,结果表明所得特征更具可解释性且与概念对齐,优化器始终偏好余弦而非内积。
介绍理性稀疏自编码器(RSAE),该模型用可训练的有理函数替换固定的编码器激活,在多个基线族开放权重语言模型的残差流激活上改善重建与稀疏性权衡。
论文假设语言模型激活包含一个低秩密集分量,该分量被稀疏自编码器(SAEs)低效表示。通过添加一个线性瓶颈来吸收密集结构,作者减少了密集潜变量,并改进了在Gemma-2-2B上的稀疏探针性能。
本文研究稀疏自编码器中的种子依赖性,发现稳定特征携带大部分预测信号,而不稳定特征反映了可重现的低维子空间。
本文识别了LLMs中不同后门行为之间的共享潜在机制,利用稀疏自编码器检测并因果抑制这些特征,从而在多种模型和攻击类型中实现统一的后门检测与缓解。
Query Lens 扩展了 Logit Lens,通过联合考虑编码器侧的键特征和解码器侧的值特征,并计入来自下游模块的间接效应,来解释稀疏自编码器特征。该论文还提出了子空间通道假说,表明下游模块通过特定层的子空间读取特征。
本文对CosyVoice3文本转语音语言模型应用稀疏自编码器,发现可解释的特征,这些特征可被引导以控制笑声、说话者性别和语速等属性,同时保留内容。
本文提出了一个统一的几何框架,用于理解稀疏自编码器中的概念学习和神经元解释,将概念形式化为集合,并定义了检测、分离和近似。它提供了误差界、容量约束,并与形式概念分析建立了联系,同时在合成数据上进行了实验。
本文利用塞尔维亚双文制作为受控测试平台,探究稀疏自编码器特征的自动生成标签是否跨语言和文字泛化。研究发现,尽管特征集在不同语言间存在显著重叠,但标签通常未能追踪非英语输入中的同一概念,尤其是在代表性较弱的文字中。
研究人员使用经过重构训练的稀疏自编码器,从冻结的密集检索器中提取出可索引且适用于BM25的稀疏特征。
本文提出了一种使用无监督稀疏自编码器和自然倒排索引的单阶段稀疏编码方法,以加速多向量检索,其效果优于传统的基于k-means的方法。
该论文提出 Latent Terms 方法,使用稀疏自编码器从冻结的密集检索器中提取BM25就绪的稀疏特征,无需检索特定训练即可实现有竞争力的性能。
本文展示稀疏自编码器能够从生产级语言模型Claude 3 Sonnet中提取可解释特征,解决了字典学习方法在扩展性方面的担忧。这些特征具有多语言、多模态特性,并涵盖欺骗、谄媚等安全相关概念,且对模型输出具有因果影响。
本文引入读出-中介角度,证明线性探针可以从语言模型激活中解码出与模型实际因果计算正交的信息,从而削弱了基于探针的可解释性。该发现跨模型规模和系列得到复现,揭示出使用探针进行机制理解或安全监控的一个根本性失败模式。
本文使用稀疏自编码器分析了语言模型中LoRA诱导表征的几何结构,发现LoRA更新占据的部分特征结构无法完全被预训练的可解释性词典捕获。
本文研究了Platonic Representation Hypothesis,提出对齐源于表示中的线性结构,并引入了一个包含信号、偏置和噪声的统计框架。
MechELK 是一个三阶段框架,结合机制可解释性工具(SAE、激活修补、因果探测)与表示工程,从大型语言模型中引出潜在知识,实现了84.7%的准确率,优于CCS和线性探测等现有方法。
本文提出了一种表征动力学的分岔理论,用于检测神经网络在训练过程中何时获得结构化表征。该理论利用对GMM探针的黑塞矩阵分析,得到的比值β/β_c作为一种无标签的相位坐标,能够预测可用结构的出现,并在训练早期预判稀疏自编码器中的特征可解释性。