标签
本文介绍了Prototype-Based Sparse Steering方法,该方法将稀疏自编码器应用于大语言模型的注意力查询激活,然后在推理过程中使用梯度优化来引导生成朝向目标行为。该方法在一个逻辑规划任务和一个风格化教育领域中得到了验证,展示了可解释且解耦的控制能力。
本文介绍了一种基于原则的多语言语言调控方法,该方法使用在多语言数据上训练的稀疏自编码器(SAEs)以及一种基于多语言对齐与语言可分性交集的新型层选择规则,并在LLaMA-3.1-8B和Gemma-2-9B上针对机器翻译和跨语言摘要进行了评估。
本文使用稀疏自编码器将大语言模型分解为可解释的特征,并表明语义特征能够解释大脑与皮层语义拓扑的对齐,且该结论在英语、中文和法语中均具有泛化性。
本文提出了一种以功能为中心的框架,利用转码器追踪视觉语言模型中的计算路径,展示了更强的视觉定位归因能力,并通过基于图的特征预测幻觉现象。
本文提出了一种用于Transformer语言模型中因果特征分析的五阶段方法论,并在GPT-2 small上针对IOI任务进行了演示。研究发现特征具有特定的因果性但并非必要,并揭示了检测鲁棒性与因果鲁棒性之间的差距。
本文探讨了稀疏自动编码器(SAEs)如何捕捉弯曲的神经几何,揭示了SAE特征表示流形的三种不同方式,并提出了一个无监督流程来揭示神经表征中的几何结构。
本文通过稀疏自编码器刻画了指令调优大语言模型中的构成性文学原语,发现了自我、风格与情感的特征类别,这些特征能够在两种架构间实现情感引导。
本文介绍了一种基于稀疏自编码器(Sparse Autoencoders)的诊断框架,用于分析持续学习中的概念级遗忘,发现大部分遗忘源于表示不可访问性而非信息擦除。
本文研究了大型语言模型奖励模型中的偏好不稳定性,即微小的输入变化会导致矛盾的偏好分配。作者提出了两种基于SAE的缓解策略——SAE特征引导和SAE残差校正——在不重新训练的情况下减少错误的偏好分配。
本文对三个脑电图基础模型(SleepFM、REVE、LaBraM)应用TopK稀疏自编码器,提取可解释的特征字典,并引入了概念引导框架,揭示了表征失败和临床纠缠问题。
SAE-FT提出了一种新颖的CLIP模型微调方法,利用稀疏自编码器约束来正则化视觉表示,在保持性能的同时提高对分布变化的鲁棒性,并实现可解释性。
本文介绍了一个框架,通过稀疏自编码器学习正交潜在空间,实现对大型语言模型中词元级影响的归因,从而精确识别共同影响预测的训练数据词元,适用于医疗等高风险领域。
本文介绍了一种新颖的自适应调度器,用于利用稀疏自编码器引导离散扩散语言模型,结果表明,基于特定属性提交时机进行针对性干预,比均匀方法能提升控制质量和强度。
本预印本介绍了一种将情感向量注入语言模型以模拟躯体标记的方法,旨在弥合语义记忆与情景记忆之间的差距。作者证明,将情感回音与语义知识相结合可以提升决策能力,从而复现了人类认知科学中的相关发现。
本文介绍了潜在空间优化可视化(LVO),这是一种机械可解释性技术,利用稀疏自编码器来可视化 Stable Diffusion 1.5 等扩散模型中的单义特征。
本研究调查了大语言模型(LLMs)与人类在理解抽象概念时的“接地”(grounding)差异,发现存在显著的“接地鸿沟”:模型过度依赖词语联想,而较少涉及情感或内在状态。作者利用稀疏自编码器(SAEs)识别出与接地维度相关的内部特征,表明LLM虽然具备这些信息,但在自由生成文本时并未像人类一样自然地调用它们。
本研究论文在大语言模型中引入了稀疏自编码器表示中的“特征竞争”概念,将其作为不确定性的机制性特征。利用 Gemma-2-2B 模型,研究表明,负相关的特征对将不确定性定位到特定层级,并对模型输出产生因果影响。
本文介绍了一种基于稀疏自编码器(SAE)和线性探针的机制可解释性工具包,用于在智能体调用工具之前监控模型内部状态,旨在提高企业工作流中的诊断能力和安全性。
本文对比了 Crosscoders 和差分稀疏自编码器(Diff-SAE)在检测微调大型语言模型后门方面的表现,发现 Diff-SAE 通过隔离方向性激活偏移,其性能显著优于 Crosscoders。
一位本科生研究员对Anthropic最近的机械可解释性研究表达了幻灭感,具体批评其新的自然语言自编码器方法是一种黑箱技术,且缺乏与稀疏自编码器基线之间的严格指标比较。