标签
本文介绍了Augmented Sparse Encoding Models,利用语言模型的稀疏特征解读大脑对语言的反应,并在高场7T fMRI数据上进行了验证。该模型恢复了已知的神经调谐特性,并发现了一个新的体素群体,该群体对与人相关的内容具有调谐特性。
本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障,可以完全通过内部激活和稀疏自编码器来检测和缓解,无需微调即可大幅降低幻觉率。
本文研究了在全精度语言模型中由稀疏自编码器识别的可解释特征在量化后是否仍然忠实,发现系统性的退化,而像困惑度这样的行为指标可能无法捕捉到这种退化。
介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。
一位开发者构建了AXON,该工具利用稀疏自编码器将GPT-2的内部概念激活可视化为实时3D力导向图,使用户能够在令牌生成前看到可解释特征的激活情况。
本文介绍了 Qwen-Scope,这是一套在 Qwen3 和 Qwen3.5 模型上训练的稀疏自编码器(SAE)工具包,旨在实现机械可解释性分析与干预。该工具包发布了涵盖密集和 MoE 骨干网络的 14 组 SAE 权重,为残差流激活提供了稀疏表示。
WriteSAE 引入了第一个稀疏自编码器,能够分解状态空间模型和混合循环语言模型中的矩阵缓存写入,相比现有方法实现了更优的令牌级干预。