标签
本文复现了开源权重大语言模型Apertus-8B和Gemma-4-E4B中'情感向量'的发现,表明价态几何结构在不同模型间可恢复,但层间出现时机存在差异。研究还发现唤醒编码对用于提取的故事语料库敏感。
这是一个精选的 GitHub 列表,汇总了 LLM 可解释性领域的工具、论文和社区,帮助研究人员高效地了解该领域。
介绍了一个名为 Awesome LLM Interpretability 的资源合集,汇集了多种可解释性工具、论文和社区资源,帮助理解大语言模型的内部工作机制。
本文介绍了对Activation Oracles (AOs)的改进,用于解释残差流激活,包括新的对话数据集、多层注入和基于策略的训练。作者还发布了AObench,这是首个用于评估AO质量的全面评估套件。
本文提出了一种神经元级干预方法,识别语言模型中的性别特定神经元(女性、男性、性别中立),并在保留语义的同时引导句子生成朝向目标性别形式,实验表明该方法可实现精确控制并缓解偏见。
本文提出了一种界定概念的方法,并训练线性探测器在大语言模型的嵌入中检测这些概念,以四个示例概念在三个模型上进行验证。该工作旨在实现对LLM内部表示的可扩展监控。
本文通过稀疏自编码器刻画了指令调优大语言模型中的构成性文学原语,发现了自我、风格与情感的特征类别,这些特征能够在两种架构间实现情感引导。
本文通过分析代码、数学和SAT领域中的隐藏状态轨迹几何特征,探究经推理训练的语言模型是否仅仅分配更多计算资源(更长的思维链),还是遵循了性质不同的内部轨迹。在纠正生成长度的影响后,他们发现经推理训练的模型展现出独特的轨迹几何特征——在代码领域最为明显——这表明推理训练改变了计算展开的方式,而不仅仅是计算量的多少。
本文介绍了过度完备推理轨迹中'最小核心'的概念,表明平均可移除46%的步骤同时保留最终答案,并且最小核心改善了轨迹分离并降低了内在维度。
本文介绍了一个框架,通过稀疏自编码器学习正交潜在空间,实现对大型语言模型中词元级影响的归因,从而精确识别共同影响预测的训练数据词元,适用于医疗等高风险领域。
本文介绍了通过键正交投影进行转向(SKOP)方法,该方法通过防止注意力重路由来控制大语言模型(LLM)的行为,从而在保持转向效果的同时降低效用下降。
这篇研究论文探讨了大型语言模型如何将社会角色的细粒度性编码为一个结构化的潜在维度。研究证实,这一“细粒度轴”在 Qwen3 和 Llama-3 等不同架构中保持一致,并且可以通过激活 steering(activation steering)进行因果干预。
研究者提出一种代理建模框架,可量化并解释黑盒大模型内部编码的医学知识,同时揭示有效关联与持续的种族偏见。
研究者通过探测每个注意力头的贡献,追踪大语言模型如何回忆关系事实,发现这些贡献是强线性特征,其保真度与关系特异性及实体连接度相关。
独立研究者发现,大模型中稀疏的“幻觉神经元”无法跨领域迁移,AUROC从0.783降至0.563,表明幻觉具有领域特异性,而非通用神经特征。
arXiv预印本在GPT-2 Small与Llama 3.2中定位编码刻板印象的神经元与注意力头,显示偏见集中在少数神经元子集,但消融它们几乎无法减少带偏文本生成。
TPA提出了一种新颖的方法,通过将下一个令牌概率归因于七个不同的源头(查询、RAG上下文、过去令牌、自身令牌、FFN、最终LayerNorm、初始嵌入),并按词性标签聚合,来检测RAG系统中的幻觉。该方法在包括Llama2、Llama3、Mistral和Qwen在内的五个大语言模型上实现了最先进的性能。
本文通过早期解码分析大语言模型的内部机制,研究其如何执行算术运算。研究发现,能力强的模型在推理任务中,注意力模块和 MLP 模块之间呈现明确的分工。
一项对比研究,评估了三种可解释性技术(Integrated Gradients、Attention Rollout、SHAP)在微调 DistilBERT 模型上的表现,用于情感分类任务,重点突出了基于梯度、基于注意力和模型无关方法在大语言模型可解释性中的权衡。
研究人员分析了LLMs在8种语言和多个模型中的内部表示,发现概念思考发生在transformer中间层的几何空间中,且与输入语言无关,这支持了类似于乔姆斯基理论的普遍深层结构假说,而非萨丕尔-沃尔夫语言相对论。