llm-interpretability

#llm-interpretability

模型在哪里找到快乐？开源LLM中的情感向量

arXiv cs.CL ↗ · 昨天缓存

本文复现了开源权重大语言模型Apertus-8B和Gemma-4-E4B中'情感向量'的发现，表明价态几何结构在不同模型间可恢复，但层间出现时机存在差异。研究还发现唤醒编码对用于提取的故事语料库敏感。

0 人收藏 0 人点赞

#llm-interpretability

@DanKornas: LLM 可解释性是个深坑。这个仓库为你提供了地图。Awesome LLM Interpretability 是一个精选的 GitHub 列表……

X AI KOLs Timeline ↗ · 5天前缓存

这是一个精选的 GitHub 列表，汇总了 LLM 可解释性领域的工具、论文和社区，帮助研究人员高效地了解该领域。

0 人收藏 0 人点赞

#llm-interpretability

@GitHub_Daily: 大语言模型内部是如何工作的，为什么会产生幻觉，为什么有时答非所问，想深入了解这些。可以看下 Awesome LLM Interpretability 这份资源合集，提供一整套拆解 AI 黑盒的系统路径。涵盖从注意力可视化、神经元分析到…

X AI KOLs Timeline ↗ · 2026-06-18 缓存

介绍了一个名为 Awesome LLM Interpretability 的资源合集，汇集了多种可解释性工具、论文和社区资源，帮助理解大语言模型的内部工作机制。

0 人收藏 0 人点赞

#llm-interpretability

构建更好的Activation Oracles

arXiv cs.LG ↗ · 2026-06-03 缓存

本文介绍了对Activation Oracles (AOs)的改进，用于解释残差流激活，包括新的对话数据集、多层注入和基于策略的训练。作者还发布了AObench，这是首个用于评估AO质量的全面评估套件。

0 人收藏 0 人点赞

#llm-interpretability

针对语言模型中性别化与性别中立生成的神经元级干预

arXiv cs.CL ↗ · 2026-06-01 缓存

本文提出了一种神经元级干预方法，识别语言模型中的性别特定神经元（女性、男性、性别中立），并在保留语义的同时引导句子生成朝向目标性别形式，实验表明该方法可实现精确控制并缓解偏见。

0 人收藏 0 人点赞

#llm-interpretability

它们在思考什么？大语言模型中概念的界定、探测与追踪

arXiv cs.CL ↗ · 2026-05-29 缓存

本文提出了一种界定概念的方法，并训练线性探测器在大语言模型的嵌入中检测这些概念，以四个示例概念在三个模型上进行验证。该工作旨在实现对LLM内部表示的可扩展监控。

0 人收藏 0 人点赞

#llm-interpretability

指令调优大语言模型中的构成性文学原语：自我、风格与情感的跨架构SAE特征

arXiv cs.LG ↗ · 2026-05-20

本文通过稀疏自编码器刻画了指令调优大语言模型中的构成性文学原语，发现了自我、风格与情感的特征类别，这些特征能够在两种架构间实现情感引导。

0 人收藏 0 人点赞

#llm-interpretability

推理模型并非只是思考更久，其运作轨迹也不同

arXiv cs.CL ↗ · 2026-05-18 缓存

本文通过分析代码、数学和SAT领域中的隐藏状态轨迹几何特征，探究经推理训练的语言模型是否仅仅分配更多计算资源（更长的思维链），还是遵循了性质不同的内部轨迹。在纠正生成长度的影响后，他们发现经推理训练的模型展现出独特的轨迹几何特征——在代码领域最为明显——这表明推理训练改变了计算展开的方式，而不仅仅是计算量的多少。

0 人收藏 0 人点赞

#llm-interpretability

揭示过度完备推理轨迹中最小核心的表征几何

arXiv cs.AI ↗ · 2026-05-15 缓存

本文介绍了过度完备推理轨迹中'最小核心'的概念，表明平均可移除46%的步骤同时保留最终答案，并且最小核心改善了轨迹分离并降低了内在维度。

0 人收藏 0 人点赞

#llm-interpretability

修正影响：利用正交潜在空间解构LLM输出

arXiv cs.LG ↗ · 2026-05-14 缓存

本文介绍了一个框架，通过稀疏自编码器学习正交潜在空间，实现对大型语言模型中词元级影响的归因，从而精确识别共同影响预测的训练数据词元，适用于医疗等高风险领域。

0 人收藏 0 人点赞

#llm-interpretability

保持专注：通过键正交投影实现激活转向

arXiv cs.CL ↗ · 2026-05-08 缓存

本文介绍了通过键正交投影进行转向（SKOP）方法，该方法通过防止注意力重路由来控制大语言模型（LLM）的行为，从而在保持转向效果的同时降低效用下降。

0 人收藏 0 人点赞

#llm-interpretability

粒度轴：语言模型中社会角色的微观到宏观隐式方向

Hugging Face Daily Papers ↗ · 2026-05-07 缓存

这篇研究论文探讨了大型语言模型如何将社会角色的细粒度性编码为一个结构化的潜在维度。研究证实，这一“细粒度轴”在 Qwen3 和 Llama-3 等不同架构中保持一致，并且可以通过激活 steering（activation steering）进行因果干预。

0 人收藏 0 人点赞

#llm-interpretability

代理建模：解读黑盒大模型在医学预测中的隐含知识

arXiv cs.CL ↗ · 2026-04-23 缓存

研究者提出一种代理建模框架，可量化并解释黑盒大模型内部编码的医学知识，同时揭示有效关联与持续的种族偏见。

0 人收藏 0 人点赞

#llm-interpretability

追踪大语言模型中的关系知识回忆

arXiv cs.CL ↗ · 2026-04-23 缓存

研究者通过探测每个注意力头的贡献，追踪大语言模型如何回忆关系事实，发现这些贡献是强线性特征，其保真度与关系特异性及实体连接度相关。

0 人收藏 0 人点赞

#llm-interpretability

幻觉神经元是否通用？LLM跨领域迁移证据

arXiv cs.CL ↗ · 2026-04-23 缓存

独立研究者发现，大模型中稀疏的“幻觉神经元”无法跨领域迁移，AUROC从0.783降至0.563，表明幻觉具有领域特异性，而非通用神经特征。

0 人收藏 0 人点赞

#llm-interpretability

我们能否定位并防止LLM中的刻板印象？

arXiv cs.CL ↗ · 2026-04-23 缓存

arXiv预印本在GPT-2 Small与Llama 3.2中定位编码刻板印象的神经元与注意力头，显示偏见集中在少数神经元子集，但消融它们几乎无法减少带偏文本生成。

0 人收藏 0 人点赞

#llm-interpretability

TPA: 用于检测RAG中幻觉的下一个令牌概率归因

arXiv cs.CL ↗ · 2026-04-20 缓存

TPA提出了一种新颖的方法，通过将下一个令牌概率归因于七个不同的源头（查询、RAG上下文、过去令牌、自身令牌、FFN、最终LayerNorm、初始嵌入），并按词性标签聚合，来检测RAG系统中的幻觉。该方法在包括Llama2、Llama3、Mistral和Qwen在内的五个大语言模型上实现了最先进的性能。

0 人收藏 0 人点赞

#llm-interpretability

揭示大语言模型中的数学推理：内部机制的方法学研究

arXiv cs.CL ↗ · 2026-04-20 缓存

本文通过早期解码分析大语言模型的内部机制，研究其如何执行算术运算。研究发现，能力强的模型在推理任务中，注意力模块和 MLP 模块之间呈现明确的分工。

0 人收藏 0 人点赞

#llm-interpretability

应用于大语言模型的可解释性研究：对比分析

arXiv cs.CL ↗ · 2026-04-20 缓存

一项对比研究，评估了三种可解释性技术（Integrated Gradients、Attention Rollout、SHAP）在微调 DistilBERT 模型上的表现，用于情感分类任务，重点突出了基于梯度、基于注意力和模型无关方法在大语言模型可解释性中的权衡。

0 人收藏 0 人点赞

#llm-interpretability

LLM神经解剖学第三部分 - LLMs似乎以几何而非语言思考

Reddit r/LocalLLaMA ↗ · 2026-04-19

研究人员分析了LLMs在8种语言和多个模型中的内部表示，发现概念思考发生在transformer中间层的几何空间中，且与输入语言无关，这支持了类似于乔姆斯基理论的普遍深层结构假说，而非萨丕尔-沃尔夫语言相对论。

0 人收藏 0 人点赞

llm-interpretability

提交意见反馈