基于反事实链和因果图的LLM可解释性
摘要
本文提出了一种四阶段方法,用于构建建模LLM推理过程的因果图,利用反事实增强实现稳定的因果发现,并提供透明、概念级的可解释性。
查看缓存全文
缓存时间: 2026/06/08 07:14
论文页面 - 基于反事实链与因果图的大语言模型可解释性
来源:https://huggingface.co/papers/2606.05972
摘要
因果图被用于建模大语言模型的推理过程,通过一种包含概念发现、映射以及 MCMC 启发的反事实增强四阶段方法,透明可视化了模型如何感知和组织高层概念以进行预测。
因果图 (https://huggingface.co/papers?q=Causal%20graphs) 为揭示机制提供了一种高层语言。近期工作利用大语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models) (LLMs) 来恢复外部世界过程的因果图 (https://huggingface.co/papers?q=causal%20graphs)。而在本文中,我们转而使用因果图 (https://huggingface.co/papers?q=causal%20graphs) 来建模 LLM 推理过程本身,为利益相关者提供模型如何感知和组织高层概念以生成预测的透明视图。我们提出了一种构建此类图的四阶段方法。给定一个目标 LLM 和一组文本示例,我们的方法能够发现具有类别判别性、人类可解释的概念,并将每个输入映射到 LLM 感知的概念状态。随后,我们引入了一种受 MCMC 启发 (https://huggingface.co/papers?q=MCMC-inspired) 的反事实增强 (https://huggingface.co/papers?q=counterfactual%20augmentation) 流程,通过反事实链条扩展稀疏的观测数据。这使得利用 σ-CG 进行稳定的因果发现 (https://huggingface.co/papers?q=causal%20discovery) 成为可能,从而生成信息丰富、可解释的图。我们将该方法应用于三个 LLM,涵盖疾病诊断、情感分析和 LLM 作为评判者的分类任务。我们从预测保真度 (https://huggingface.co/papers?q=predictive%20fidelity) 和结构稳定性 (https://huggingface.co/papers?q=structural%20stability) 两方面评估了学习到的图,并评估了 MCMC 启发 (https://huggingface.co/papers?q=MCMC-inspired) 增强方法的收敛性与下游效用。结果表明,所发现的因果图 (https://huggingface.co/papers?q=causal%20graphs) 能够捕捉与 LLM 推理一致的有意义的依赖关系。综上,本文为 LLM 的概念级可解释性 (https://huggingface.co/papers?q=concept-level%20explainability) 奠定了基础。
查看 arXiv 页面 (https://arxiv.org/abs/2606.05972) 查看 PDF (https://arxiv.org/pdf/2606.05972) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05972)
在你的 agent 中获取这篇论文:
hf papers read 2606\.05972
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.05972 即可从本页链接至此。
引用此论文的数据集 0
暂无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.05972 即可从本页链接至此。
引用此论文的 Space 0
暂无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2606.05972 即可从本页链接至此。
包含此论文的收藏集 0
暂无收藏集包含此论文
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从本页链接至此。
相似文章
LLMs 并非你所认为的黑箱
一篇总结 Anthropic 2025 年关于机制可解释性论文的文章,表明 LLM 并非黑箱,电路追踪可以揭示多步推理和人类可识别的概念。
信念还是电路?上下文图学习的因果证据
本文使用主成分分析(PCA)和激活补丁等机制可解释性方法,在一个图随机游走任务上探究了大型语言模型是通过潜在结构推断还是局部模式匹配来进行上下文学习。
LLMs为何在结构化知识上产生幻觉:对线性化表示推理的机制分析
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。
CausaLab: 面向AI科学家的可扩展交互式因果发现环境
CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。
LLM推理研究中的奇怪现象:我们正在尝试去除思维链痕迹
本文讨论了LLM推理研究的一个转变:从通过思维链使推理显式化,转向探索无需语言痕迹的潜在推理,质疑可见性对于有效推理是否必要。