基于反事实链和因果图的LLM可解释性

Hugging Face Daily Papers 论文

摘要

本文提出了一种四阶段方法,用于构建建模LLM推理过程的因果图,利用反事实增强实现稳定的因果发现,并提供透明、概念级的可解释性。

因果图提供了一种高级语言,使机制透明化。近期的工作使用大型语言模型(LLM)来恢复外部世界过程的因果图。相反,在本文中,我们使用因果图对LLM本身的推理过程进行建模,为利益相关者提供模型如何感知和组织高级概念以生成预测的透明视图。我们提出了一种四阶段方法来构建此类图。给定目标LLM和一组文本示例,我们的方法发现具有类别区分性、可人工解释的概念,并将每个输入映射到LLM感知的概念状态。然后,我们引入了一种受MCMC启发的反事实增强过程,通过反事实链扩展稀疏的观测数据。这允许使用σ-CG进行稳定的因果发现,从而生成信息丰富且可解释的图。我们将方法应用于三个LLM,涵盖疾病诊断、情感分析和LLM作为评判者的分类任务。我们评估了所学图的预测保真度和结构稳定性,以及受MCMC启发的增强过程的收敛性和下游效用。我们的结果表明,发现的因果图捕获了与LLM推理一致的有意义的依赖关系。总之,本文为LLM的概念级可解释性奠定了基础。
查看原文
查看缓存全文

缓存时间: 2026/06/08 07:14

论文页面 - 基于反事实链与因果图的大语言模型可解释性

来源:https://huggingface.co/papers/2606.05972

摘要

因果图被用于建模大语言模型的推理过程,通过一种包含概念发现、映射以及 MCMC 启发的反事实增强四阶段方法,透明可视化了模型如何感知和组织高层概念以进行预测。

因果图 (https://huggingface.co/papers?q=Causal%20graphs) 为揭示机制提供了一种高层语言。近期工作利用大语言模型 (https://huggingface.co/papers?q=Large%20Language%20Models) (LLMs) 来恢复外部世界过程的因果图 (https://huggingface.co/papers?q=causal%20graphs)。而在本文中,我们转而使用因果图 (https://huggingface.co/papers?q=causal%20graphs) 来建模 LLM 推理过程本身,为利益相关者提供模型如何感知和组织高层概念以生成预测的透明视图。我们提出了一种构建此类图的四阶段方法。给定一个目标 LLM 和一组文本示例,我们的方法能够发现具有类别判别性、人类可解释的概念,并将每个输入映射到 LLM 感知的概念状态。随后,我们引入了一种受 MCMC 启发 (https://huggingface.co/papers?q=MCMC-inspired) 的反事实增强 (https://huggingface.co/papers?q=counterfactual%20augmentation) 流程,通过反事实链条扩展稀疏的观测数据。这使得利用 σ-CG 进行稳定的因果发现 (https://huggingface.co/papers?q=causal%20discovery) 成为可能,从而生成信息丰富、可解释的图。我们将该方法应用于三个 LLM,涵盖疾病诊断、情感分析和 LLM 作为评判者的分类任务。我们从预测保真度 (https://huggingface.co/papers?q=predictive%20fidelity) 和结构稳定性 (https://huggingface.co/papers?q=structural%20stability) 两方面评估了学习到的图,并评估了 MCMC 启发 (https://huggingface.co/papers?q=MCMC-inspired) 增强方法的收敛性与下游效用。结果表明,所发现的因果图 (https://huggingface.co/papers?q=causal%20graphs) 能够捕捉与 LLM 推理一致的有意义的依赖关系。综上,本文为 LLM 的概念级可解释性 (https://huggingface.co/papers?q=concept-level%20explainability) 奠定了基础。

查看 arXiv 页面 (https://arxiv.org/abs/2606.05972) 查看 PDF (https://arxiv.org/pdf/2606.05972) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05972)

在你的 agent 中获取这篇论文:

hf papers read 2606\.05972

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.05972 即可从本页链接至此。

引用此论文的数据集 0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.05972 即可从本页链接至此。

引用此论文的 Space 0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.05972 即可从本页链接至此。

包含此论文的收藏集 0

暂无收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从本页链接至此。

相似文章

LLMs 并非你所认为的黑箱

Hacker News Top

一篇总结 Anthropic 2025 年关于机制可解释性论文的文章,表明 LLM 并非黑箱,电路追踪可以揭示多步推理和人类可识别的概念。

信念还是电路?上下文图学习的因果证据

arXiv cs.AI

本文使用主成分分析(PCA)和激活补丁等机制可解释性方法,在一个图随机游走任务上探究了大型语言模型是通过潜在结构推断还是局部模式匹配来进行上下文学习。

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

Hugging Face Daily Papers

CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。