真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

Hugging Face Daily Papers 2026/04/20 00:00 论文

摘要

研究者采用基于LRP的对比归因方法，分析大模型在现实基准中失败的原因，发现该方法在某些场景下能提供有用信号，但并非始终可靠。

可解释性工具越来越多地被用于分析大语言模型（LLM）的失效，但此前研究大多聚焦于短提示或玩具场景，导致其在常用基准上的表现仍缺乏探索。为填补这一空白，我们将基于LRP的对比归因作为实用工具，研究其在现实场景下分析LLM失效的能力。我们把失效分析建模为对比归因：将错误输出token与正确候选之间的logit差异归因到输入token及模型内部状态，并提出一种高效扩展，可为长上下文输入构建跨层归因图。在该框架下，我们系统地在多个基准上开展实证研究，比较不同数据集、模型规模和训练检查点下的归因模式。结果表明，这种token级对比归因在某些失效案例中能提供有用信号，但并非普适适用，凸显了其在现实LLM失效分析中的价值与局限。代码地址：https://aka.ms/Debug-XAI。

查看原文

查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - 对比归因实战：在真实评测集上解释大模型失效

来源：https://huggingface.co/papers/2604.17761
发布时间：4月20日

提交者：https://huggingface.co/rongyuan

tan (https://huggingface.co/rongyuan) 于4月22日

摘要

用于分析大语言模型失效的对比归因方法在不同评测集和模型规模上表现不一。

可解释性工具越来越多地被用来分析大语言模型（LLM）的失效，但先前研究多聚焦于短提示或玩具场景，对常用评测集上的行为缺乏探索。为填补这一空白，我们研究基于 LRP 的对比归因作为分析真实场景 LLM 失效的实用工具。我们将失效分析形式化为对比归因：把错误输出 token 与正确候选之间的 logit 差值归因到输入 token 及模型内部状态，并提出高效扩展，可为长上下文构建跨层归因图。利用该框架，我们在多个评测集上系统实验，比较不同数据集、模型规模和训练 checkpoint 的归因模式。结果表明，token 级对比归因在某些失效案例中能提供有用信号，但并非放之四海而皆准，凸显其在真实 LLM 失效分析中的价值与局限。代码开源地址：https://aka.ms/Debug-XAI

查看 arXiv 页面 (https://arxiv.org/abs/2604.17761)
查看 PDF (https://arxiv.org/pdf/2604.17761)
项目主页 (https://jzxycsjzy.github.io/Debug-XAI/)
GitHub (https://github.com/microsoft/Debug-XAI)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17761)

在智能体中阅读该论文：

hf papers read 2604.17761

尚未安装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.17761，即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17761，即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.17761，即可在此页面显示链接。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到合集，即可在此页面显示链接。

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

论文页面 - 对比归因实战：在真实评测集上解释大模型失效

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 0

相似文章

基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用

长上下文LLM中的位置失败：推理基准测试的盲点

从自信地宣告完成到悄然失败：描述LLM智能体中的虚假成功

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

LLM归因指标能否迁移？跨数据集与构念的检索增强生成评估审计

提交意见反馈