真实场景下的对比归因:针对现实基准中大模型失效的可解释性分析

Hugging Face Daily Papers 论文

摘要

研究者采用基于LRP的对比归因方法,分析大模型在现实基准中失败的原因,发现该方法在某些场景下能提供有用信号,但并非始终可靠。

可解释性工具越来越多地被用于分析大语言模型(LLM)的失效,但此前研究大多聚焦于短提示或玩具场景,导致其在常用基准上的表现仍缺乏探索。为填补这一空白,我们将基于LRP的对比归因作为实用工具,研究其在现实场景下分析LLM失效的能力。我们把失效分析建模为对比归因:将错误输出token与正确候选之间的logit差异归因到输入token及模型内部状态,并提出一种高效扩展,可为长上下文输入构建跨层归因图。在该框架下,我们系统地在多个基准上开展实证研究,比较不同数据集、模型规模和训练检查点下的归因模式。结果表明,这种token级对比归因在某些失效案例中能提供有用信号,但并非普适适用,凸显了其在现实LLM失效分析中的价值与局限。代码地址:https://aka.ms/Debug-XAI。
查看原文
查看缓存全文

缓存时间: 2026/04/22 06:17

论文页面 - 对比归因实战:在真实评测集上解释大模型失效

来源:https://huggingface.co/papers/2604.17761
发布时间:4月20日

·

提交者:https://huggingface.co/rongyuan

tan (https://huggingface.co/rongyuan) 于4月22日

摘要

用于分析大语言模型失效的对比归因方法在不同评测集和模型规模上表现不一。

可解释性工具越来越多地被用来分析大语言模型(LLM)的失效,但先前研究多聚焦于短提示或玩具场景,对常用评测集上的行为缺乏探索。为填补这一空白,我们研究基于 LRP 的对比归因作为分析真实场景 LLM 失效的实用工具。我们将失效分析形式化为对比归因:把错误输出 token 与正确候选之间的 logit 差值归因到输入 token 及模型内部状态,并提出高效扩展,可为长上下文构建跨层归因图。利用该框架,我们在多个评测集上系统实验,比较不同数据集、模型规模和训练 checkpoint 的归因模式。结果表明,token 级对比归因在某些失效案例中能提供有用信号,但并非放之四海而皆准,凸显其在真实 LLM 失效分析中的价值与局限。代码开源地址:https://aka.ms/Debug-XAI

查看 arXiv 页面 (https://arxiv.org/abs/2604.17761)
查看 PDF (https://arxiv.org/pdf/2604.17761)
项目主页 (https://jzxycsjzy.github.io/Debug-XAI/)
GitHub (https://github.com/microsoft/Debug-XAI)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17761)

在智能体中阅读该论文:

hf papers read 2604.17761

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用该论文

在模型 README.md 中引用 arxiv.org/abs/2604.17761,即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.17761,即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用该论文

在 Space README.md 中引用 arxiv.org/abs/2604.17761,即可在此页面显示链接。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到合集,即可在此页面显示链接。

相似文章

长上下文LLM中的位置失败:推理基准测试的盲点

arXiv cs.CL

本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。

从自信地宣告完成到悄然失败:描述LLM智能体中的虚假成功

arXiv cs.LG

本文描述了LLM智能体中的“虚假成功”现象,即智能体声称任务已完成,但环境状态显示并非如此。研究发现,在多个基准测试中,虚假成功占失败的45%-75%。LLM评判器无法可靠检测到这一现象,而轻量级TF-IDF检测器能以更低延迟实现高AUROC,提示生产监控应使用校准检测器而非LLM评判器。

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。