真实场景下的对比归因:针对现实基准中大模型失效的可解释性分析
摘要
研究者采用基于LRP的对比归因方法,分析大模型在现实基准中失败的原因,发现该方法在某些场景下能提供有用信号,但并非始终可靠。
查看缓存全文
缓存时间: 2026/04/22 06:17
论文页面 - 对比归因实战:在真实评测集上解释大模型失效
来源:https://huggingface.co/papers/2604.17761
发布时间:4月20日
·
提交者:https://huggingface.co/rongyuan
tan (https://huggingface.co/rongyuan) 于4月22日
摘要
用于分析大语言模型失效的对比归因方法在不同评测集和模型规模上表现不一。
可解释性工具越来越多地被用来分析大语言模型(LLM)的失效,但先前研究多聚焦于短提示或玩具场景,对常用评测集上的行为缺乏探索。为填补这一空白,我们研究基于 LRP 的对比归因作为分析真实场景 LLM 失效的实用工具。我们将失效分析形式化为对比归因:把错误输出 token 与正确候选之间的 logit 差值归因到输入 token 及模型内部状态,并提出高效扩展,可为长上下文构建跨层归因图。利用该框架,我们在多个评测集上系统实验,比较不同数据集、模型规模和训练 checkpoint 的归因模式。结果表明,token 级对比归因在某些失效案例中能提供有用信号,但并非放之四海而皆准,凸显其在真实 LLM 失效分析中的价值与局限。代码开源地址:https://aka.ms/Debug-XAI
查看 arXiv 页面 (https://arxiv.org/abs/2604.17761)
查看 PDF (https://arxiv.org/pdf/2604.17761)
项目主页 (https://jzxycsjzy.github.io/Debug-XAI/)
GitHub (https://github.com/microsoft/Debug-XAI)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2604.17761)
在智能体中阅读该论文:
hf papers read 2604.17761
尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型引用该论文
在模型 README.md 中引用 arxiv.org/abs/2604.17761,即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集引用该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.17761,即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 引用该论文
在 Space README.md 中引用 arxiv.org/abs/2604.17761,即可在此页面显示链接。
收录该论文的合集 0
暂无合集收录该论文
将该论文添加到合集,即可在此页面显示链接。
相似文章
基于不同微调策略和模型规模的LLM归因分析在自动代码合规性检查中的应用
本文使用基于扰动的归因分析方法,分析了不同微调策略(全量微调、LoRA、量化LoRA)和模型规模对LLM在自动代码合规性任务中解释行为的影响。研究发现全量微调产生的归因模式比参数高效方法更集中,而较大的模型会形成特定的解释策略,但性能收益在超过7B参数后出现递减。
长上下文LLM中的位置失败:推理基准测试的盲点
本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。
从自信地宣告完成到悄然失败:描述LLM智能体中的虚假成功
本文描述了LLM智能体中的“虚假成功”现象,即智能体声称任务已完成,但环境状态显示并非如此。研究发现,在多个基准测试中,虚假成功占失败的45%-75%。LLM评判器无法可靠检测到这一现象,而轻量级TF-IDF检测器能以更低延迟实现高AUROC,提示生产监控应使用校准检测器而非LLM评判器。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
LLM归因指标能否迁移?跨数据集与构念的检索增强生成评估审计
本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计,发现同一构念内没有单一指标能在数据集间迁移,挑战了将它们视为可互换的常见做法。