MultAttnAttrib: 长文档问答中的免训练多模态归因

arXiv cs.CL 2026/07/03 04:00 论文

multimodal attribution question-answering long-document training-free attention benchmark

摘要

介绍 MultAttnAttrib，一种用于长文档问答中多模态归因的免训练方法，以及 MultAttrEval 基准测试。它优于基于提示的方法，并与 GPT-5.4 等前沿模型相当。

arXiv:2607.01420v1 Announce Type: new 摘要：随着基于事实的问答系统越来越多地部署在AI助手中，准确地将生成的答案归因于证据对于用户信任和模型安全至关重要。虽然单模态归因已被深入研究，但多模态场景仍然相对研究不足。为此，我们提出了 MultAttnAttrib，一种免训练的归因生成方法，它利用模型的预填充阶段、选定的注意力头和校准的阈值来定位文档中的源证据。为了建立该方法的基线结果，我们引入了 MultAttrEval，一个互补的基准数据集，其中包含基于多模态源文档的答案组件的细粒度真实归因。据我们所知，这是第一个专门为长文档中的多模态归因设计的评估数据集。实验结果表明，MultAttnAttrib 始终优于多种归因生成方法，包括几种强大的基于提示的方法，并与最新的前沿模型（如 GPT 5.4）相当。我们的方法不仅显著提高了单模态和多模态归因类型的归因准确性，而且与在相同基础模型上进行提示相比，其归因生成速度最多可快至直接推理延迟的七分之一。

查看原文

查看缓存全文

缓存时间: 2026/07/03 05:40

# 无需训练的多模态归因方法用于长文档问答
来源：https://arxiv.org/html/2607.01420
Dang Quang Thien Tran¹, Quang V. Dang¹\*, Vinamra Tyagi¹\*, Sai Soorya Rao Veeravalli¹\*, Trang Nguyen¹, Ryan A. Rossi², Franck Dernoncourt², Nedim Lipka², Koustava Goswami², Samyadeep Basu²

###### 摘要

随着基于证据的问答系统越来越多地部署在AI助手中，准确地将生成答案归因于证据对于用户信任和模型安全至关重要。虽然单模态归因已被深入研究，但多模态设置仍相对研究不足。为此，我们引入了MultAttnAttrib，一种无需训练的归因生成方法，该方法利用模型的预填充阶段、选定的注意力头和校准阈值来定位文档中的源证据。为了为该方法的基准结果建立基础，我们引入了MultAttrEval，这是一个互补的基准数据集，为基于多模态源文档的答案组件提供了细粒度的真实归因标注。据我们所知，这是第一个专门为长文档中多模态归因设计的评估数据集。实验结果表明，MultAttnAttrib在多种归因生成方法（包括几种强大的基于提示的方法）中持续取得更好性能，并且与最新的前沿模型（如GPT 5.4）相当。我们的方法不仅在单模态和多模态归因类型上都显著提高了归因准确性，而且与在同一基础模型上的提示方法相比，归因生成延迟可降至直接推理延迟的七分之一。

MultAttnAttrib：无需训练的多模态归因方法用于长文档问答

Dang Quang Thien Tran¹††感谢：同等贡献。Quang V. Dang¹\*, Vinamra Tyagi¹\*, Sai Soorya Rao Veeravalli¹\*, Trang Nguyen¹, Ryan A. Rossi², Franck Dernoncourt², Nedim Lipka², Koustava Goswami², Samyadeep Basu²

## 1 引言

在企业和消费者环境中，建立用户对AI系统的信任对于代理工作流的成功至关重要。在许多场景中，用户无法在不验证其来源和有效性的情况下安全地基于生成的答案采取行动——即使是现代生成系统，其生成的陈述中也有超过52%无法得到准确引用的完全支持（Liu等人，2023（https://arxiv.org/html/2607.01420#bib.bib32））。因此，通过**归因**（将每个答案组件定位到其支持证据）来实现模型基础已成为模型部署的基本要求，尤其是在医学等领域，无依据或幻觉性的答案可能造成实际负面影响（Kim等人，2025（https://arxiv.org/html/2607.01420#bib.bib11））。

已经有越来越多的努力使用归因来将文档问答对进行基础化，尽管大多数集中在纯文本或其他单模态设置上。当前的方法通常依赖于引用式生成（Bohnet等人，2022（https://arxiv.org/html/2607.01420#bib.bib3）；Gao等人，2023b（https://arxiv.org/html/2607.01420#bib.bib7）；Berchansky等人，2024（https://arxiv.org/html/2607.01420#bib.bib17））、检索头或电路隔离（Basu等人，2025（https://arxiv.org/html/2607.01420#bib.bib10）），或基于分解的归因方法（Ramu等人，2024（https://arxiv.org/html/2607.01420#bib.bib38）；Balasubramanian等人，2026（https://arxiv.org/html/2607.01420#bib.bib39）），这些迄今为止仅在文本中被探索。然而，真实文档将文本与图像、图表和其他光栅内容交织在一起。因此，一个健壮的归因系统不仅需要识别正确的来源，还需要识别支持性的模态或模态组合。

多模态长文档设置仍然相对处于早期阶段，现有的方法大多将归因框架化为从预检索的段落或图像中选择引用，而不是在单个全长文档中进行细粒度的定位（Ma等人，2025（https://arxiv.org/html/2607.01420#bib.bib20）；Qi等人，2024（https://arxiv.org/html/2607.01420#bib.bib19）；Song等人，2026（https://arxiv.org/html/2607.01420#bib.bib23））。多模态归因中产生了一系列单模态情况下不存在的独特挑战：既要确定正确的模态（或多种模态），又要确定其中的正确来源。解决文本和图像如何共同支持单个归因的问题仍然是一个具有显著下游潜力的开放问题。

为了应对这一关键挑战，我们提出了MultAttnAttrib，一种无需训练的多模态归因方法，该方法利用模型预填充阶段的注意力模式来定位长交错文档中的支持证据。我们的方法识别出一组检索头，这些头在多种模态中一致地关注真实证据，聚合其注意力信号以联合评分文本跨度和图像区域，并应用轻量级校准过程在单次推理中生成模态感知的引用。与基于提示的归因方法不同，MultAttnAttrib避免了迭代生成和额外的推理开销，显著降低了推理成本，同时提高了归因质量。

由于现有基准不足以评估长文档中的细粒度多模态归因，我们还引入了MultAttrEval，这是一个涵盖五个领域的互补评估基准，涵盖了单模态和多模态归因设置。利用MultAttrEval，我们评估了广泛的归因基线方法，包括基于提示、基于字幕和基于检索增强的方法，对开源和前沿MLLM（多模态大语言模型）同时进行。

我们的结果揭示了多模态归因与单模态归因性能之间的显著差距，证实了多模态归因的独特难度。尽管存在这一挑战，MultAttnAttrib在Qwen3-VL-30B和一个前沿模型上都持续优于大多数强基线方法，同时通过直接从预填充阶段提取归因，将推理延迟降低至约14%，并将每个QA实例的峰值内存使用量减少约15GB（非vLLM）。

总之，我们的贡献如下：

- • MultAttnAttrib：一种无需训练的多模态归因方法，能够在单次推理中高效生成模态感知的引用。
- • MultAttrEval：一个互补的基准，用于跨五个领域的长文档中细粒度多模态归因。
- • 大量实验表明，MultAttnAttrib在原始开源MLLM骨干网络上持续优于强提示、字幕和基于RAG的基线方法，同时实现更低的延迟。

## 2 相关工作

### 2.1 关于多模态输入的归因

语言模型输出的可解释性已推动了对引用和归因生成文本的大量工作，主要分为三大类。第一类通过对模型进行微调，使其输出中穿插引用，基于Attributed QA（Bohnet等人，2022（https://arxiv.org/html/2607.01420#bib.bib3））、ALCE基准（Gao等人，2023b（https://arxiv.org/html/2607.01420#bib.bib7））和基于训练的引用生成方法（Aly等人，2024（https://arxiv.org/html/2607.01420#bib.bib25）；Asai等人，2024（https://arxiv.org/html/2607.01420#bib.bib28）；Huang等人，2024（https://arxiv.org/html/2607.01420#bib.bib31））。第二类通过后处理输出（使用外部检索器、NLI验证器或LLM评判器）将归因与生成分离（Gao等人，2023a（https://arxiv.org/html/2607.01420#bib.bib29）；Qian等人，2025（https://arxiv.org/html/2607.01420#bib.bib40））。第三类直接从模型的计算中恢复归因：通过跨头聚合注意力信号（Basu等人，2025（https://arxiv.org/html/2607.01420#bib.bib10）；Wang等人，2025（https://arxiv.org/html/2607.01420#bib.bib33））或通过显著性图或中间激活读取内部信号（Qi等人，2024（https://arxiv.org/html/2607.01420#bib.bib19）；Phukan等人，2024（https://arxiv.org/html/2607.01420#bib.bib37），2025（https://arxiv.org/html/2607.01420#bib.bib14）），或通过系统性的上下文消融探测模型（Cohen-Wang等人，2024（https://arxiv.org/html/2607.01420#bib.bib18））。我们的方法属于第三类。

### 2.2 多模态归因的数据集

评估多模态归因需要能够对完整多模态文档进行证据定位的基准。现有基准如MCiteBench（Hu等人，2025（https://arxiv.org/html/2607.01420#bib.bib21））、MMDocRAG（Dong等人，2026（https://arxiv.org/html/2607.01420#bib.bib22））和MAVIS（Song等人，2026（https://arxiv.org/html/2607.01420#bib.bib23））而是从预先策划的小型段落、图表或表格池中评估引用选择，将归因简化为离散候选选择而非真正的定位。类似地，SciClaimEval（Ho等人，2026（https://arxiv.org/html/2607.01420#bib.bib24））预先识别相关的图表或表格，仅评估跨模态的蕴含关系，完全回避了检索。这些设置并不反映部署条件，在部署中模型必须在长交错文档中定位支持证据。与此同时，MuRGAt（Wan等人，2026（https://arxiv.org/html/2607.01420#bib.bib26））也研究了无候选池的自由形式证据选择，但侧重于时间视频/音频归因和基于生成的方法。相比之下，我们的方法通过对静态多模态文档的注意力信号进行单次前向传播，直接提取引用。

## 3 MultAttnAttrib：一种无需训练的多模态归因方法

参考图1的说明：图1：MultAttnAttrib：我们识别每个注意力头的信号，然后过滤以选择跨模态头。然后我们校准阈值，以最大化MultAttrEval探测集上的F1分数。对于归因，我们使用前k个头生成注意力跨度，并使用我们校准的阈值返回最终结果。现有的归因方法通常可以归结为计算密集的LM微调以生成引用（Aly等人，2024（https://arxiv.org/html/2607.01420#bib.bib25）；Asai等人，2024（https://arxiv.org/html/2607.01420#bib.bib28）；Huang等人，2024（https://arxiv.org/html/2607.01420#bib.bib31）），或需要额外模型调用的多步骤方法（Gao等人，2023a（https://arxiv.org/html/2607.01420#bib.bib29）；Cohen-Wang等人，2024（https://arxiv.org/html/2607.01420#bib.bib18）；Slobodkin等人，2024（https://arxiv.org/html/2607.01420#bib.bib15））。机械可解释性提供了一种简化的替代方案：识别负责从上下文复制证据的稀疏注意力头子集，然后通过其注意力图在单次前向传播中进行归因（Basu等人，2025（https://arxiv.org/html/2607.01420#bib.bib10）；Wu等人，2025（https://arxiv.org/html/2607.01420#bib.bib13））。然而，这些方法侧重于纯文本问答，忽略了图像和多模态问答的归因。

将仅文本的检索头扩展到多模态抽取式问答会完全忽略视觉证据。我们发现，检索头在顶级排名中是模态特定的，但在更广泛的群体中大部分是共享的。这激发了MultAttnAttrib，一种标签监督的、无需训练的方法，它利用这一共享骨干网络，通过从一个小型探测集中识别跨模态检索头，并提取其注意力信号，在单次前向传播中同时评分图像槽和文本段落。

### 3.1 任务

我们研究**多模态归因**的问题。给定一个由文本和图像组成的文档、一个问题和一个答案，目标是将答案归因于文档中的支持证据。

设文档为D = (T, I)，其中T = (t₁, t₂, ..., t|T|)是一个文本标记序列，I = {I₁, I₂, ..., I|I|}是文档中的一组图像。一个文本跨度定义为一个连续的子序列T_{i:j} = (t_i, t_{i+1}, ..., t_j)，其中1 ≤ i ≤ j ≤ |T|。

给定一个问题q，系统生成一个答案a，该答案被归因于以下证据类型之一：一个文本跨度T_{i:j}，一组图像I* ⊆ I，或一个联合文本-图像集对(T_{i:j}, I*)。我们将归因空间定义为A = {T_{i:j}} ∪ {I*} ∪ {(T_{i:j}, I*)}。多模态归因任务是学习一个函数f: (q, D, a) → α̂，其中α̂ ∈ A是预测的归因。

给定一个数据集{(D, q, a, α*)}，其中α* ∈ A是真实归因，目标是将每个答案正确归因于多模态上下文中提供的支持证据。

### 3.2 头识别

为了识别多模态和图像检索头，我们需要一种对单模态和多模态证据都敏感的评分方法。先前的方法，如平均复制-粘贴频率（Wu等人，2025（https://arxiv.org/html/2607.01420#bib.bib13））和路径修补（Basu等人，2025（https://arxiv.org/html/2607.01420#bib.bib10）；Wang等人，2022（https://arxiv.org/html/2607.01420#bib.bib36）），要么是相关性的，要么在大规模上代价过高。为了解决这个问题，我们针对两种方法测试了检索头隔离：因果中介分析（CMA）和平均注意力评分（MAS）。根据测试结果（更多细节见第6.3节（https://arxiv.org/html/2607.01420#S6.SS3）），MultAttnAttrib使用CMA对所有头相对于标注的多模态探测进行评分。关于这两种方法的详细信息如下：

##### MAS 每个探测只需要一次前向传播。

头的评分通过平均注意力到真实位置G_i的比率除以整个文档D_i上的总注意力来度量。这衡量了头选择性地关注证据而非干扰物的程度。这比CMA（下文讨论）更便宜，但属于相关性，缺乏因果有效性（那些恰好集中在真实区域上的头无论是否实际上因果性地中介检索都会获得高分）。

##### 将CMA适配于检索头识别

每个探测仅需两次前向传播：一次在原始输入x_i上的干净传播，另一次在证据被替换为来自另一个文档的内容的污染传播。虽然先前的CMA工作侧重于文本（Basu等人，2025（https://arxiv.org/html/2607.01420#bib.bib10）），但这种污染策略是多模态的。真实文本标记被替换为来自另一个探测文档的等长连续跨度，以保持序列结构。污染图像被调整为真实图像的尺寸，以保持补丁网格。这确保了干净和污染输入具有相同的形状，从而隔离了因果效应。

每个头(l, h)的间接效应（IE）由干净和污染输入之间对真实位置G_i的平均注意力之差表示，并对查询标记Q_i（由答案和问题标记组成，不含...）进行平均。

MultAttnAttrib: 长文档问答中的免训练多模态归因

相似文章

使用探针目标归因定位大型语言模型中的提示模糊性

MARDoc：面向多模态长文档问答的记忆感知精炼代理框架

AMATA：面向知识密集型问答的自适应多智能体轨迹对齐框架

归因合同：生成式语言模型中的特征归因

每个多模态证据一个Token：面向资源受限问答的Latent Memory

提交意见反馈