CiteVQA: 面向可信文档智能的证据归因基准测试

Hugging Face Daily Papers 2026/05/13 00:00 论文

摘要

CiteVQA 是一个面向文档视觉-语言模型的基准，它同时评估答案正确性与支持证据的引用，揭示了广泛的归因幻觉现象，即模型提供正确答案但引用错误区域。

多模态大语言模型（MLLMs）显著推进了文档理解，但当前的文档视觉问答（Doc-VQA）评估仅对最终答案进行评分，而未检查支持证据。这种仅关注答案的方法掩盖了一个关键的失败模式：模型可能得出正确答案，却将其基于错误的段落——这在法律、金融和医学等高风险领域尤为危险，因为这些领域的每个结论都必须可追溯至特定来源区域。为解决这一问题，我们提出了 CiteVQA，这是一个要求模型在提供答案的同时返回元素级边界框引用的基准，并对两者进行联合评估。CiteVQA 包含 711 个 PDF 文档中的 1,897 个问题，涵盖七个领域和两种语言，每个文档平均 40.6 页。为确保真实性和可扩展性，真实引用通过自动化流水线生成（该流水线通过掩码消融识别关键证据），随后由专家评审验证。我们评估的核心是严格归因准确率（Strict Attributed Accuracy, SAA），仅当答案和引用区域都正确时才给予评分。对 20 个 MLLMs 的审计揭示了普遍存在的“归因幻觉”：模型经常给出正确答案但引用错误区域。最强的系统（Gemini-3.1-Pro-Preview）的 SAA 仅为 76.0，而最强的开源 MLLM 仅达到 22.5。最终，为了走向可信文档智能，CiteVQA 揭示了仅答案评估所忽视的可靠性差距，并提供了弥补这一差距所需的工具。我们的代码仓库位于 https://github.com/opendatalab/CiteVQA。

查看原文

查看缓存全文

缓存时间: 2026/05/18 10:25

论文页面 - CiteVQA：面向可信文档智能的证据归因基准测试

来源：https://huggingface.co/papers/2605.12882
发布于 5 月 13 日

由https://huggingface.co/zr-wang

Wang (https://huggingface.co/zr-wang) 于 5 月 18 日提交

作者：

摘要

CiteVQA 引入了一个针对文档视觉语言模型的基准测试，该基准不仅评估答案的准确性，还评估支持证据的正确引用，揭示了当前模型中存在显著的归因幻觉。

多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models) (MLLMs) 极大地推动了文档理解 (https://huggingface.co/papers?q=document%20understanding) 的发展，然而当前的 Doc-VQA (https://huggingface.co/papers?q=Doc-VQA) 评估只对最终答案打分，而对支持证据不加检查。这种仅关注答案的方式掩盖了一个关键的失败模式：模型可能给出正确答案，但其依据却是错误的段落——这在法律、金融和医学等高风险领域尤为关键，因为这些领域的每个结论都必须可追溯到具体的来源区域。为了解决这一问题，我们引入了 CiteVQA，这是一个要求模型在给出答案的同时返回元素级边界框引用 (https://huggingface.co/papers?q=bounding-box%20citations) 的基准测试，并对两者进行联合评估。CiteVQA 包含跨七个领域和两种语言的 711 篇 PDF 文档共计 1,897 个问题，每份文档平均 40.6 页。为确保真实性和可扩展性，地面真值引用由一条自动化流水线生成——该流水线通过掩码消融 (https://huggingface.co/papers?q=masking%20ablation) 识别关键证据——随后经由专家审核 (https://huggingface.co/papers?q=expert%20review) 验证。我们评估的核心是严格归因准确性 (https://huggingface.co/papers?q=Strict%20Attributed%20Accuracy) (SAA)，只有当答案和引用的区域都正确时才给予评分。对 20 个 MLLM 的审计揭示了一种普遍的归因幻觉 (https://huggingface.co/papers?q=Attribution%20Hallucination)：模型常常给出正确答案，但引用的却是错误区域。最强系统 (Gemini-3.1-Pro-Preview) 的 SAA 仅为 76.0，而最强的开源 MLLM 仅达到 22.5。最终，为了实现可信的文档智能，CiteVQA 暴露了仅评估答案的方法所忽视的可靠性差距，并提供了缩小这一差距所需的工具。我们的仓库位于 https://github.com/opendatalab/CiteVQA。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12882)
查看 PDF (https://arxiv.org/pdf/2605.12882)
项目页面 (https://huggingface.co/datasets/opendatalab/CiteVQA)
GitHub53 (https://github.com/opendatalab/CiteVQA)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12882)

在您的智能体中获取此论文：

hf papers read 2605.12882

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.12882 以从该页面链接。

引用该论文的数据集 1

opendatalab/CiteVQA 查看器 • 更新于 4 天前 • 1.9k • 238 • 5 (https://huggingface.co/datasets/opendatalab/CiteVQA)

引用该论文的 Spaces 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.12882 以从该页面链接。

包含该论文的收藏 0

没有收藏包含此论文

请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中以从该页面链接。

CiteVQA: 面向可信文档智能的证据归因基准测试

论文页面 - CiteVQA：面向可信文档智能的证据归因基准测试

摘要

引用该论文的模型 0

引用该论文的数据集 1

opendatalab/CiteVQA 查看器 • 更新于 4 天前 • 1.9k • 238 • 5 (https://huggingface.co/datasets/opendatalab/CiteVQA)

引用该论文的 Spaces 0

包含该论文的收藏 0

相似文章

DocScope：用于值得信赖的长文档理解的可靠推理基准测试

通过结构化内联引用生成实现显式证据溯源

SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准

有源可查，否则未曾发生：一种用于检测引用幻觉的多智能体框架

@HuggingPapers: 本周 Hugging Face Daily Papers 上获赞最多的论文 - CiteVQA: 为可信文档智能评估证据归因…

提交意见反馈