CiteVQA: 面向可信文档智能的证据归因基准测试

Hugging Face Daily Papers 论文

摘要

CiteVQA 是一个面向文档视觉-语言模型的基准,它同时评估答案正确性与支持证据的引用,揭示了广泛的归因幻觉现象,即模型提供正确答案但引用错误区域。

多模态大语言模型(MLLMs)显著推进了文档理解,但当前的文档视觉问答(Doc-VQA)评估仅对最终答案进行评分,而未检查支持证据。这种仅关注答案的方法掩盖了一个关键的失败模式:模型可能得出正确答案,却将其基于错误的段落——这在法律、金融和医学等高风险领域尤为危险,因为这些领域的每个结论都必须可追溯至特定来源区域。为解决这一问题,我们提出了 CiteVQA,这是一个要求模型在提供答案的同时返回元素级边界框引用的基准,并对两者进行联合评估。CiteVQA 包含 711 个 PDF 文档中的 1,897 个问题,涵盖七个领域和两种语言,每个文档平均 40.6 页。为确保真实性和可扩展性,真实引用通过自动化流水线生成(该流水线通过掩码消融识别关键证据),随后由专家评审验证。我们评估的核心是严格归因准确率(Strict Attributed Accuracy, SAA),仅当答案和引用区域都正确时才给予评分。对 20 个 MLLMs 的审计揭示了普遍存在的“归因幻觉”:模型经常给出正确答案但引用错误区域。最强的系统(Gemini-3.1-Pro-Preview)的 SAA 仅为 76.0,而最强的开源 MLLM 仅达到 22.5。最终,为了走向可信文档智能,CiteVQA 揭示了仅答案评估所忽视的可靠性差距,并提供了弥补这一差距所需的工具。我们的代码仓库位于 https://github.com/opendatalab/CiteVQA。
查看原文
查看缓存全文

缓存时间: 2026/05/18 10:25

论文页面 - CiteVQA:面向可信文档智能的证据归因基准测试

来源:https://huggingface.co/papers/2605.12882
发布于 5 月 13 日

·

由https://huggingface.co/zr-wang

Wang (https://huggingface.co/zr-wang) 于 5 月 18 日提交

作者:

,

,

,

,

,

,

,

,

,

摘要

CiteVQA 引入了一个针对文档视觉语言模型的基准测试,该基准不仅评估答案的准确性,还评估支持证据的正确引用,揭示了当前模型中存在显著的归因幻觉。

多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models) (MLLMs) 极大地推动了文档理解 (https://huggingface.co/papers?q=document%20understanding) 的发展,然而当前的 Doc-VQA (https://huggingface.co/papers?q=Doc-VQA) 评估只对最终答案打分,而对支持证据不加检查。这种仅关注答案的方式掩盖了一个关键的失败模式:模型可能给出正确答案,但其依据却是错误的段落——这在法律、金融和医学等高风险领域尤为关键,因为这些领域的每个结论都必须可追溯到具体的来源区域。为了解决这一问题,我们引入了 CiteVQA,这是一个要求模型在给出答案的同时返回元素级边界框引用 (https://huggingface.co/papers?q=bounding-box%20citations) 的基准测试,并对两者进行联合评估。CiteVQA 包含跨七个领域和两种语言的 711 篇 PDF 文档共计 1,897 个问题,每份文档平均 40.6 页。为确保真实性和可扩展性,地面真值引用由一条自动化流水线生成——该流水线通过掩码消融 (https://huggingface.co/papers?q=masking%20ablation) 识别关键证据——随后经由专家审核 (https://huggingface.co/papers?q=expert%20review) 验证。我们评估的核心是严格归因准确性 (https://huggingface.co/papers?q=Strict%20Attributed%20Accuracy) (SAA),只有当答案和引用的区域都正确时才给予评分。对 20 个 MLLM 的审计揭示了一种普遍的归因幻觉 (https://huggingface.co/papers?q=Attribution%20Hallucination):模型常常给出正确答案,但引用的却是错误区域。最强系统 (Gemini-3.1-Pro-Preview) 的 SAA 仅为 76.0,而最强的开源 MLLM 仅达到 22.5。最终,为了实现可信的文档智能,CiteVQA 暴露了仅评估答案的方法所忽视的可靠性差距,并提供了缩小这一差距所需的工具。我们的仓库位于 https://github.com/opendatalab/CiteVQA。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12882)
查看 PDF (https://arxiv.org/pdf/2605.12882)
项目页面 (https://huggingface.co/datasets/opendatalab/CiteVQA)
GitHub53 (https://github.com/opendatalab/CiteVQA)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12882)

在您的智能体中获取此论文:

hf papers read 2605.12882

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.12882 以从该页面链接。

引用该论文的数据集 1

opendatalab/CiteVQA 查看器 • 更新于 4 天前 • 1.9k • 238 • 5 (https://huggingface.co/datasets/opendatalab/CiteVQA)

引用该论文的 Spaces 0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.12882 以从该页面链接。

包含该论文的收藏 0

没有收藏包含此论文

请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中以从该页面链接。

相似文章

通过结构化内联引用生成实现显式证据溯源

arXiv cs.CL

本文介绍了 FullCite,一个用于生成结构化内联引用的框架,该框架能将每个声明同时链接到其源文档和具体的证据跨度。在三个问答基准(ASQA、BioASQ、ExpertQA)上评估后发现,虽然 LLM 在文档级归因方面表现良好,但在精确的证据跨度识别上仍有困难。

SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准

Hugging Face Daily Papers

SuperMemory-VQA 是一个新的自我中心VQA基准,包含52.9小时AI眼镜录像和4,853个问答对,旨在评估AI助手在长期记忆任务上的表现,涵盖物体回忆、意图、时间线和对话。基准测试显示,现有的智能体框架和大型语言模型在这些真实世界的记忆挑战上仍远未达到可靠水平。