CiteVQA: 面向可信文档智能的证据归因基准测试
摘要
CiteVQA 是一个面向文档视觉-语言模型的基准,它同时评估答案正确性与支持证据的引用,揭示了广泛的归因幻觉现象,即模型提供正确答案但引用错误区域。
查看缓存全文
缓存时间: 2026/05/18 10:25
论文页面 - CiteVQA:面向可信文档智能的证据归因基准测试
来源:https://huggingface.co/papers/2605.12882
发布于 5 月 13 日
·
由https://huggingface.co/zr-wang
Wang (https://huggingface.co/zr-wang) 于 5 月 18 日提交
作者:
,
,
,
,
,
,
,
,
,
摘要
CiteVQA 引入了一个针对文档视觉语言模型的基准测试,该基准不仅评估答案的准确性,还评估支持证据的正确引用,揭示了当前模型中存在显著的归因幻觉。
多模态大语言模型 (https://huggingface.co/papers?q=Multimodal%20Large%20Language%20Models) (MLLMs) 极大地推动了文档理解 (https://huggingface.co/papers?q=document%20understanding) 的发展,然而当前的 Doc-VQA (https://huggingface.co/papers?q=Doc-VQA) 评估只对最终答案打分,而对支持证据不加检查。这种仅关注答案的方式掩盖了一个关键的失败模式:模型可能给出正确答案,但其依据却是错误的段落——这在法律、金融和医学等高风险领域尤为关键,因为这些领域的每个结论都必须可追溯到具体的来源区域。为了解决这一问题,我们引入了 CiteVQA,这是一个要求模型在给出答案的同时返回元素级边界框引用 (https://huggingface.co/papers?q=bounding-box%20citations) 的基准测试,并对两者进行联合评估。CiteVQA 包含跨七个领域和两种语言的 711 篇 PDF 文档共计 1,897 个问题,每份文档平均 40.6 页。为确保真实性和可扩展性,地面真值引用由一条自动化流水线生成——该流水线通过掩码消融 (https://huggingface.co/papers?q=masking%20ablation) 识别关键证据——随后经由专家审核 (https://huggingface.co/papers?q=expert%20review) 验证。我们评估的核心是严格归因准确性 (https://huggingface.co/papers?q=Strict%20Attributed%20Accuracy) (SAA),只有当答案和引用的区域都正确时才给予评分。对 20 个 MLLM 的审计揭示了一种普遍的归因幻觉 (https://huggingface.co/papers?q=Attribution%20Hallucination):模型常常给出正确答案,但引用的却是错误区域。最强系统 (Gemini-3.1-Pro-Preview) 的 SAA 仅为 76.0,而最强的开源 MLLM 仅达到 22.5。最终,为了实现可信的文档智能,CiteVQA 暴露了仅评估答案的方法所忽视的可靠性差距,并提供了缩小这一差距所需的工具。我们的仓库位于 https://github.com/opendatalab/CiteVQA。
查看 arXiv 页面 (https://arxiv.org/abs/2605.12882)
查看 PDF (https://arxiv.org/pdf/2605.12882)
项目页面 (https://huggingface.co/datasets/opendatalab/CiteVQA)
GitHub53 (https://github.com/opendatalab/CiteVQA)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12882)
在您的智能体中获取此论文:
hf papers read 2605.12882
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.12882 以从该页面链接。
引用该论文的数据集 1
opendatalab/CiteVQA 查看器 • 更新于 4 天前 • 1.9k • 238 • 5 (https://huggingface.co/datasets/opendatalab/CiteVQA)
引用该论文的 Spaces 0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.12882 以从该页面链接。
包含该论文的收藏 0
没有收藏包含此论文
请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中以从该页面链接。
相似文章
DocScope:用于值得信赖的长文档理解的可靠推理基准测试
DocScope 是一个新的基准测试,旨在评估多模态大语言模型在长文档上的可靠推理能力和可信度,引入了包含页面定位、区域定位、事实提取和答案验证四个阶段的评估协议。
通过结构化内联引用生成实现显式证据溯源
本文介绍了 FullCite,一个用于生成结构化内联引用的框架,该框架能将每个声明同时链接到其源文档和具体的证据跨度。在三个问答基准(ASQA、BioASQ、ExpertQA)上评估后发现,虽然 LLM 在文档级归因方面表现良好,但在精确的证据跨度识别上仍有困难。
SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准
SuperMemory-VQA 是一个新的自我中心VQA基准,包含52.9小时AI眼镜录像和4,853个问答对,旨在评估AI助手在长期记忆任务上的表现,涵盖物体回忆、意图、时间线和对话。基准测试显示,现有的智能体框架和大型语言模型在这些真实世界的记忆挑战上仍远未达到可靠水平。
有源可查,否则未曾发生:一种用于检测引用幻觉的多智能体框架
本文介绍了 CiteTracer,这是一个用于检测大语言模型(LLM)生成的科学写作中引用幻觉的多智能体框架,在合成和真实世界基准上均实现了高精度。
@HuggingPapers: 本周 Hugging Face Daily Papers 上获赞最多的论文 - CiteVQA: 为可信文档智能评估证据归因…
每周综述,介绍 Hugging Face Daily Papers 上获赞最多的论文,涵盖证据归因、代码代理、强化学习及多模态大语言模型等主题。