HakushoBench:来自政府白皮书的日语图表和表格VQA基准

Hugging Face Daily Papers 论文

摘要

HakushoBench是一个基于政府白皮书构建的日语图表和表格VQA基准,用于评估视觉语言模型对复杂视觉数据的理解能力。该基准对开源权重模型具有挑战性,最佳准确率仅为58.6%,与专有模型之间相差34.9个百分点。

理解图表和表格图像对于将视觉语言模型(VLM)应用于真实世界的文档理解至关重要。虽然英文基准发展迅速,但非英文基准仍然稀缺,尚不清楚这种进展是否能跨语言泛化。一个主要障碍是难以大规模收集真实且多样化的非英文图表和表格图像。为了解决这个问题,我们利用政府白皮书作为超越英语的基准构建的可扩展来源,因为它们包含跨多种格式和领域的自然出现的图表和表格,并且在许多国家免费可获取。作为首次实例化,我们推出了HakushoBench,这是一个基于33份政府白皮书构建的具有挑战性的日语图表和表格VQA基准。HakushoBench包含2,053张图像,涵盖10种以上图像类型,带有手动标注的问答对,旨在评估对图表和表格的深入和整体理解,而不仅仅是局部视觉线索。在广泛的VLM上进行的实验表明,HakushoBench对开源权重模型仍然具有挑战性:最佳开源模型仅达到58.6%的准确率,开源权重与专有模型之间34.9个百分点的差距凸显了在复杂图表和表格理解方面仍有很大的改进空间。我们发布了数据集和代码。
查看原文
查看缓存全文

缓存时间: 2026/06/02 03:23

论文页面 - HakushoBench:基于政府白皮书的日语图表与表格VQA基准

来源:https://huggingface.co/papers/2606.01132

摘要

研究人员创建了 HakushoBench,这是一个从政府文件中提取的日语图表与表格视觉问答基准,旨在评估视觉语言模型在理解复杂视觉数据方面的能力,其数据范围超越了英语数据集。

理解图表与表格图像对于将视觉语言模型(https://huggingface.co/papers?q=vision-language%20models)(VLM) 应用于真实的文档理解场景至关重要。尽管英语基准测试(https://huggingface.co/papers?q=benchmark)发展迅速,但非英语的同类基准仍然匮乏,导致我们不清楚这种进步是否能跨语言泛化。一个主要障碍是难以大规模收集真实且多样化的非英语图表和表格图像。为解决此问题,我们利用政府白皮书(https://huggingface.co/papers?q=governmental%20white%20papers)作为基准测试(https://huggingface.co/papers?q=benchmark)构建的可扩展数据源(超越英语),因为政府白皮书包含多种格式和领域内的自然图表与表格,并且在许多国家可以免费获取。作为首次实践,我们引入了 HakushoBench,这是一个具有挑战性的日语图表与表格 VQA 基准测试(https://huggingface.co/papers?q=benchmark),由 33 份政府白皮书(https://huggingface.co/papers?q=governmental%20white%20papers)构建而成。HakushoBench 包含 2,053 张图像,涵盖超过 10 种图像类型,并配有手动标注的问答对,旨在评估对图表和表格的深度与整体理解能力,而非仅依赖局部视觉线索。在多种 VLM 上的实验表明,HakushoBench 对于开源权重的模型仍具有挑战性:性能最佳的开源权重模型仅达到 58.6% 的准确率,而开源与专有模型之间 34.9 个百分点的差距凸显了复杂图表与表格理解(https://huggingface.co/papers?q=table%20understanding)方面仍有巨大的改进空间。我们已发布数据集和代码。

查看 arXiv 页面(https://arxiv.org/abs/2606.01132)查看 PDF(https://arxiv.org/pdf/2606.01132)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01132)

将本文添加到您的智能体中:

hf papers read 2606.01132

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型链接到此论文。

请在模型 README.md 中引用 arxiv.org/abs/2606.01132,以便在此页面显示链接。

引用该论文的数据集1

llm-jp/HakushoBench 查看器 • 更新于35分钟前 • 2.05k • 144 • 1 (https://huggingface.co/datasets/llm-jp/HakushoBench)

引用该论文的 Space0

没有 Space 链接到此论文。

请在 Space README.md 中引用 arxiv.org/abs/2606.01132,以便在此页面显示链接。

包含该论文的合集1

相似文章

ChartArena:跨语言、场景和格式的图表解析基准测试

Hugging Face Daily Papers

ChartArena是一个全面的双语图表解析基准,覆盖八个图表系列和三种视觉场景(数字、打印、手绘),使用人机协同标注流程和格式无关评估。对26个多模态大语言模型的评估显示,虽然专有模型整体领先,但开源模型正在追赶,而图示结构和手绘场景仍具挑战性。

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。