HakushoBench:来自政府白皮书的日语图表和表格VQA基准
摘要
HakushoBench是一个基于政府白皮书构建的日语图表和表格VQA基准,用于评估视觉语言模型对复杂视觉数据的理解能力。该基准对开源权重模型具有挑战性,最佳准确率仅为58.6%,与专有模型之间相差34.9个百分点。
查看缓存全文
缓存时间: 2026/06/02 03:23
论文页面 - HakushoBench:基于政府白皮书的日语图表与表格VQA基准
来源:https://huggingface.co/papers/2606.01132
摘要
研究人员创建了 HakushoBench,这是一个从政府文件中提取的日语图表与表格视觉问答基准,旨在评估视觉语言模型在理解复杂视觉数据方面的能力,其数据范围超越了英语数据集。
理解图表与表格图像对于将视觉语言模型(https://huggingface.co/papers?q=vision-language%20models)(VLM) 应用于真实的文档理解场景至关重要。尽管英语基准测试(https://huggingface.co/papers?q=benchmark)发展迅速,但非英语的同类基准仍然匮乏,导致我们不清楚这种进步是否能跨语言泛化。一个主要障碍是难以大规模收集真实且多样化的非英语图表和表格图像。为解决此问题,我们利用政府白皮书(https://huggingface.co/papers?q=governmental%20white%20papers)作为基准测试(https://huggingface.co/papers?q=benchmark)构建的可扩展数据源(超越英语),因为政府白皮书包含多种格式和领域内的自然图表与表格,并且在许多国家可以免费获取。作为首次实践,我们引入了 HakushoBench,这是一个具有挑战性的日语图表与表格 VQA 基准测试(https://huggingface.co/papers?q=benchmark),由 33 份政府白皮书(https://huggingface.co/papers?q=governmental%20white%20papers)构建而成。HakushoBench 包含 2,053 张图像,涵盖超过 10 种图像类型,并配有手动标注的问答对,旨在评估对图表和表格的深度与整体理解能力,而非仅依赖局部视觉线索。在多种 VLM 上的实验表明,HakushoBench 对于开源权重的模型仍具有挑战性:性能最佳的开源权重模型仅达到 58.6% 的准确率,而开源与专有模型之间 34.9 个百分点的差距凸显了复杂图表与表格理解(https://huggingface.co/papers?q=table%20understanding)方面仍有巨大的改进空间。我们已发布数据集和代码。
查看 arXiv 页面(https://arxiv.org/abs/2606.01132)查看 PDF(https://arxiv.org/pdf/2606.01132)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01132)
将本文添加到您的智能体中:
hf papers read 2606.01132
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
没有模型链接到此论文。
请在模型 README.md 中引用 arxiv.org/abs/2606.01132,以便在此页面显示链接。
引用该论文的数据集1
llm-jp/HakushoBench 查看器 • 更新于35分钟前 • 2.05k • 144 • 1 (https://huggingface.co/datasets/llm-jp/HakushoBench)
引用该论文的 Space0
没有 Space 链接到此论文。
请在 Space README.md 中引用 arxiv.org/abs/2606.01132,以便在此页面显示链接。
包含该论文的合集1
相似文章
@jerryjliu0:ParseBench 是首个在完整企业文档中评测 VLM 图表理解能力的基准
ParseBench 首次把图表理解放进整份企业文档中评测视觉-语言模型,填补了以往仅针对孤立图表的基准空白。
ChartArena:跨语言、场景和格式的图表解析基准测试
ChartArena是一个全面的双语图表解析基准,覆盖八个图表系列和三种视觉场景(数字、打印、手绘),使用人机协同标注流程和格式无关评估。对26个多模态大语言模型的评估显示,虽然专有模型整体领先,但开源模型正在追赶,而图示结构和手绘场景仍具挑战性。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
WildTableBench:在真实场景中评估多模态基础模型的表格理解能力
WildTableBench 提出了首个针对真实世界表格图像的问答应答基准,揭示了现有多模态基础模型在结构感知和数值推理方面存在显著困难,仅有1个模型准确率超过50%。
通过基准构建教授AI:QuestBench作为负责任知识工作的课程实践
本文介绍了QuestBench,这是一个由学生构建的基准,用于评估人文和社会科学领域的深度研究系统。结果显示,即使是像GPT-5.5这样的先进系统也只能通过57.58%的问题,突显了可信度方面的失败。