WildTableBench:在真实场景中评估多模态基础模型的表格理解能力
摘要
WildTableBench 提出了首个针对真实世界表格图像的问答应答基准,揭示了现有多模态基础模型在结构感知和数值推理方面存在显著困难,仅有1个模型准确率超过50%。
查看缓存全文
缓存时间: 2026/05/15 20:27
论文页面 - WildTableBench:野外表格理解的多模态基础模型基准测试
来源:https://huggingface.co/papers/2605.01018 发布于 5月1日
·
提交者https://huggingface.co/jzhuang
HJZ (https://huggingface.co/jzhuang) 于5月15日
摘要
WildTableBench 被引入作为首个面向真实世界表格图像的问答基准,揭示了现有多模态模型在结构感知和数值推理方面的显著挑战。
使用多模态基础模型 (https://huggingface.co/papers?q=multimodal%20foundation%20models) 分析表格图像 (https://huggingface.co/papers?q=table%20images) 在消费和企业场景中是一个高价值但具有挑战性的应用。尽管其重要性,当前的评估大多依赖于结构化文本表格或干净的渲染图像,忽视了现实世界中表格图像的视觉复杂性。此类图像具有多变的布局和多样的领域,需要复杂的结构感知 (https://huggingface.co/papers?q=structural%20perception) 和数值推理 (https://huggingface.co/papers?q=numerical%20reasoning)。为弥补这一差距,我们引入了 WildTableBench,这是首个针对自然发生的、来自真实世界环境表格图像的问答基准 (https://huggingface.co/papers?q=question-answering%20benchmark)。WildTableBench 包含从在线论坛和网站收集的 402 张高信息密度表格图像 (https://huggingface.co/papers?q=table%20images),涵盖多个领域,以及 928 个手动标注和验证的问题,分为 5 个类别下的 17 个子类型。我们在此基准上评估了 21 个前沿的商业和开源多模态基础模型 (https://huggingface.co/papers?q=multimodal%20foundation%20models)。只有一个模型准确率超过 50%,其余所有模型准确率在 4.1% 到 49.9% 之间。我们进一步进行了诊断分析,以表征模型失败模式,并揭示其在结构感知 (https://huggingface.co/papers?q=structural%20perception) 和推理方面的持续弱点。这些结果和分析为当前模型能力提供了有益的见解,并确立了 WildTableBench 作为表格图像理解方面有价值的诊断基准。
查看arXiv页面 (https://arxiv.org/abs/2605.01018) 查看PDF (https://arxiv.org/pdf/2605.01018) 项目页面 (https://huggingface.co/datasets/jzhuang/WildTableBench) GitHub0 (https://github.com/hjzhe/WildTableBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.01018)
引用此论文的模型0
没有模型链接此论文
在模型的 README.md 文件中引用 arxiv.org/abs/2605.01018 以从此页面链接。
引用此论文的数据集1
jzhuang/WildTableBench 查看器• 更新于10天前 • 928 • 56 (https://huggingface.co/datasets/jzhuang/WildTableBench)
引用此论文的Space0
没有Space链接此论文
在Space的 README.md 文件中引用 arxiv.org/abs/2605.01018 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
TableVista:在视觉和结构复杂性下对多模态表格推理进行基准测试
介绍了 TableVista,这是一个全面的基准测试,用于评估基础模型在视觉和结构复杂性下的多模态表格推理能力,包含 3,000 个问题,扩展为 30,000 个多模态样本。对 29 个模型的评估显示,在复杂布局和仅视觉设置下性能有所下降。
MulTaBench:基于文本与图像的多模态表格学习基准测试
介绍了 MulTaBench,一个包含40个数据集的基准测试,用于文本和图像模态的多模态表格学习。实验表明,任务特定的嵌入调优优于冻结的预训练嵌入,特别是在模态提供互补预测信号时。
TabularMath:用大语言模型理解表格上的数学推理
TabularMath 引入了一个基准和 AutoT2T 框架来评估 LLM 对表格数据的数学推理能力,揭示表格复杂性、数据质量和模态对模型性能的重大影响。该研究通过系统地评估模型对真实场景中不完整或不一致表格信息的鲁棒性,填补了 LLM 评估中的空白。
WildClawBench:真实世界长周期智能体评估基准
WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。
PlantMarkerBench:一个基于证据的植物标记基因推理多物种基准测试
本文介绍了 PlantMarkerBench,这是一个多物种基准测试,旨在评估语言模型从四个物种的科学文献中解读植物标记基因证据的能力。文章指出,尽管前沿模型在处理直接证据方面表现良好,但在处理功能和间接证据类型时仍面临困难。