WildTableBench:在真实场景中评估多模态基础模型的表格理解能力

Hugging Face Daily Papers 论文

摘要

WildTableBench 提出了首个针对真实世界表格图像的问答应答基准,揭示了现有多模态基础模型在结构感知和数值推理方面存在显著困难,仅有1个模型准确率超过50%。

使用多模态基础模型分析表格图像在消费和企业场景中是一项高价值但充满挑战的应用。尽管其重要性不言而喻,但目前的评估主要依赖于结构化文本表格或清晰的渲染图像,忽略了对真实世界表格图像视觉复杂性的探索。这类图像具有多样的布局和领域,需要复杂的结构感知和数值推理能力。为弥补这一空白,我们引入了 WildTableBench,这是首个针对真实场景中自然出现的表格图像的问答应答基准。WildTableBench 包含来自不同领域在线论坛和网站的402张高信息密度表格图像,以及928个手动标注和验证的问题,涵盖五个类别下的17个子类型。我们在此基准上评估了21个前沿闭源和开源多模态基础模型。仅有一个模型准确率超过50%,其余模型准确率在4.1%到49.9%之间。我们进一步进行了诊断分析,以刻画模型失败模式,并揭示其在结构感知和推理方面的持续弱点。这些结果和分析为当前模型能力提供了有价值的见解,并使 WildTableBench 成为用于表格图像理解的有效诊断基准。
查看原文
查看缓存全文

缓存时间: 2026/05/15 20:27

论文页面 - WildTableBench:野外表格理解的多模态基础模型基准测试

来源:https://huggingface.co/papers/2605.01018 发布于 5月1日

·

提交者https://huggingface.co/jzhuang

HJZ (https://huggingface.co/jzhuang) 于5月15日

摘要

WildTableBench 被引入作为首个面向真实世界表格图像的问答基准,揭示了现有多模态模型在结构感知和数值推理方面的显著挑战。

使用多模态基础模型 (https://huggingface.co/papers?q=multimodal%20foundation%20models) 分析表格图像 (https://huggingface.co/papers?q=table%20images) 在消费和企业场景中是一个高价值但具有挑战性的应用。尽管其重要性,当前的评估大多依赖于结构化文本表格或干净的渲染图像,忽视了现实世界中表格图像的视觉复杂性。此类图像具有多变的布局和多样的领域,需要复杂的结构感知 (https://huggingface.co/papers?q=structural%20perception) 和数值推理 (https://huggingface.co/papers?q=numerical%20reasoning)。为弥补这一差距,我们引入了 WildTableBench,这是首个针对自然发生的、来自真实世界环境表格图像的问答基准 (https://huggingface.co/papers?q=question-answering%20benchmark)。WildTableBench 包含从在线论坛和网站收集的 402 张高信息密度表格图像 (https://huggingface.co/papers?q=table%20images),涵盖多个领域,以及 928 个手动标注和验证的问题,分为 5 个类别下的 17 个子类型。我们在此基准上评估了 21 个前沿的商业和开源多模态基础模型 (https://huggingface.co/papers?q=multimodal%20foundation%20models)。只有一个模型准确率超过 50%,其余所有模型准确率在 4.1% 到 49.9% 之间。我们进一步进行了诊断分析,以表征模型失败模式,并揭示其在结构感知 (https://huggingface.co/papers?q=structural%20perception) 和推理方面的持续弱点。这些结果和分析为当前模型能力提供了有益的见解,并确立了 WildTableBench 作为表格图像理解方面有价值的诊断基准。

查看arXiv页面 (https://arxiv.org/abs/2605.01018) 查看PDF (https://arxiv.org/pdf/2605.01018) 项目页面 (https://huggingface.co/datasets/jzhuang/WildTableBench) GitHub0 (https://github.com/hjzhe/WildTableBench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.01018)

引用此论文的模型0

没有模型链接此论文

在模型的 README.md 文件中引用 arxiv.org/abs/2605.01018 以从此页面链接。

引用此论文的数据集1

jzhuang/WildTableBench 查看器• 更新于10天前 • 928 • 56 (https://huggingface.co/datasets/jzhuang/WildTableBench)

引用此论文的Space0

没有Space链接此论文

在Space的 README.md 文件中引用 arxiv.org/abs/2605.01018 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

TabularMath:用大语言模型理解表格上的数学推理

arXiv cs.CL

TabularMath 引入了一个基准和 AutoT2T 框架来评估 LLM 对表格数据的数学推理能力,揭示表格复杂性、数据质量和模态对模型性能的重大影响。该研究通过系统地评估模型对真实场景中不完整或不一致表格信息的鲁棒性,填补了 LLM 评估中的空白。

WildClawBench:真实世界长周期智能体评估基准

Hugging Face Daily Papers

WildClawBench 使用真实的命令行界面环境和实际工具,评估语言和视觉-语言模型在现实长周期任务上的表现。该基准测试显示,即使最佳模型也仅达到62.2%的准确率,表明长周期智能体评估仍具有挑战性。