MulTaBench:基于文本与图像的多模态表格学习基准测试
摘要
介绍了 MulTaBench,一个包含40个数据集的基准测试,用于文本和图像模态的多模态表格学习。实验表明,任务特定的嵌入调优优于冻结的预训练嵌入,特别是在模态提供互补预测信号时。
查看缓存全文
缓存时间: 2026/05/14 08:17
论文页面 - MulTaBench:多模态表格学习基准测试(含文本和图像)
来源:https://huggingface.co/papers/2605.10616
摘要
多模态表格学习基准测试显示,针对任务进行嵌入微调能够提升冻结预训练嵌入的性能,尤其是在各模态提供互补预测信号时。
表格基础模型(Tabular Foundation Models)近期通过利用预训练学习数值和类别结构化数据的可泛化表示,确立了有监督表格学习的最新水平。然而,它们原生不支持文本和图像等非结构化模态,而是依赖冻结的预训练嵌入来处理这些模态。在已有的多模态表格学习基准测试中,我们证明将嵌入调优至任务可以提升性能。然而,现有基准测试往往只关注模态的简单共存,这导致数据集间方差较大,掩盖了任务特定调优的优势。为弥补这一空白,我们提出了 MulTaBench,一个包含 40 个数据集的基准测试,平均分为图像-表格和文本-表格任务。我们聚焦于那些模态提供互补预测信号且通用嵌入会丢失关键信息的预测任务,因此需要与任务对齐的目标感知表示(Target-Aware Representations)。我们的实验结果表明,目标感知表示调优带来的增益在文本和图像模态、多种表格学习器、编码器尺度及嵌入维度上均具有普适性。MulTaBench 是迄今为止规模最大的图像-表格基准测试,覆盖医疗健康和电子商务等高影响力领域。它旨在支持融合联合建模(joint modeling)和目标感知表示的新型架构研究,为开发新型多模态表格基础模型铺平道路。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10616) 查看 PDF (https://arxiv.org/pdf/2605.10616) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10616)
在您的 agent 中获取本论文:
hf papers read 2605\.10616
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
没有模型链接本论文
在模型的 README.md 中引用 arxiv.org/abs/2605.10616 即可从本页关联。
引用本论文的数据集0
没有数据集链接本论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.10616 即可从本页关联。
引用本论文的 Space0
没有 Space 链接本论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.10616 即可从本页关联。
包含本论文的收藏集0
没有收藏集包含本论文
将本论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从本页关联。
相似文章
MuteBench:不完整多模态融合中的模态不可用容忍度评估
MuteBench是一个基准测试,用于评估多模态融合模型在临床数据集上的模态缺失和模态内部缺失条件下的性能。它提供了关于架构鲁棒性的见解,并表明基于扩散的插补方法可以有所帮助。
WildTableBench:在真实场景中评估多模态基础模型的表格理解能力
WildTableBench 提出了首个针对真实世界表格图像的问答应答基准,揭示了现有多模态基础模型在结构感知和数值推理方面存在显著困难,仅有1个模型准确率超过50%。
TabEmbed:用于表格理解的通用嵌入的基准测试与学习
本文介绍了 TabEmbed,这是一种用于表格数据的通用嵌入模型,统一了分类和检索任务,并介绍了 TabBench,这是一个用于评估表格理解能力的新基准。
我们在多模态域泛化领域是否取得了进展?一项全面的基准研究
本文提出了 MMDG-Bench,这是一个针对多模态域泛化的统一基准,揭示了当前方法进展有限,并且在不同任务中存在显著的鲁棒性挑战。
WorldBench:一个具有挑战性且视觉多样化的多模态推理基准
介绍WorldBench,一个视觉多样化的多模态推理基准,揭示了当前多模态大语言模型在视觉理解方面的显著局限性。