MulTaBench：基于文本与图像的多模态表格学习基准测试

Hugging Face Daily Papers 2026/05/11 00:00 论文

multimodal tabular-learning benchmark foundation-models embeddings text image

摘要

介绍了 MulTaBench，一个包含40个数据集的基准测试，用于文本和图像模态的多模态表格学习。实验表明，任务特定的嵌入调优优于冻结的预训练嵌入，特别是在模态提供互补预测信号时。

表格基础模型最近通过利用预训练学习数值和类别型结构化数据的可泛化表示，在监督表格学习中确立了最先进水平。然而，它们原生不支持文本和图像等非结构化模态，只能依赖冻结的预训练嵌入来处理这些模态。在已有的多模态表格学习基准上，我们展示了针对任务调优嵌入可以提升性能。然而，现有基准往往只关注模态的简单共存；这导致数据集间方差大，掩盖了任务特定调优的好处。为弥补这一不足，我们引入了 MulTaBench，一个包含40个数据集的基准，在图像-表格和文本-表格任务上平分。我们聚焦于模态提供互补预测信号的预测任务，以及通用嵌入丢失关键信息、需要与任务对齐的目标感知表示的任务。我们的实验结果表明，目标感知表示调优带来的增益可泛化到文本和图像模态、多种表格学习器、编码器规模和嵌入维度。MulTaBench 是迄今为止最大的图像-表格基准测试工作，涵盖医疗和电子商务等高影响力领域。它旨在支持融合联合建模和目标感知表示的新型架构研究，为开发新型多模态表格基础模型铺平道路。

查看原文

查看缓存全文

缓存时间: 2026/05/14 08:17

论文页面 - MulTaBench：多模态表格学习基准测试（含文本和图像）

来源：https://huggingface.co/papers/2605.10616

摘要

多模态表格学习基准测试显示，针对任务进行嵌入微调能够提升冻结预训练嵌入的性能，尤其是在各模态提供互补预测信号时。

表格基础模型（Tabular Foundation Models）近期通过利用预训练学习数值和类别结构化数据的可泛化表示，确立了有监督表格学习的最新水平。然而，它们原生不支持文本和图像等非结构化模态，而是依赖冻结的预训练嵌入来处理这些模态。在已有的多模态表格学习基准测试中，我们证明将嵌入调优至任务可以提升性能。然而，现有基准测试往往只关注模态的简单共存，这导致数据集间方差较大，掩盖了任务特定调优的优势。为弥补这一空白，我们提出了 MulTaBench，一个包含 40 个数据集的基准测试，平均分为图像-表格和文本-表格任务。我们聚焦于那些模态提供互补预测信号且通用嵌入会丢失关键信息的预测任务，因此需要与任务对齐的目标感知表示（Target-Aware Representations）。我们的实验结果表明，目标感知表示调优带来的增益在文本和图像模态、多种表格学习器、编码器尺度及嵌入维度上均具有普适性。MulTaBench 是迄今为止规模最大的图像-表格基准测试，覆盖医疗健康和电子商务等高影响力领域。它旨在支持融合联合建模（joint modeling）和目标感知表示的新型架构研究，为开发新型多模态表格基础模型铺平道路。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10616) 查看 PDF (https://arxiv.org/pdf/2605.10616) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10616)

在您的 agent 中获取本论文：

hf papers read 2605\.10616

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

没有模型链接本论文

在模型的 README.md 中引用 arxiv.org/abs/2605.10616 即可从本页关联。

引用本论文的数据集0

没有数据集链接本论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.10616 即可从本页关联。

引用本论文的 Space0

没有 Space 链接本论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.10616 即可从本页关联。

包含本论文的收藏集0

没有收藏集包含本论文

将本论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从本页关联。

MulTaBench：基于文本与图像的多模态表格学习基准测试

论文页面 - MulTaBench：多模态表格学习基准测试（含文本和图像）

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Space0

包含本论文的收藏集0

相似文章

MuteBench：不完整多模态融合中的模态不可用容忍度评估

WildTableBench：在真实场景中评估多模态基础模型的表格理解能力

TabEmbed：用于表格理解的通用嵌入的基准测试与学习

Blind-Spots-Bench：评估多模态模型中的盲点

跨视觉、语言、视频和音频的多模态遗忘：方法、数据集和基准综述

提交意见反馈