TRL-Bench: 跨范式表格编码器表示级别评估的标准化
摘要
TRL-Bench 是一个统一的框架和库,用于标准化对20个编码器、16个任务和87个数据集的表格表示学习模型的评估。它提供了一个通用接口来比较异构表格模型,并揭示了没有一个编码器在所有任务中都是最佳的。
查看缓存全文
缓存时间: 2026/06/11 13:39
论文页面 - TRL-Bench: 标准化跨范式表格编码器的表示层级评估
来源:https://huggingface.co/papers/2606.09323
📊 发布 TRL-Bench——一个统一的框架 + 库,用于表格表示学习,表格表示学习的一站式解决方案。
🧩 20 个编码器 · 16 个任务 · 3 个套件下的 87 个数据集
🔍 旨在让异构表格模型可以直接比较,并可复用为嵌入模型
pipeline (https://cdn-uploads.huggingface.co/production/uploads/65164444bc0631719873af81/_v27hrO7JemUP6WICmlJh.png)
表格编码器形态各异:不同的输入格式、训练目标和输出头部。因此,即便是为同一任务构建的两个模型也难以直接进行比较。我们构建了 TRL-Bench 来使它们具有可比性。
它在表示层级上统一了一切:每个模型都被封装在一个共享接口之后,该接口可导出行嵌入、列嵌入和表嵌入,共享的轻量级头部在通用任务定义下探测这些嵌入,因此来自不同范式的 20 个编码器终于可以放在同一尺度上比较。
它也是一个库:20 种不同类型的表格模型被适配为嵌入模型,可导出行、列和表嵌入供社区复用。它涵盖三个套件:
🧩 TRL-CTbench——13 个列/表任务:模式、可连接性、可合并性、基础对齐
🔗 TRL-Rbench——多目标行预测(50 个子任务,123 个目标)+ 记录链接(16 个数据集)
🌊 TRL-DLTE ——一个包含 47,772 个表的数据湖增强管道,覆盖全部三种粒度
主要结论很明确:不存在单一的最佳表格编码器,优势分布在不同的表格任务上。表格模型的选择应基于具体任务。
我们还发现:
📌 当信号存在于表面文本(列名和单元格值)中时,现成的文本编码器出人意料地强大;跨表对齐和匹配则反而奖励结构感知型专业编码器
📌 预测表内的值和在表间匹配同一记录需要不同的编码器:前者奖励适应单表的编码器,后者奖励嵌入在表间保持可比性的编码器
📌 堆叠每个阶段的最佳编码器并不能得到最佳的组合式管道,从头到尾复用一个编码器也不行;获胜的方案是为每个步骤匹配不同的专业编码器(查找相关表 → 对齐列 → 匹配行)
TRL-Bench 旨在同时作为诊断基准和用于构建表格表示的实用库。
📄 论文:https://arxiv.org/abs/2606.09323
🌐 网站:https://logo-cuhksz.github.io/trl-bench.github.io/
🤗 数据集:https://huggingface.co/collections/logo-lab/trl-bench
💻 代码:https://github.com/LOGO-CUHKSZ/TRL-Bench
相似文章
MulTaBench:基于文本与图像的多模态表格学习基准测试
介绍了 MulTaBench,一个包含40个数据集的基准测试,用于文本和图像模态的多模态表格学习。实验表明,任务特定的嵌入调优优于冻结的预训练嵌入,特别是在模态提供互补预测信号时。
TabEmbed:用于表格理解的通用嵌入的基准测试与学习
本文介绍了 TabEmbed,这是一种用于表格数据的通用嵌入模型,统一了分类和检索任务,并介绍了 TabBench,这是一个用于评估表格理解能力的新基准。
编码器足够吗?LLM对抗评估中编码器与解码器安全评判器的系统比较
本文系统比较了微调的编码器分类器(ModernBERT系列)与基于解码器的安全评判器在LLM对抗评估中的表现,发现编码器可以在不显著损失性能的情况下,提供一种成本和延迟更低的替代方案。
RedBench:大型语言模型综合红队测试通用数据集
RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。
EIBench:基于模拟器的基准测试与面向情感管理的回合信用强化学习
EIBench 引入了一个基于模拟器的交互式情感管理基准测试,通过每轮用户状态反馈实现评估与训练。作者提出了 CTC-GRPO,一种强化学习方法,在多个基准测试上提升了情感管理表现。