TRL-Bench: 跨范式表格编码器表示级别评估的标准化

Hugging Face Daily Papers 论文

摘要

TRL-Bench 是一个统一的框架和库,用于标准化对20个编码器、16个任务和87个数据集的表格表示学习模型的评估。它提供了一个通用接口来比较异构表格模型,并揭示了没有一个编码器在所有任务中都是最佳的。

表格编码器通常在特定任务的端到端流水线中评估,因此来自不同训练范式的模型即使处理相似的表格信号也难以直接比较。我们引入了 TRL-Bench,一个多粒度的表格表示学习(TRL)基准,它标准化了跨范式的表示级别评估:每个编码器通过其支持的封装器导出行、列或表嵌入,共享的轻量级探针在三个套件中进行探测:TRL-CTbench(列/表)、TRL-Rbench(行)和 TRL-DLTE(跨越所有三种粒度的组合式数据湖表增强)。为了支持这一标准化设置,我们发布了精选的基准数据集和任务重构,包括50个具有123个已验证目标的 OpenML 表、16个行对连接重写,以及从1,379个父表派生的包含47,772个表的 DLTE 数据湖。在20个模型和16个任务中,TRL-Bench 表明,一旦下游条件标准化,编码器质量是特定于能力的,而非由单一排行榜捕获。在 TRL-CTbench 中,通用文本编码器在具有强表面文本信号的任务上通常领先,而表格专用模型在其预训练目标与任务一致时胜出。在 TRL-Rbench 中,表内预测和跨表连接偏好不同的训练机制,原子连接性能与 DLTE 流水线的行匹配阶段高度相关。在 TRL-DLTE 中,最强的流水线结合了能力匹配的专用模型,而非重复使用单个编码器,且最佳端到端质量取决于非加成的组合适配性,而非仅基于每阶段的边际排名。TRL-Bench 提供了一种通用协议,用于在共享下游条件下测量导出的表格表示中的可复用信号。代码和数据:https://github.com/LOGO-CUHKSZ/TRL-Bench
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:39

论文页面 - TRL-Bench: 标准化跨范式表格编码器的表示层级评估

来源:https://huggingface.co/papers/2606.09323
📊 发布 TRL-Bench——一个统一的框架 + 库,用于表格表示学习,表格表示学习的一站式解决方案
🧩 20 个编码器 · 16 个任务 · 3 个套件下的 87 个数据集
🔍 旨在让异构表格模型可以直接比较,并可复用为嵌入模型

pipeline (https://cdn-uploads.huggingface.co/production/uploads/65164444bc0631719873af81/_v27hrO7JemUP6WICmlJh.png)

表格编码器形态各异:不同的输入格式、训练目标和输出头部。因此,即便是为同一任务构建的两个模型也难以直接进行比较。我们构建了 TRL-Bench 来使它们具有可比性。

它在表示层级上统一了一切:每个模型都被封装在一个共享接口之后,该接口可导出行嵌入、列嵌入和表嵌入,共享的轻量级头部在通用任务定义下探测这些嵌入,因此来自不同范式的 20 个编码器终于可以放在同一尺度上比较。

它也是一个库:20 种不同类型的表格模型被适配为嵌入模型,可导出行、列和表嵌入供社区复用。它涵盖三个套件:
🧩 TRL-CTbench——13 个列/表任务:模式、可连接性、可合并性、基础对齐
🔗 TRL-Rbench——多目标行预测(50 个子任务,123 个目标)+ 记录链接(16 个数据集)
🌊 TRL-DLTE ——一个包含 47,772 个表的数据湖增强管道,覆盖全部三种粒度

主要结论很明确:不存在单一的最佳表格编码器,优势分布在不同的表格任务上。表格模型的选择应基于具体任务。

我们还发现:

📌 当信号存在于表面文本(列名和单元格值)中时,现成的文本编码器出人意料地强大;跨表对齐和匹配则反而奖励结构感知型专业编码器

📌 预测表内的值和在表间匹配同一记录需要不同的编码器:前者奖励适应单表的编码器,后者奖励嵌入在表间保持可比性的编码器

📌 堆叠每个阶段的最佳编码器并不能得到最佳的组合式管道,从头到尾复用一个编码器也不行;获胜的方案是为每个步骤匹配不同的专业编码器(查找相关表 → 对齐列 → 匹配行)

TRL-Bench 旨在同时作为诊断基准和用于构建表格表示的实用库

📄 论文:https://arxiv.org/abs/2606.09323
🌐 网站:https://logo-cuhksz.github.io/trl-bench.github.io/
🤗 数据集:https://huggingface.co/collections/logo-lab/trl-bench
💻 代码:https://github.com/LOGO-CUHKSZ/TRL-Bench

相似文章

RedBench:大型语言模型综合红队测试通用数据集

arXiv cs.CL

RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。