TabPFN-MT: 一种面向表格数据的原生多任务上下文学习器

arXiv cs.LG 2026/05/21 04:00 论文

摘要

TabPFN-MT 将 PFN 扩展到表格数据的多任务上下文学习，在小到中等规模数据集上取得了最先进的结果，同时将推理成本从 O(T) 次前向传播降低到 O(1) 次。

arXiv:2605.20234v1 公告类型：新摘要：先验数据拟合网络（PFN）在表格上下文中非常成功，能够处理上下文中的预测任务。然而，它们专为单任务推理设计，这意味着在上下文中预测多个目标值需要重复的前向调用，并阻碍了任务间的信息共享。我们提出了 TabPFN-MT，该模型在扩展的多目标合成先验上进行训练，以捕获上下文中的任务间依赖关系。该模型使用扩展的 $y$ 编码器和共享的解码器头，实现多任务上下文学习和同步推理。该模型通过依赖上下文学习而非传统的基于梯度的训练，专门适用于小到中等规模数据集。在此范围内（平均样本少于 1,000 个），对 344 个数据集的广泛评估表明，TabPFN-MT 为深度表格多任务学习建立了新的最先进水平。此外，尽管联合优化存在固有的计算不对称性，我们的模型仍然与最新的最先进单任务集成模型保持高度竞争力。值得注意的是，在多任务数据集上，它实现了总体准确率排名 4.89，是所有测试模型中平均排名最高的。关键在于，TabPFN-MT 在提供这种高度竞争性能的同时，将 $T$ 个任务的推理成本从 $O(T)$ 次前向传播降低到 $O(1)$ 次，为多目标表格应用提供了巨大的计算效率提升。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:20

# TabPFN-MT：原生多任务上下文学习器用于表格数据  
来源：https://arxiv.org/html/2605.20234  

Cormac Cureton  
麦吉尔大学  
Mila – 魁北克人工智能研究所  
蒙特利尔，魁北克省，加拿大  
[email protected]  

& Narges Armanfard  
麦吉尔大学  
Mila – 魁北克人工智能研究所  
蒙特利尔，魁北克省，加拿大  
[email protected]  

###### 摘要  

先验数据拟合网络（PFN）在表格任务中取得了巨大成功，能够通过上下文进行预测。然而，它们专为单任务推理设计，这意味着在一个上下文中预测多个目标值需要重复的前向调用，并且无法实现任务间的信息共享。我们提出TabPFN-MT，该模型在扩展的多目标合成先验上训练，以捕捉上下文中的任务间依赖关系。该模型使用扩展的 y-编码器和共享解码器头，实现多任务上下文学习与同时推理。模型通过依赖上下文学习而非传统的基于梯度的训练，专门适用于中小型数据集。在该场景（平均少于1000个样本）下，我们对344个数据集进行了广泛评估，结果表明TabPFN-MT为深度表格多任务学习树立了新的最优水平。此外，尽管联合优化存在固有的计算不对称性，我们的模型仍然与最新最优的单任务集成模型保持高度竞争力。值得注意的是，在多任务数据集上，它取得了4.89的整体准确率排名，是所有测试模型中平均排名最高的。关键的是，TabPFN-MT在提供如此高竞争力的性能的同时，还将对 T 个任务的推理成本从 O(T) 次前向传播降低到 O(1) 次，为多目标表格应用带来了巨大的计算效率提升。  

## 1 引言  

表格数据在广泛的领域中普遍存在，使其成为机器学习引入实际应用的重要模态。特别是在许多情况下，数据集具有多个相关的输出。例如，医学试验可能有多个关键读数，或者在金融领域，联合建模资产的收益和波动性可能很有价值。尽管多目标问题普遍存在，但针对表格数据的深度多任务学习主要集中在大型数据集上，如电子商务和推荐系统。然而，在关键的低数据场景中，像梯度提升决策树这样的单任务模型仍然是标准。将这些单任务架构应用于多目标问题需要为每个目标拟合独立的模型。这种方法本质上阻止了任务间的信息共享（排除了正迁移），并且计算成本随目标数量 T 的增加而倍增。  

最近，TabPFN已经成为低数据表格领域的主要模型，利用上下文学习以更高容量的模型处理小数据集（Hollmann et al., 2025）。然而，当前的表格先验数据拟合网络仅限于单任务推理。因此，预测 T 个目标需要 T 次独立的前向传播，导致大量计算浪费，重复计算同一表格数据集的相似表示。基于有限的上下文同时推断多个标签分布并建模它们之间的相互作用，是一个比标准标量上下文学习更难的问题。然而，来自自然语言处理的证据表明，预训练基础模型能够涌现多任务上下文学习能力（Xiong et al., 2025）。我们假设这种能力可以迁移到表格领域。由于PFN可以关注整个数据集上下文（包括特征和目标），它应该能够学习有用的共享表示，以支持多个同时预测。这种方法仅需一次前向传播即可完成多任务预测，为正迁移和整体预测性能提升打开了可能性。  

在这项工作中，我们引入了TabPFN-MT，这是第一个为多任务上下文学习进行原生预训练的表格基础模型。我们的核心贡献是：  

1. **PFN范式的多任务扩展**：这是第一个将PFN框架扩展到通过联合推理处理可变数量目标问题的多任务学习模型。关键的是，这实现了分摊推理：单个预训练模型可以应用于具有不同特征和目标维度的广泛数据集，而无需针对数据集进行特定训练，而是在推理时利用上下文学习。  

2. **多任务架构**：为了支持这种灵活性，TabPFN-MT使用动态的 y-编码器和共享的投影解码器。编码器根据数据集中的任务数量对输入进行缩放，并使用动态零填充保持维度一致。解码器在单次推理中生成输出，然后将其切片为每个任务的logit向量。  

3. **合成先验设计**：我们证明，在由单个复杂结构因果模型生成的数据集上预训练该架构，能够提供必要的任务相关谱，成功教会Transformer在上下文中利用共享表示。该先验对称采样，无需其他多任务工作中常见的损失平衡技术即可实现稳定训练。  

4. **高效的最优低数据多任务学习**：通过对中小数据场景（<5000样本）下344个数据集的广泛评估，TabPFN-MT为表格多任务学习树立了新的最优水平。此外，它的预测性能与计算密集的单任务集成模型相当，而其架构通过将多目标推理成本从 O(T) 次前向传播降低到 O(1) 次，减少了计算开销。  

为了支持开放科学和未来的工作，有关源代码未来发布的详细信息包含在附录A。论文组织如下：第2节回顾相关研究；第3节详述多任务先验和TabPFN-MT架构；第4节展示我们的全面评估及与基线的比较；第5节以局限性和未来方向作结。  

## 2 相关工作  

##### 标准表格模型  

虽然深度学习已主导其他模态和领域的机器学习应用，但梯度提升决策树仍然是表格数据的主要基线，因为它们能很好地处理轴对齐特征（Chen and Guestrin, 2016; Ke et al., 2017; Prokhorenkova et al., 2018）。然而，其加法集成结构限制了多任务学习的适用性。GBDT方法倾向于将每个任务视为优化目标，为每个目标使用不同的树或叶子。这意味着模型不会跨任务形成共享表示，也没有机制在目标之间共享信息。此外，虽然GBDT模型通常需要更少的参数并提供强大的开箱即用基线，但要达到最优性能仍需要严格的超参数优化（McElfresh et al., 2023）。  

##### 表格深度学习  

虽然传统的机器学习方法通常直接处理原始数据，但像SAINT（Somepalli et al., 2021）、FT-Transformer（Gorishniy et al., 2021）和TabNet（Arik and Pfister, 2021）等模型使用注意力机制创建特征间的表示。这些模型开发出更丰富的内部表示，但仍然是单任务和单数据集的；它们必须为每个新数据集和目标从头开始训练。已有几项工作将多任务学习应用于大型表格数据集。多门混合专家（Ma et al., 2018）、渐进式分层提取（Tang et al., 2020）以及共享和任务特定嵌入（Su et al., 2024）都采用了混合专家方法，并加入变体以减轻任务间的负迁移。相比之下，MultiTab引入了一种多任务掩码注意力机制来调节任务间的竞争并提高多目标性能（Sinodinos et al., 2026b）。所有这些多任务学习模型都在目标数据集上训练，并且架构必须固定为训练期间看到的准确任务数量。相比之下，本文旨在开发一个更灵活的模型，利用上下文学习在推理时推断任务结构，且可用数据更少。  

##### 表格先验数据拟合网络  

在低数据场景中，PFN非常成功，它们在合成数据集上预训练，然后通过上下文学习适应目标数据集（Müller et al., 2022）。TabPFN遵循这一范式，在多个表格基准上取得了最优性能（Hollmann et al., 2023, 2025; Grinsztajn et al., 2026）。后续工作致力于通过线性注意力提高PFN的可扩展性（Zeng et al., 2025）以及利用真实世界数据增强预训练（Ma et al., 2025）。所有这些表格PFN都假设是单任务、标量标签，这个假设在多任务设置中失效。使用单任务模型处理多任务问题需要对每个目标进行不同的推理，导致冗余计算，并且不允许任务间共享信息。Sinodinos等人（2026a）研究了通过多任务领域特定微调将单任务TabPFN适应到多任务设置。在这项工作中，我们采取了一种互补方法，研究PFN是否可以通过带有修改后先验的原生多任务预训练来学习多任务上下文推理。  

## 3 方法  

参见图注 (a) 从单个底层结构因果模型生成合成多目标数据。  
参见图注 (b) TabPFN-MT架构，具有扩展的y-编码器和解码器以处理多个目标。  

图1：TabPFN-MT框架。该模型依赖于通过高度稀疏的多层感知机（模拟因果有向无环图）生成的合成多任务先验。在推理期间，架构利用扩展的y-编码器和动态切片解码器头，在共享Transformer骨干上执行同时的多任务上下文学习。  

整个TabPFN-MT框架的概览，详细说明了合成数据生成过程和模型架构，见图1。  

### 3.1 多任务上下文学习  

Müller等人（2022）确定了PFN通过近似贝叶斯推理在上下文中进行预测。也就是说，给定标记的训练数据集 D_train 和测试点 x_test，预训练的PFN q_θ 近似标签的后验预测分布 p(y_test | x_test, D_train)。在先前的PFN模型中，模型对每个查询预测单个标量目标：q_θ(y_test | x_test, D_train) ≈ p(y_test | x_test, D_train)（Hollmann et al., 2023, 2025）。在我们的多任务扩展中，相同的后验预测分布近似是模型的基础，但上下文被扩展，使得 D_train = { (x_i, y_i) }_{i=1}^N。目标变为向量 y_i = (y^(1), y^(2), ..., y^(T))，对应于给定数据集 D_train 中存在的 T 个不同任务。我们的模型优先对所有目标进行同时推理，因此模型将这些目标的联合分布近似为在给定共享网络表示下的条件独立。令 h_test 表示Transformer骨干输出的查询点的最终隐藏状态，它总结了标记上下文 D_train 和查询特征 x_test。共享的多层感知机解码器将这个表示映射为联合logit向量 l = MLP_{θ_head}(h_test)。任务间的信息共享自然发生在这个共享MLP的隐藏层内，允许网络利用学习到的任务间相关性来塑造联合logit向量。静态输出 l 然后被动态切片成任务特定的logit向量 l^(t) ∈ R^{C_max}，其中 C_max 是每个任务的最大类别数。联合后验预测分布因此在输出层分解，每个边际概率由其对应的logit切片参数化：  

q_θ(y_test | x_test, D_train) = ∏_{t=1}^T q_θ(y_test^(t) | l^(t)) = ∏_{t=1}^T Softmax(l^(t))_{y_test^(t)}.   (1)  

### 3.2 多任务结构因果模型先验  

为了生成在先验拟合阶段使用的合成数据集，我们基于原始TabPFN中引入的SCM先验（Hollmann et al., 2023; Müller et al., 2022）。数据集的生成方式如下：采样一个代表SCM的随机有向无环图，通过非线性确定性函数传播噪声变量，并选择一部分节点作为观测特征 X 和单个目标 Y。然后将数据集划分为训练集 D_train = (X_train, Y_train) 和测试集 D_test = (X_test, Y_test)。这种方法产生了多样化的数据集，具有复杂的、由前向和后向因果关系驱动的条件依赖特征。我们采用这个基础，但扩展了数据生成过程以模拟多目标表格环境。多任务SCM必须采样一个多目标矩阵 Y，而不是标量目标。

TabPFN-MT: 一种面向表格数据的原生多任务上下文学习器

相似文章

TabPFN-3：技术报告

TabPFN-3刚刚发布：一款支持高达100万行的预训练表格基础模型 [R][N]

GOTabPFN：从特征排序到紧凑标记化——面向高维数据的表格基础模型

PriorLabs/TabPFN

当表格基础模型遇到策略性表格数据：一种先验对齐方法

提交意见反馈