TabPFN-3刚刚发布:一款支持高达100万行的预训练表格基础模型 [R][N]
摘要
TabPFN-3,一款预训练的表格基础模型已发布。该模型在单个GPU上支持高达100万行数据,推理速度提升10倍至1000倍,在基准测试中对比经典机器学习方法胜率高达93%。
TabPFN-3 于今天发布,这是表格基础模型的下一个迭代版本,最初发表在《自然》杂志上。给刚接触 TabPFN 的朋友快速回顾:TabPFN 通过单次前向传播对表格数据进行预测——无需训练、无需超参数搜索、无需调优。它基于 TabPFN-2.5(2025 年 11 月发布)和 TabPFNv2(2025 年 1 月发表于《自然》),两者合计下载量超过 300 万次,已发表应用超过 200 个。新特性:* 规模:单个 H100 上支持 100 万行(比 2.5 大 10 倍)。优化的 KV 缓存(每估计算法每百万行约 8GB)和按行分块的推理使其在单个 GPU 上变得可行。* 速度:推理速度比之前版本快 10 到 1000 倍。通过 KV 缓存,在 SHAP 上快 120 倍。* 思考模式(仅 API):通过在推理时进行一次额外的拟合,利用测试时计算进一步推动预测。在 TabArena 上超越了所有非 TabPFN 的方法,Elo 分差超过 200,包括经过 4 小时调优的 AutoGluon 1.5 extreme。在更大数据片段上,分差更是翻倍达到 420 Elo。* 准确性:在 TabArena 上对比经典机器学习方法的胜率为 93%。* 多类别:原生非参数检索解码器,支持多达 160 个类别。* 校准的分位数回归:条形分布回归头在单次前向传播中产生校准的分位数预测。* 提升相关任务:时间序列、可解释性,以及在关系型基准上达到新的 SOTA。* 3 种部署途径:API、企业许可和开源权重(对研究和学术评估宽松)。您可以在此[尝试](https://docs.priorlabs.ai/quickstart),或在此[阅读模型报告](https://priorlabs.ai/technical-reports/tabpfn-3)。欢迎在评论区提问交流。
相似文章
TabPFN-3:技术报告
TabPFN-3 是一个新的表格数据基础模型,在合成数据上预训练,可扩展到 100 万训练行,同时减少训练和推理时间,在表格预测、时间序列和关系数据上实现了最先进的性能。
PriorLabs/TabPFN
PriorLabs 推出了 TabPFN,这是一种专为表格数据设计的基座模型。
TabPFN-MT: 一种面向表格数据的原生多任务上下文学习器
TabPFN-MT 将 PFN 扩展到表格数据的多任务上下文学习,在小到中等规模数据集上取得了最先进的结果,同时将推理成本从 O(T) 次前向传播降低到 O(1) 次。
当表格基础模型遇到策略性表格数据:一种先验对齐方法
本文研究了基于预训练先验数据拟合网络的表格基础模型是否能够泛化到个体在部署后修改特征的策略性表格数据。提出了策略性先验数据拟合网络(SPN),这是一个无需重新训练即可将PFN预测与操纵后分布对齐的推理时框架。
用于近红外化学传感数据稳健标定的表格基础模型
本文评估了表格基础模型(尤其是TabPFN)用于近红外光谱数据标定的效果。与传统化学计量学方法相比,该模型在回归和分类任务上表现出强劲性能。