当表格基础模型遇到策略性表格数据:一种先验对齐方法
摘要
本文研究了基于预训练先验数据拟合网络的表格基础模型是否能够泛化到个体在部署后修改特征的策略性表格数据。提出了策略性先验数据拟合网络(SPN),这是一个无需重新训练即可将PFN预测与操纵后分布对齐的推理时框架。
arXiv:2605.19662v1 公告类型:新
摘要:基于预训练先验数据拟合网络(PFN)的表格基础模型在多种表格任务上展现了强大的泛化能力,但它们通常是为*非策略性*场景设计的,其中数据分布独立于部署的分类器。然而,在许多现实世界的决策场景中,个体可能会在部署后策略性地修改其特征以获得有利结果,从而引发部署后的分布偏移。本文研究了PFN风格的表格基础模型是否能够泛化到这种*策略性*表格数据。我们表明,策略性操纵导致预训练期间学习的非策略性先验与操纵后的策略性先验之间不匹配,从而产生系统性预测偏差。为解决此问题,我们提出了**策略性先验数据拟合网络**(SPN),这是一个推理时的策略感知框架,无需重新训练即可使表格基础模型适应策略性环境。SPN构建策略性上下文示例以近似操纵后输入,并将PFN预测与诱导的策略分布对齐。在现实世界和合成表格数据集上的实验表明,与表格基础模型和经典表格方法相比,SPN在策略性操纵下持续提高了鲁棒性和预测性能。
相似文章
TabPFN-3:技术报告
TabPFN-3 是一个新的表格数据基础模型,在合成数据上预训练,可扩展到 100 万训练行,同时减少训练和推理时间,在表格预测、时间序列和关系数据上实现了最先进的性能。
修正表格分类中先验数据拟合网络的类别不平衡问题
本文将经典的类别不平衡技术应用于表格分类的先验数据拟合网络(PFNs),发现由于PFNs的校准特性和有限数据能力,阈值法和降采样法表现良好。
PriorLabs/TabPFN
PriorLabs 推出了 TabPFN,这是一种专为表格数据设计的基座模型。
TabPFN-3刚刚发布:一款支持高达100万行的预训练表格基础模型 [R][N]
TabPFN-3,一款预训练的表格基础模型已发布。该模型在单个GPU上支持高达100万行数据,推理速度提升10倍至1000倍,在基准测试中对比经典机器学习方法胜率高达93%。
用于近红外化学传感数据稳健标定的表格基础模型
本文评估了表格基础模型(尤其是TabPFN)用于近红外光谱数据标定的效果。与传统化学计量学方法相比,该模型在回归和分类任务上表现出强劲性能。