GOTabPFN:从特征排序到紧凑标记化——面向高维数据的表格基础模型

arXiv cs.LG 论文

摘要

本文介绍了GOTabPFN,一种结合了图引导排序与局部精炼(GO-LR)及神经启发子单元压缩(NSC)的方法,使得小型表格基础模型能够在无需重新训练大型骨干网络的情况下,有效进行高维低样本量预测。

arXiv:2606.05441v1 公告类型:新 摘要:我们研究如何在不重新训练大型骨干网络的情况下,使小型表格基础模型对高维低样本量(HDLSS)表格预测有效。我们引入了图引导排序与局部精炼(GO-LR),证明了其等价于加权最小线性排列,并将实际求解器解释为TSP路径风格的替代方案。我们提出了基于GO-LR的GOTabPFN,以及一个神经启发子单元压缩(NSC)单元,用于将局部相邻的有序特征汇聚成元特征,从而生成紧凑的表示,使得TabPFN风格的预测在HDLSS场景中变得实用。在多个表格基准测试中,GOTabPFN在紧凑标记预算下提升了稳定性和准确性。
查看原文
查看缓存全文

缓存时间: 2026/06/05 08:11

# 从特征排序到紧凑分词:面向高维数据的表格基础模型

来源:https://arxiv.org/html/2606.05441

Md Younus Ahamed, Prashnna Kumar Gyawali, Gianfranco Doretto, Donald A\. Adjeroh

###### 摘要

我们研究了如何在不重新训练大型骨干网络的情况下,使小型表格基础模型对高维低样本量(HDLSS)表格预测任务有效。我们提出了图引导排序与局部精细化(GO-LR),证明其等价于加权最小线性排列问题,并将实际求解器解释为TSP路径风格的替代方案。我们提出了GOTabPFN,它基于GO-LR构建,并引入了一个神经启发的子单元压缩(NSC)单元,将局部相邻的有序特征池化为元特征,从而生成紧凑表示,使TabPFN风格的预测在HDLSS场景下变得实用。在多个表格基准测试中,GOTabPFN在紧凑分词预算下提升了稳定性和准确性。

表格基础模型,高维数据,特征排序,紧凑分词,TabPFN

## 1 引言

高维低样本量(HDLSS)表格预测仍然是一个挑战:当\(m \gg n\)(其中\(m\)=特征数量,\(n\)=样本数量)时,学习和表示都会变得成本高昂。TabPFN及其变体等表格基础模型是强大的通用基线,但流行版本(例如,TabPFN-2.5(Grinsztajn等,2025(https://arxiv.org/html/2606.05441#bib.bib115)))设计和基准测试的输入最多约2000个特征,使得许多HDLSS领域(例如,基因表达中\(m \gg 2000\))在没有先验特征选择或压缩的情况下超出了其预期工作范围。这促使我们设计在样本预算紧张时降低维度同时保留预测结构的表示策略,以便TabPFN风格的模型在真正的高维场景下仍然有效。

置换学习旨在寻找有限集合的一种排序,以改善下游目标,通常通过可微松弛在端到端神经训练中近似离散置换(Barthel等,2025(https://arxiv.org/html/2606.05441#bib.bib119);Jurewicz和Derczynski,2022(https://arxiv.org/html/2606.05441#bib.bib120))。对于表格数据,缺乏固有的空间或时间结构会削弱相对于视觉或语言领域的归纳偏置,尤其是在HDLSS设置中。尽管基于树的方法仍然是强大的基线,但学习跨特征依赖关系而不发生过拟合是困难的;即使在\(n \ll m\)场景下,简单模型(例如MLP或Lasso)也能超越高级表格方法(ProtoGate(Jiang等,2024(https://arxiv.org/html/2606.05441#bib.bib98)))。这表明仅靠特征选择往往不够;我们还需要一种可学习的特征排序,将相关特征组织成适合结构化压缩的邻域。

因此,我们定义了列排列问题(CPP)(Fogel等,2013(https://arxiv.org/html/2606.05441#bib.bib14);Lima等,2024(https://arxiv.org/html/2606.05441#bib.bib121);Tegze和Vlach,1986(https://arxiv.org/html/2606.05441#bib.bib123);Liiv,2010(https://arxiv.org/html/2606.05441#bib.bib126);Behrisch等,2016(https://arxiv.org/html/2606.05441#bib.bib127)):学习一种数据驱动的列顺序,以减少冗余、揭示长程依赖关系,并为下游模块诱导出有用的顺序结构。在实践中,CPP可以通过基于注意力的指针机制和图感知变体来解决,这些方法在生成排列的同时编码关系结构(Vinyals等,2015(https://arxiv.org/html/2606.05441#bib.bib122);Yang等,2022b(https://arxiv.org/html/2606.05441#bib.bib124);Veličković等,2020(https://arxiv.org/html/2606.05441#bib.bib125))。

特征排序在模式识别中历史悠久,并且是增量属性学习(IAL)的核心,其中特征按顺序到达,必须在训练前进行排序(Wang和Guan,2013(https://arxiv.org/html/2606.05441#bib.bib133))。与假设顺序不变性的基于集合同模型不同(Zaheer等,2017(https://arxiv.org/html/2606.05441#bib.bib143)),列顺序可以暴露冗余并影响模型捕获依赖关系的方式;即使是简单的Fisher/相关系数/熵排序也能减少干扰和相对于无序基线的误差(Wang等,2015c(https://arxiv.org/html/2606.05441#bib.bib134),b(https://arxiv.org/html/2606.05441#bib.bib136)),从而激励了学习型、任务感知的排序方法(Wang等,2015a(https://arxiv.org/html/2606.05441#bib.bib135),2014(https://arxiv.org/html/2606.05441#bib.bib139))。在深度表格学习中,Mambular(Thielmann等,2024(https://arxiv.org/html/2606.05441#bib.bib141))强调了排序的影响,而Habib等(2024(https://arxiv.org/html/2606.05441#bib.bib142),2026b(https://arxiv.org/html/2606.05441#bib.bib157))分别在TabSeq和DynaTab中引入了显式的排序算法。其他相关工作显示了模型对列排列的脆弱性,从而催生了排列不变性架构(Eremeev等,2025(https://arxiv.org/html/2606.05441#bib.bib131);Brahmavar等,2025(https://arxiv.org/html/2606.05441#bib.bib132))以及跨排列进行集成的TabICL(Jingang等,2025(https://arxiv.org/html/2606.05441#bib.bib107))。在监督预测之外,COPER(Eisenberg等,2025(https://arxiv.org/html/2606.05441#bib.bib140))使用基于排列的相关性目标进行多视图(图像-表格)聚类,而ROTATOR-LLM(Wang等,2025(https://arxiv.org/html/2606.05441#bib.bib128))则研究了基于LLM的表格推理中的特征排序。

虽然排序可以暴露局部结构,但HDLSS表格引入了第二个瓶颈:即使是“好的”排列仍然留下\(m\)个原始特征需要处理,当\(m \gg n\)时这是不可行的。为了在不改变骨干网络的情况下使TabPFN风格的预测器在这种场景下变得实用,我们引入了神经启发的子单元压缩(NSC),其灵感来自皮层树突中的子单元式整合(Poirazi等,2003(https://arxiv.org/html/2606.05441#bib.bib16);Schiller等,2000(https://arxiv.org/html/2606.05441#bib.bib17);Major等,2013(https://arxiv.org/html/2606.05441#bib.bib18);Kastellakis等,2015(https://arxiv.org/html/2606.05441#bib.bib19);Kirchner和Gjorgjieva,2021(https://arxiv.org/html/2606.05441#bib.bib20);Ujfalussy和Makara,2020(https://arxiv.org/html/2606.05441#bib.bib24);Wu等,2018(https://arxiv.org/html/2606.05441#bib.bib25))。NSC沿着GO-LR(图引导排序与局部精细化)轴将相邻特征分组为连续的子单元,并将每个子单元池化为一个元特征,从而将维度从\(m\)降低到\(M\)(\(M \ll m\)),其中\(M\)与从协方差谱估计的内在维度有关(Roy和Vetterli,2007(https://arxiv.org/html/2606.05441#bib.bib21);Halko等,2011(https://arxiv.org/html/2606.05441#bib.bib22);Levina和Bickel,2004(https://arxiv.org/html/2606.05441#bib.bib23))。简单的压缩通常会产生没有稳定坐标系的潜在成分,导致依赖于运行和子样本的表示,这对于TabPFN风格的模型(假设一个固定、一致参数化的输入空间(Hollmann等,2023(https://arxiv.org/html/2606.05441#bib.bib114),2025(https://arxiv.org/html/2606.05441#bib.bib113)))并不有效。因此,我们设计了一个结构约束的压缩接口,在最近的TabPFN变体所针对的特征预算内生成可重复的潜在特征(Grinsztajn等,2025(https://arxiv.org/html/2606.05441#bib.bib115);Liu和Ye,2025(https://arxiv.org/html/2606.05441#bib.bib116);Koliberg等,2025(https://arxiv.org/html/2606.05441#bib.bib117))。

我们的贡献:

- • 我们将特征排序形式化为一个组合优化问题,证明其NP难度,并通过GO-LR提出基于MinLA的排序方法。
- • 我们引入可扩展的HDLSS压缩方法NSC,这是一种受神经启发的子单元式池化方法,由内在维度估计控制。
- • 基于以上,我们提出GOTabPFN用于分析HDLSS表格数据。在HDLSS基准测试中,GOTabPFN在高维度和紧凑特征预算下提升了准确性和稳定性。

参见图注

图1:基于图的特征排序。GO-LR线性化一个加权特征图,使相关特征保持近邻,便于局部分割和压缩。它使用NNPath进行局部初始化,然后通过全局MinLA风格的成对位置目标优化排序。更详细的说明见附录T(https://arxiv.org/html/2606.05441#A20)。

## 2 相关工作

在附录A(https://arxiv.org/html/2606.05441#A1)中,我们提供了关于相关工作的更多细节,包括表格基础模型、TabPFN家族、HDLSS特定模型以及基于LLM的表格模型。现有方法在\(m \gg n\)的HDLSS设置中常常面临困难,因为它们要么假设适度的特征数量,要么主要依赖特征选择和任务特定调优来应对非常高的维度。GOTabPFN通过将MinLA基础的排序(GO-LR)与子单元式压缩(NSC)相结合,弥合了这一差距,生成了稳定、低维的表示,使得TabPFN风格的预测器能够在真正的高维场景中有效运行,而无需修改TabPFN骨干网络。

参见图注

图2:元特征构建。GO-LR首先全局排序特征;然后NSC将有序轴分割为连续的邻域,并通过PCA将每个段压缩为一个标量元特征。最终向量\(Z(x) = (z_1, \ldots, z_M)\)传递给冻结的TabPFN-2.5头部。更多说明见附录T(https://arxiv.org/html/2606.05441#A20)。

## 3 方法论

问题形式化。令\(X \in \mathbb{R}^{n \times m}\)为输入矩阵,包含\(n\)个样本和\(m\)个特征。我们定义通过对样本进行聚类得到的样本划分\(\{I_c\}_{c=1}^k\),以及公式1中的聚类限制矩阵。

\[
X^{(c)} = X[I_c,:] \in \mathbb{R}^{n_c \times m}, \quad n_c = |I_c|
\tag{1}
\]

对于每个\(X^{(c)}\),我们构建对应的聚类特征图\(G_c = (V, E, w^{(c)})\),其中\(V = \{1, \ldots, m\}\)是共享的特征集,\(w_{ij}^{(c)}\)衡量聚类\(c\)内特征间的差异性。局部排列\(\pi_c\)通过最小化\(G_c\)上的MinLA风格散布目标获得,最终全局排列\(\Pi^*\)通过聚合各聚类的局部排名得到。所有排列都是针对特征的,GO-LR输出单个全局特征顺序\(\Pi^*\),而不是不同特征空间(稍后需要跨聚类重新排列)。\(\Pi^*\)随后用于NSC的分割和压缩。图1、2和3总结了流程:GO-LR线性化特征图,NSC分割并将连续有序邻域压缩为元特征,最终得到的token在GOTabPFN内传递给冻结的TabPFN-2.5头部。

### 3.1 特征排序作为组合优化问题

问题设定:基于图散布的特征排序。在本节中,我们展示基于GO-LR的特征排序对应于最小线性排列(MinLA)问题,是NP难的,并且严格推广了TSP路径问题。这里,TSP路径是指旅行商(TSP)路径问题:给定一个完全加权图,找到一条哈密顿路径\(\sigma\),使得\(\mathrm{PathCost}(\sigma) = \sum_{t=1}^{m-1} d_{\sigma_t, \sigma_{t+1}}\)最小。我们进一步展示实际的GO-LR算法提供了一种TSP路径风格的初始化,然后在该散布目标下进行局部精细化。我们将基于GO-LR的特征排序与经典组合优化问题(包括线性排列和序列化问题(Díaz等,2002(https://arxiv.org/html/2606.05441#bib.bib11);Seminaroti,2016(https://arxiv.org/html/2606.05441#bib.bib13);Fogel等,2013(https://arxiv.org/html/2606.05441#bib.bib14)))联系起来。它是MinLA(NP难)问题,具有TSP路径启发式实现,并通过精确嵌入严格推广了TSP路径问题。

###### 定理3.1(GO-LR的理论特征)。基于GO-LR的特征排序对应于一个加权MinLA问题,在特征数量上是NP难的,并且严格推广了TSP路径问题。

###### 证明思路。该定理由下面的引理3.8、引理3.9和定理3.12得出。∎

此外,实际的GO-LR算法使用最近邻TSP路径启发式进行初始化,然后应用局部精细化步骤(方向选择和相邻交换),单调地降低MinLA散布目标。本节的其余部分通过一系列等价和约简结果来建立这一特征。

###### 定义3.2(局部特征图)。给定聚类\(c\)及其样本\(X^{(c)} \in \mathbb{R}^{n_c \times m}\),我们定义一个加权特征图\(G_c = (V, E, w)\),其中\(V = \{1, \ldots, m\}\)索引特征,\(w_{ij} \geq 0\)量化从\(X^{(c)}\)计算得到的特征\(i\)和\(j\)之间的差异性(例如,\(1 - |\mathrm{corr}|\);参见附录T(https://arxiv.org/html/2606.05441#A20),JS(Jensen-Shannon散度)/KL(Kullback-Leibler散度),余弦/欧氏/曼哈顿距离)。当一对特征被包含时(通常对于完全图\(E = V \times V \setminus \{(i,i)\}\),或者稀疏邻域图),我们记\((i,j) \in E\)。

###### 定义3.3(散布目标(GO-LR局部排序))。一个局部排序是一个双射\(\pi: V \to \{0, \ldots, m-1\}\),将每个特征分配到一个位置。聚类\(c\)的散布\(\pi\)如公式2所示。GO-LR局部排序问题是计算具有最小散布的局部排序,如公式3所示。

\[
D_{G_c}(\pi) = \sum_{(i,j) \in E} w_{ij} |\pi(i) - \pi(j)|
\tag{2}
\]

\[
\pi_c^* \in \arg\min_{\pi} D_{G_c}(\pi)
\tag{3}
\]

###### 定义3.4(GO-LR局部精细化算子)。令\(\pi^{(0)} \leftarrow \mathrm{NNPath}(G_c)\)为最近邻初始化(\(V\)的一个排列)。我们将\(\mathrm{rev}(\pi)\)定义为反转后的排列,并令\(\mathcal{N}(\pi)\)表示通过一次相邻交换得到的排列集合(公式4)。GO-LR首先执行方向选择(公式5),然后应用\(P\)次相邻交换下降(公式6),如果\(\pi^{(p+1)} = \pi^{(p)}\)则提前停止。精细化后的局部排序为\(\pi_c \leftarrow \pi^{(P)}\)。在公式4中,\(\mathrm{swap}_t(\pi)\)是相邻交换算子,返回交换位置\(t\)和\(t+1\)处的元素得到的排列。

相似文章

TabPFN-3:技术报告

arXiv cs.LG

TabPFN-3 是一个新的表格数据基础模型,在合成数据上预训练,可扩展到 100 万训练行,同时减少训练和推理时间,在表格预测、时间序列和关系数据上实现了最先进的性能。

当表格基础模型遇到策略性表格数据:一种先验对齐方法

arXiv cs.AI

本文研究了基于预训练先验数据拟合网络的表格基础模型是否能够泛化到个体在部署后修改特征的策略性表格数据。提出了策略性先验数据拟合网络(SPN),这是一个无需重新训练即可将PFN预测与操纵后分布对齐的推理时框架。

PriorLabs/TabPFN

GitHub Trending (daily)

PriorLabs 推出了 TabPFN,这是一种专为表格数据设计的基座模型。