Geometry-Aware Tabular Diffusion

arXiv cs.LG 2026/06/03 04:00 论文
摘要
介绍了Geometry-Aware Tabular Diffusion（GATD），该方法通过显式的成对几何特征增强表格扩散去噪器。在十个基准测试上取得了最先进的性能，同时使用的参数显著更少。
arXiv:2606.02607v1 Announce Type: new 摘要：表格合成对于隐私保护共享和增强至关重要，但扩散模型依赖隐式机制来捕获列间关系。我们引入了Geometry-Aware Tabular Diffusion（GATD），该方法利用从列值差异计算出的成对角度和长度来增强表格扩散去噪器，并将其作为输入和辅助目标。我们的MLP实例在平均使用3.5倍更少参数（分类任务中高达25倍）的情况下实现了最先进的基准性能：在十个数据集上，它在8/10的Shape、7/10的Trend和9/10的下游效用（F1/RMSE）上获胜，将Shape和Trend误差分别降低了27%和20%。默认损失权重可迁移到GNN和Transformer去噪器，在27/30的Shape和25/30的Trend架构-数据集单元格上有所改进。一项匹配消融实验表明，监督（而非额外输入或容量）推动了性能提升。这表明显式关系监督是表格扩散的一种可迁移归纳偏置。
查看原文
查看缓存全文
缓存时间: 2026/06/03 09:39
# 几何感知表格扩散 来源：https://arxiv.org/html/2606.02607 ###### 摘要 表格数据合成对于隐私保护的数据共享和数据增强至关重要，然而扩散模型依赖隐式机制来捕获列间关系。我们引入几何感知表格扩散（GATD），该方法通过从列值差异计算得到的成对角度和长度，将其作为输入和辅助目标来增强表格扩散去噪器。我们的 MLP 实例化在下游基准测试中达到最先进水平，同时平均使用的参数减少了 3.5 倍（分类任务最多减少 25 倍）：在十个数据集上，它在 8/10 的形状、7/10 的趋势和 9/10 的下游效用（F1/RMSE）指标上获胜，将形状和趋势误差分别降低了 27% 和 20%。默认的损失权重可迁移到 GNN 和 Transformer 去噪器，在 27/30 的形状和 25/30 的趋势架构-数据集单元上取得改进。一项匹配的消融实验表明，性能提升源于监督（而非额外输入或容量）。这表明显式关系监督是一种可移植的表格扩散归纳偏置。 扩散模型，表格数据，几何深度学习，数据合成 ## 1 引言 表格数据仍然是企业应用、医疗保健和科学研究中的主要格式。合成逼真的表格数据能够实现隐私保护的数据共享（Zhang 等，2024 (https://arxiv.org/html/2606.02607#bib.bib21)）、增强有限的训练集（Kotelnikov 等，2023 (https://arxiv.org/html/2606.02607#bib.bib11)），并促进下游模型开发，而无需暴露敏感记录。然而，表格合成面临独特的困难。与图像或文本不同，表格数据表现出异质的列类型、复杂的列间依赖关系以及高度非高斯分布的边际分布——这些特性对深度生成模型构成了挑战。 扩散模型最近成为表格合成的一种有前景的方法。TabDDPM（Kotelnikov 等，2023 (https://arxiv.org/html/2606.02607#bib.bib11)）、STaSy（Kim 等，2023 (https://arxiv.org/html/2606.02607#bib.bib9)）、TabSyn（Zhang 等，2024 (https://arxiv.org/html/2606.02607#bib.bib21)）和 TabDiff（Shi 等，2025 (https://arxiv.org/html/2606.02607#bib.bib16)）等方法将去噪框架应用于混合连续-分类数据，并在标准基准上取得了强劲结果。在这些方法中，基于 Transformer 的架构变得普遍：自注意力机制提供了一种灵活的方式来建模列之间的关系，使网络能够学习哪些列应该协同变化以及如何变化。然而，这种灵活性将列间结构的推断完全留给了去噪目标。这引出了一个自然的问题：*我们能否提供显式的关系结构作为辅助监督信号，并且该信号能否在表格扩散中的不同去噪架构之间迁移？* 我们对这两个问题都给出肯定答案。 本文引入**几何感知表格扩散（GATD）**，该方法用直接从列值计算得到的显式成对几何特征增强表格扩散去噪器：一个捕捉列之间方向关系的角度和一个捕捉量值的长度（图 1 (https://arxiv.org/html/2606.02607#S2.F1)；完整定义见第 3.2 节 (https://arxiv.org/html/2606.02607#S3.SS2)）。这些特征作为模型输入提供，并且关键的是，模型被训练通过辅助损失来预测它们。这种几何表示提供了列间结构的显式编码，我们发现它可以在架构不同的扩散去噪器之间迁移。我们的主张并非注意力或消息传递无法学习这种结构，而是显式几何监督可以减轻去噪器的负担，并提供一种可移植的关系归纳偏置。 一个关键发现是几何**监督**是必要的，而不仅仅是几何**输入**：一项架构匹配的消融实验表明，在没有监督的情况下，仅提供几何输入和预测头不会带来任何收益（Cohen's d=−0.08），而恢复监督则产生大效应（d=0.81；第 4.3 节 (https://arxiv.org/html/2606.02607#S4.SS3)）。辅助预测任务迫使网络内化列间结构；仅靠架构机制不产生收益。 我们将几何信号作为即插即用模块，在三种扩散去噪骨干网络上进行评估：残差 Diffusion-MLP、使用拉普拉斯特征图位置编码的 GNN 以及列式 Transformer。所有方法在十个基准数据集上使用相同的默认几何损失权重 (λθ, λℓ, λc) = (15,15,8)，每组实验使用 3 个训练种子和每个单元 20 个生成种子。完整的各架构统计数据和 MLP+Geom 与 TabDiff 的对比出现在第 4.2 节 (https://arxiv.org/html/2606.02607#S4.SS2) 和第 4.4 节 (https://arxiv.org/html/2606.02607#S4.SS4)。 作为跨架构可移植性主张的一个推论，紧凑的 MLP 实例化能够匹配或超越 TabDiff。先前报道的 MLP 骨干上的分类锚定机制（ρ=0.70, p=0.025）不能跨架构泛化（第 4.5 节 (https://arxiv.org/html/2606.02607#S4.SS5)，附录 A.4 (https://arxiv.org/html/2606.02607#A1.SS4)）：我们将分类结构描述为几种操作机制中的一种，而不是 +Geom 的必要条件。 ##### 贡献。我们的贡献包括：(1) 用于表格扩散的成对角度/长度特征，用作输入和辅助目标；(2) 一项架构匹配的监督消融实验，表明仅输入（InputsOnly）与无几何（NoGeom）无法区分（d=−0.08），而有监督的几何则具有大效应（d=0.81）；(3) 在 MLP、GNN 和 Transformer 去噪器上的可移植性（27/30 的形状、25/30 的趋势获胜）使用共享默认参数；(4) 一个高效匹配/超越 TabDiff 的 MLP 实例化；(5) 关于 O(d²) 缩放、采样和损失权重的实用指导。 ## 2 相关工作 ### 2.1 表格数据的扩散模型 扩散模型已成为一种强大的替代方案，提供稳定的训练和强大的分布覆盖。TabDDPM（Kotelnikov 等，2023 (https://arxiv.org/html/2606.02607#bib.bib11)）开创了表格数据的扩散方法，将连续列的 Gaussian 扩散与分类列的 Multinomial 扩散（Hoogeboom 等，2021 (https://arxiv.org/html/2606.02607#bib.bib7)）相结合。STaSy（Kim 等，2023 (https://arxiv.org/html/2606.02607#bib.bib9)）使用了基于分数的带有自步学习的方法。CoDi（Lee 等，2023 (https://arxiv.org/html/2606.02607#bib.bib12)）提出了协同演化的对比扩散，分别为连续列和分类列使用单独的模型。TabSyn（Zhang 等，2024 (https://arxiv.org/html/2606.02607#bib.bib21)）引入了 VAE-然后-扩散的方法，在学习的潜在空间中应用扩散。TabDiff（Shi 等，2025 (https://arxiv.org/html/2606.02607#bib.bib16)）通过将连续列的 EDM（Karras 等，2022 (https://arxiv.org/html/2606.02607#bib.bib8)）与分类列的 Masked 扩散（Austin 等，2021 (https://arxiv.org/html/2606.02607#bib.bib2)）相结合，并添加可学习的逐列噪声调度和用于建模列关系的 Transformer 架构，统一了连续和分类扩散。TabDiff 取得了最先进的结果，在 7 个基准数据集的 3 个核心指标的 21 项度量中，有 17 项优于先前方法（TabDDPM、STaSy、CoDi、TabSyn、CTGAN、TVAE）；因此我们将 TabDiff 作为主要基线。我们使用相同的扩散损失（连续列使用 EDM，分类列使用 Masked 交叉熵），保持扩散框架不变，以隔离显式几何监督（第 3 节 (https://arxiv.org/html/2606.02607#S3)）以及下文描述的基于反射的边界处理的贡献。作为即插即用信号的几何也改善了这些基准上的基于 Transformer 的去噪器，表明它对注意力起到了补充而非替代的作用。 ### 2.2 几何深度学习 几何深度学习将几何结构融入神经网络（Bronstein 等，2021 (https://arxiv.org/html/2606.02607#bib.bib3)）。GNN 在图上传送消息（Kipf & Welling, 2017 (https://arxiv.org/html/2606.02607#bib.bib10); Veličković 等，2018 (https://arxiv.org/html/2606.02607#bib.bib19)）；Transformer 中的位置编码（Vaswani 等，2017 (https://arxiv.org/html/2606.02607#bib.bib18); Su 等，2024 (https://arxiv.org/html/2606.02607#bib.bib17)）展示了几何信息如何引导注意力。一个关键见解是，显式几何结构能够加速学习并改善泛化。然而，几何深度学习一直集中在固有结构化的数据——图、点云、分子。表格数据尽管存在有意义的列关系，但尚未从几何方法中受益。我们通过从表格数据中隐式的关系结构构建几何特征来弥合这一差距。 ### 2.3 在文献中的定位 据我们所知，没有先前的表格生成器提供显式的成对几何监督。CTGAN/TVAE（Xu 等，2019 (https://arxiv.org/html/2606.02607#bib.bib20)）、TabDDPM（Kotelnikov 等，2023 (https://arxiv.org/html/2606.02607#bib.bib11)）和 CoDi（Lee 等，2023 (https://arxiv.org/html/2606.02607#bib.bib12)）使用 MLP 骨干网络，没有显式的关系建模；TabSyn（Zhang 等，2024 (https://arxiv.org/html/2606.02607#bib.bib21)）和 TabDiff（Shi 等，2025 (https://arxiv.org/html/2606.02607#bib.bib16)）使用 Transformer 骨干网络，通过注意力隐式学习列关系。我们的成对角度和长度特征，既作为输入又作为辅助预测目标，使得在架构多样的骨干网络上取得强劲性能，包括一个紧凑的 MLP 能够匹配或超越基于 Transformer 的 SOTA。相同的监督信号也改善了基于 Transformer 的去噪器（第 4.2 节 (https://arxiv.org/html/2606.02607#S4.SS2)），表明几何监督和注意力是互补的而非可替代的关系建模归纳偏置。 参考图说明图 1：几何直觉。列间关系通过成对角度 θij=arctan(vj−vi) 和长度 ℓij=½log(1+(vj−vi)²) 编码，提供了显式的关系目标。图 (b) 和 (c) 展示了来自 Adult 和 Default 的示例行。 ## 3 方法 ### 3.1 预备知识 ##### 扩散框架。我们完全采用 TabDiff（Shi 等，2025 (https://arxiv.org/html/2606.02607#bib.bib16)）的扩散框架：连续列使用 EDM（Karras 等，2022 (https://arxiv.org/html/2606.02607#bib.bib8)），分类列使用 Masked 扩散（Austin 等，2021 (https://arxiv.org/html/2606.02607#bib.bib2)）（带有可学习的逐列 k）。对于连续列，去噪输出为： Dθ(x;σ)=cskip(σ)x + cout(σ) Fθ(cin(σ)x;σ), (1) 其中 Fθ 是原始网络，预处理系数为 cin=1/√(σ²+σdata²), cskip=σdata²/(σ²+σdata²), 和 cout=σ·σdata/√(σ²+σdata²)（Karras 等，2022 (https://arxiv.org/html/2606.02607#bib.bib8)）。我们使用可学习的逐列 ρ 进行噪声调度（Shi 等，2025 (https://arxiv.org/html/2606.02607#bib.bib16)）。这一刻意选择使我们能够将几何特征的贡献与扩散修改隔离开来。 ##### 标记法。考虑一个具有 d_cont 个连续列和 d_cat 个分类列的表格数据集，总列数为 d=d_cont+d_cat。我们将归一化的列值表示为 v∈[−1,1]^d。 ### 3.2 几何特征表示 我们工作的核心贡献是使用显式捕获列间关系的成对几何特征来增强扩散模型。 #### 3.2.1 成对角度 对于每对列 (i,j)，其中 i<j，我们在归一化值 vi 和 vj 之间定义一个角度： θij = arctan(vj − vi) ∈ (−π/2, π/2). (2) 该角度编码了变化方向：正值表示值增加，负值表示减少，零表示相等。关键的是，这个特征捕获了列之间的**方向关系**——两列值是正相关（θij>0 的可能性更大）、负相关（θij<0），还是独立（各个方向的混合）。 #### 3.2.2 成对长度 我们定义一个长度来捕获列间差异的**幅度**： ℓij = ½ log(1 + (vj − vi)²) ∈ [0, ∞). (3) 这相当于对差异应用一个平滑的幅度变换：vj−vi 接近零时 ℓij≈0，差异大时 ℓij≈log|vj−vi|。该特征捕获了列值之间是紧耦合（小差异）还是松弛耦合（大差异）。组合起来，θ 和 ℓ 编码了信息论和统计意义上的相关性。 #### 3.3 辅助任务：预测几何特征 我们训练网络 Fθ 来预测这些几何特征。给定一个包含连续和分类特征的输入特征向量 f∈B，其中 f 可能是一个去噪网络中的中间表示，我们在最后添加自我注意或消息传递层之后插入一个小的几何预测头。该预测头是一个 2 层 MLP，隐层大小为 16，输出维度为 2m，其中 m=d(d−1)/2 是成对数量。我们通过修改 TabDiff 的目标来训练，加入三个额外的损失项。**几何角度损失：** ℒ_angle = (1/m)Σ_{i<j} MSE(θ̂_ij, θ_ij). (4) **几何长度损失：** ℒ_length = (1/m)Σ_{i<j} MSE(ℓ̂_ij, ℓ_ij). (5) **几何一致性损失：** 由于顺序，θ_ij = −θ_ji，但我们仅在 i<j 时预测。然而，我们对相同的 (i,j) 对预测两个角度：θ̂_ij 和 θ̂_ji（通过独立处理 (j,i) 对）。一致性地惩罚它们的和： ℒ_consistency = (1/m)Σ_{i<j} MSE(θ̂_ij + θ̂_ji, 0). (6) 总损失为： ℒ_total = ℒ_diff + λ_θ ℒ_angle + λ_ℓ ℒ_length + λ_c ℒ_consistency, (7) 其中 ℒ_diff 是 TabDiff 的扩散损失。我们使用默认权重 (λ_θ, λ_ℓ, λ_c) = (15, 15, 8)，适用于所有数据集和所有架构。鲁棒性分析见附录 A.6 (https://arxiv.org/html/2606.02607#A1.SS6)。 #### 3.4 网络架构细节 虽然几何特征原则上可以应用于任何去噪架构，但我们考虑三种骨干网络以适应表格数据：**Diffusion-MLP**：一个残差 MLP，类似于 TabDDPM 的 MLP 但具有 TabDiff 的训练动态。唯一的修改是向所有隐藏层添加扩散时间步 t 的投影。 **GNN with Laplacian Eigenmaps (GNN+LE)**：我们构建一个完全连通的图（节点=列，边=(i,j) 对应成对几何特征）。我们对每个节点应用两个图卷积层，使用从列计数归一化的图拉普拉斯谱分解的前 8 个特征向量作为固定位置编码。该架构固有地保留了列顺序。 **Column-wise Transformer**：我们将可选的注意掩码替换为列级的可学习位置嵌入 E_pos ∈ R^{d×h}。我们将 Transformer 层应用于列序列：X = LayerNorm(X + E_pos)，然后通过列级 FFN。 在所有情况下，几何特征（θ, ℓ）在我们将列值连接之前作为额外输入添加到网络 Fθ 中。在 MLP 中，我们将列索引嵌入并连接与 c_in x 连接后的特征；在 GNN 中，我们将它们作为边缘特征；在 Transformer 中，我们将它们作为辅助输入嵌入并添加它们。关键的是，在所有架构中，几何预测头是在最后自我注意/消息传递层之后插入的，保持几何特征对主干内部表示的监督。 #### 3.5 边界处理 由于列值被归一化到 [−1,1]，差异位于 [−2,2] 内，因此角度在区间 [−arctan(2), arctan(2)] ≈ [−1.11, 1.11] 内有界，而长度 ℓ 在 [0, ½log(1+4) ≈ 0.80] 内有界。对于特征归一度，我们通过从零开始的反向映射对角度和长度输出应用 tanh：N_θ(z) = (π/2) tanh(z)，N_ℓ(z) = ½log(1+4) tanh(z)，然后计算损失。这确保我们的几何特征保持在有效范围内，并在边界处自然饱和。在采样时，我们对长度输出应用反射变换：如果 s>1，我们映射 s↦2−s，如果 s<0，我们映射 s↦−s，重复最多 10 次，最终数值裁剪到 [0,1]。这避免了质量在边界处集中。 表 1：数据集统计。我们将低基数的整数重新分类为分类：education.num（Adult）、Administrative、Informational、SpecialDay（Shoppers）以及 n_tokens_title、n_non_stop_words、num_keywords（News）。为了基准测试的可重复性，我们保持 TabDiff 的列分类相同。 ## 4 实验 ### 4.1 实验设置 ##### 数据集。我们在 TabDiff 基准中的七个数据集和另外三个数据集上进行评估，涵盖 5 个二分类和 5 个回归任务（表 1 (https://arxiv.org/html/2606.02607#S3.T1)）。 ##### 指标。遵循 TabDiff，我们评估：(1) **形状（Shape）**——通过 SDMetrics（Patki 等，2016 (https://arxiv.org/html/2606.02607#bib.bib15)）ColumnShapeSimilarity 评估的边际分布保真度；(2) **趋势（Trend）**——通过 ColumnPairTrendsSimilarity 评估的相关性保持；(3) **MLE（机器学习效能）**——使用 XGBoost（Chen & Guestrin, 2016 (https://arxiv.org/html/2606.02607#bib.bib4)）的下游效用（分类使用 AUROC/F1，回归使用 R2/RMSE）。 ##### 基线。我们的主要评估比较了 +Geom 与没有几何特征或损失的相同扩散去噪架构，涵盖三个骨干网络：残差 MLP（原始 GATD）、带有拉普拉斯特征图位置编码的 GNN（GNN+LE）和列式 Transformer。我们另外在 MLP 轨道上对比 TabDiff（Shi 等，2025 (https://arxiv.org/html/2606.02607#bib.bib16)），即先前的表格扩散最先进模型，以便将绝对性能与已公布数字进行锚定（第 4.4 节 (https://arxiv.org/html/2606.02607#S4.SS4)）。对于监督与容量的消融实验，我们进一步包含一个仅输入（InputsOnly）配置，定义在第 4.3 节 (https://arxiv.org/html/2606.02607#S4.SS3)。 ##### 协议。我们扩展了 TabDiff 协议：20,000 个训练轮次（对比 TabDiff 的 8,000 个），在第 10,000 轮次后选择最佳模型（对比 4,000 个），3 个训练种子，每个训练种子 20 个生成种子。 ### 4.2 主要结果：跨架构评估 两个互补的证据支持我们的方法论主张。首先，直接监督是操作变量：保持架构、参数和梯度拓扑不变，仅移除几何损失权重，性能就回落到无几何基线（第 4.3 节 (https://arxiv.org/html/2606.02607#S4.SS3)）。其次，相同的监督信号可以移植到架构多样的扩散骨干网络上：表 2 (https://arxiv.org/html/2606.02607#S4.T2) 报告了 +Geom 与相同架构基线在三种扩散去噪骨干网络上的成对形状和趋势误差，作为即插即用模块应用，无需针对特定架构进行调优。每个数据集的下游效用指标 MLE-1 和 MLE-2 结果出现在表 12 (https://arxiv.org/html/2606.02607#A1.T12) 和表 13 (https://arxiv.org/html/2606.02607#A1.T13)（附录 A.7 (https://arxiv.org/html/2606.02607#A1.SS7)）中。
Geometry-Aware Tabular Diffusion

相似文章

TDGT：一个支持自适应GPU加速贝叶斯混合模型、扩散模型和潜在空间生成建模的表格数据生成工具包

用于鲁棒多视图三维重建的几何感知表示去噪

金融领域的约束表格扩散

基于策略引导的扩散修复的主动表格数据增强

PointDiT: 像素空间扩散用于单目几何估计

提交意见反馈