基于策略引导的扩散修复的主动表格数据增强

Hugging Face Daily Papers 2026/05/11 00:00 论文

tabular-data diffusion-models data-augmentation data-scarcity policy-guided inpainting

摘要

提出TAP，一种表格数据增强策略，将扩散修复与学习者条件策略相结合，以在数据稀缺条件下提升下游模型性能，在真实数据集上优于强基线模型。

生成式表格数据增强在数据稀缺领域具有吸引力，然而当前主要关注于分布保真度并不能可靠地转化为更好的下游模型。我们形式化了一个保真度-效用差距：常见的生成目标优先考虑分布合理性，而增强只有在注入样本能够减少当前学习器的留出评估损失时才成功。这一差距激励我们不仅要学习如何生成，还要学习在训练过程中生成什么以及何时注入。我们提出了TAP（表格数据增强策略），它将扩散修复与轻量级的、以学习器为条件的策略相结合，以引导生成朝向高效用区域，并通过显式门控和保守的窗口提交控制安全注入。在严重数据稀缺的情况下，TAP在七个真实数据集上持续优于强生成基线，分类准确率提升高达15.6个百分点，回归RMSE降低高达32%。

查看原文

查看缓存全文

缓存时间: 2026/05/14 20:20

Paper page - 基于策略引导的扩散修补的主动表格数据增强

来源：https://huggingface.co/papers/2605.10315

摘要

表格数据增强策略将扩散修补与学习者条件策略相结合，以在数据稀缺条件下提升下游模型性能。

生成式表格增强（https://huggingface.co/papers?q=Generative%20tabular%20augmentation）在数据稀缺领域（https://huggingface.co/papers?q=data-scarce%20domains）颇具吸引力，但目前对分布保真度（https://huggingface.co/papers?q=distributional%20fidelity）的侧重并不能可靠地转化为更优的下游模型。我们形式化了保真度-效用差距（https://huggingface.co/papers?q=fidelity-utility%20gap）：常见的生成目标优先考虑分布合理性，而增强成功的前提是注入的样本能够降低当前学习器的留出评估损失。这一差距促使我们不仅要学习如何生成，还要学习生成什么以及何时注入——这些随训练过程动态变化。我们提出了 TAP（表格数据增强策略（https://huggingface.co/papers?q=Tabular%20Augmentation%20Policy）），它将扩散修补（https://huggingface.co/papers?q=diffusion%20inpainting）与轻量级的学习者条件策略（https://huggingface.co/papers?q=learner-conditioned%20policy）相结合，引导生成朝向高效用区域，并通过显式门控（https://huggingface.co/papers?q=explicit%20gating）和保守窗口承诺（https://huggingface.co/papers?q=conservative%20windowed%20commitment）控制安全注入。在严重数据稀缺条件下，TAP 在七个真实世界数据集上持续优于强大的生成基线，分类准确率提升最高达 15.6 个百分点，回归 RMSE 降低最高达 32%。

查看 arXiv 页面（https://arxiv.org/abs/2605.10315）查看 PDF（https://arxiv.org/pdf/2605.10315）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.10315）

将本论文放入您的 agent：

hf papers read 2605.10315

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

无模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.10315 以从本页面链接。

引用本论文的数据集0

无数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.10315 以从本页面链接。

引用本论文的 Spaces0

无 Space 链接本论文

请在 Space README.md 中引用 arxiv.org/abs/2605.10315 以从本页面链接。

包含本论文的收藏集0

无收藏集包含本论文

请将本论文添加到一个收藏集（https://huggingface.co/new-collection）以从本页面链接。

基于策略引导的扩散修复的主动表格数据增强

Paper page - 基于策略引导的扩散修补的主动表格数据增强

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Spaces0

包含本论文的收藏集0

相似文章

Geometry-Aware Tabular Diffusion

DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

从噪声到控制：Parameterized Diffusion Policies

@probablynotaz9: ICML 单作者论文警报：是否曾想用经典策略梯度对扩散 LLM 进行后训练，而无需……

面向奖励引导扩散的分层变分策略

提交意见反馈