基于策略引导的扩散修复的主动表格数据增强

Hugging Face Daily Papers 论文

摘要

提出TAP,一种表格数据增强策略,将扩散修复与学习者条件策略相结合,以在数据稀缺条件下提升下游模型性能,在真实数据集上优于强基线模型。

生成式表格数据增强在数据稀缺领域具有吸引力,然而当前主要关注于分布保真度并不能可靠地转化为更好的下游模型。我们形式化了一个保真度-效用差距:常见的生成目标优先考虑分布合理性,而增强只有在注入样本能够减少当前学习器的留出评估损失时才成功。这一差距激励我们不仅要学习如何生成,还要学习在训练过程中生成什么以及何时注入。我们提出了TAP(表格数据增强策略),它将扩散修复与轻量级的、以学习器为条件的策略相结合,以引导生成朝向高效用区域,并通过显式门控和保守的窗口提交控制安全注入。在严重数据稀缺的情况下,TAP在七个真实数据集上持续优于强生成基线,分类准确率提升高达15.6个百分点,回归RMSE降低高达32%。
查看原文
查看缓存全文

缓存时间: 2026/05/14 20:20

Paper page - 基于策略引导的扩散修补的主动表格数据增强

来源:https://huggingface.co/papers/2605.10315

摘要

表格数据增强策略将扩散修补与学习者条件策略相结合,以在数据稀缺条件下提升下游模型性能。

生成式表格增强(https://huggingface.co/papers?q=Generative%20tabular%20augmentation)在数据稀缺领域(https://huggingface.co/papers?q=data-scarce%20domains)颇具吸引力,但目前对分布保真度(https://huggingface.co/papers?q=distributional%20fidelity)的侧重并不能可靠地转化为更优的下游模型。我们形式化了保真度-效用差距(https://huggingface.co/papers?q=fidelity-utility%20gap):常见的生成目标优先考虑分布合理性,而增强成功的前提是注入的样本能够降低当前学习器的留出评估损失。这一差距促使我们不仅要学习如何生成,还要学习生成什么以及何时注入——这些随训练过程动态变化。我们提出了 TAP(表格数据增强策略(https://huggingface.co/papers?q=Tabular%20Augmentation%20Policy)),它将扩散修补(https://huggingface.co/papers?q=diffusion%20inpainting)与轻量级的学习者条件策略(https://huggingface.co/papers?q=learner-conditioned%20policy)相结合,引导生成朝向高效用区域,并通过显式门控(https://huggingface.co/papers?q=explicit%20gating)和保守窗口承诺(https://huggingface.co/papers?q=conservative%20windowed%20commitment)控制安全注入。在严重数据稀缺条件下,TAP 在七个真实世界数据集上持续优于强大的生成基线,分类准确率提升最高达 15.6 个百分点,回归 RMSE 降低最高达 32%。

查看 arXiv 页面(https://arxiv.org/abs/2605.10315)查看 PDF(https://arxiv.org/pdf/2605.10315)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.10315)

将本论文放入您的 agent:

hf papers read 2605.10315

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

无模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.10315 以从本页面链接。

引用本论文的数据集0

无数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.10315 以从本页面链接。

引用本论文的 Spaces0

无 Space 链接本论文

请在 Space README.md 中引用 arxiv.org/abs/2605.10315 以从本页面链接。

包含本论文的收藏集0

无收藏集包含本论文

请将本论文添加到一个收藏集(https://huggingface.co/new-collection)以从本页面链接。

相似文章

Geometry-Aware Tabular Diffusion

arXiv cs.LG

介绍了Geometry-Aware Tabular Diffusion(GATD),该方法通过显式的成对几何特征增强表格扩散去噪器。在十个基准测试上取得了最先进的性能,同时使用的参数显著更少。

从噪声到控制:Parameterized Diffusion Policies

arXiv cs.AI

本文介绍了参数化扩散策略(Parameterized Diffusion Policy, PDP)框架,该框架通过以低维潜在参数为条件,使扩散策略变得可控,从而实现无需重新训练即可进行平滑的行为插值和自适应。在仿真和真实机器人实验中,该方法在复杂的多模态机器人任务上展现了更优的性能。

面向奖励引导扩散的分层变分策略

arXiv cs.LG

提出了面向奖励引导扩散的分层变分策略框架,在降低推理成本的同时实现高质量采样。在超分辨率等任务上展现了优异的质量-速度权衡。