用于回归的反事实残差数据增强
摘要
提出了一种针对表格回归的反事实残差数据增强(CRDA)方法,利用特征扰动下残差不变性生成逼真的训练样本,在基准测试中实现了显著的均方误差(MSE)降低。
arXiv:2606.28460v1 公告类型:新
摘要:实际回归任务中的数据驱动建模常常面临训练样本有限、采集成本高和观测噪声大的问题。受数据增强在视觉和语言领域影响的启发,我们提出了一种新颖的针对表格回归的反事实残差数据增强(CRDA)技术。我们的关键洞察是,一旦回归器对数据的系统性成分进行了建模,剩余的噪声可以被视为在精心选择的特征的小扰动下保持稳定的不变残差。我们利用这种残差不变性生成新的、逼真的训练样本,从而有效扩展数据集,无需额外的真实数据。我们的方法不依赖于特定模型,可轻松应用于各种回归器。在多个基准数据集上的实验中,CRDA平均将MLP Regressor的MSE降低了22.9%,将XGBoost Regressor的MSE降低了6.4%。与现有的最先进数据生成器和增强技术相比,CRDA在MSE降低方面始终优于其他方法。通过向训练数据添加原则性的反事实变体,我们的方法为易受噪声影响的小样本回归问题提供了一种简单高效的补救措施。
查看缓存全文
缓存时间: 2026/06/30 05:27
# 用于回归的反事实残差数据增强 来源:https://arxiv.org/abs/2606.28460 查看PDF(https://arxiv.org/pdf/2606.28460) > **摘要:**现实回归任务中的数据驱动建模常面临训练样本有限、采集成本高昂以及观测噪声大等问题。受数据增强在视觉和语言领域成功应用的启发,我们提出一种新颖的**反事实残差数据增强(CRDA)**技术,专门用于表格数据的回归任务。我们的核心洞察在于:一旦回归器建模了数据的系统成分,剩余噪声可被视为一种不变残差,该残差在精心挑选特征的微小扰动下保持稳定。我们利用这种残差不变性生成新的、且具有现实意义的训练样本,从而在不额外获取真实数据的情况下有效扩展数据集。我们的方法具有模型无关性,可轻松适用于各类回归器。在来自多个基准数据集库的实验结果表明,平均而言,CRDA使MLP回归器的均方误差(MSE)降低22.9%,使XGBoost回归器的MSE降低6.4%。与现有最先进的数据生成器和增强技术相比,CRDA在MSE降低方面持续表现更优。通过向训练数据中加入基于原则的反事实变体,我们的方法为噪声干扰严重、样本量小的回归场景提供了一种简单而高效的解决手段。 ## 提交历史 来自:Hossein Mohebbi \[查看邮箱(https://arxiv.org/show-email/df812ac2/2606.28460)\] **\[v1\]** 2026年6月26日星期五 13:04:37 UTC(563 KB)
相似文章
关注残差缺口:真实世界偏差下的概率降尺度
本文介绍了ReMatch方法,该方法通过PCA空间中的最优传输将训练残差分布与测试时分布对齐,以减轻概率降尺度中的偏差,从而获得更好的校准和离散度。
R2R2: 通过自预测学习中的冗余减少实现鲁棒表示,用于密集经验重用
提出R2R2,一种用于强化学习中自预测学习的正则化方法,以缓解高更新-数据比下的过拟合,在连续控制任务上取得了显著改进。
从残差到推理:基于LLM的表格数据机制推断
介绍了多智能体残差上下文学习(MARICL),这是一种智能体框架,利用LLM智能体分析基础模型在表格数据上的残差,假设缺失的结构,并通过文本梯度优化产生显式的修正项。在九个基准测试中,MARICL持续优于其基础模型,并在无细胞蛋白质预测中展示了机制泛化能力。
REVES: REVES:修订与验证增强的测试时扩展训练
提出REVES,一种两阶段迭代框架,交替进行数据增强与策略优化,通过利用中间修正步骤提升LLM推理能力,在编程基准测试和约束满足问题上取得更优性能。
RAFT:缓解遗忘的领域微调中的数据优化与自适应蒸馏
RAFT是一个两阶段框架,用于LLM的领域特定微调。它通过优化监督数据和使用带有自适应损失平衡的在线策略蒸馏来解决灾难性遗忘问题,在提升领域精度的同时恢复通用能力,取得了显著改进。