用于回归的反事实残差数据增强

arXiv cs.LG 2026/06/30 04:00 论文

data-augmentation regression counterfactual tabular-data machine-learning noise-reduction

摘要

提出了一种针对表格回归的反事实残差数据增强（CRDA）方法，利用特征扰动下残差不变性生成逼真的训练样本，在基准测试中实现了显著的均方误差（MSE）降低。

arXiv:2606.28460v1 公告类型：新摘要：实际回归任务中的数据驱动建模常常面临训练样本有限、采集成本高和观测噪声大的问题。受数据增强在视觉和语言领域影响的启发，我们提出了一种新颖的针对表格回归的反事实残差数据增强（CRDA）技术。我们的关键洞察是，一旦回归器对数据的系统性成分进行了建模，剩余的噪声可以被视为在精心选择的特征的小扰动下保持稳定的不变残差。我们利用这种残差不变性生成新的、逼真的训练样本，从而有效扩展数据集，无需额外的真实数据。我们的方法不依赖于特定模型，可轻松应用于各种回归器。在多个基准数据集上的实验中，CRDA平均将MLP Regressor的MSE降低了22.9%，将XGBoost Regressor的MSE降低了6.4%。与现有的最先进数据生成器和增强技术相比，CRDA在MSE降低方面始终优于其他方法。通过向训练数据添加原则性的反事实变体，我们的方法为易受噪声影响的小样本回归问题提供了一种简单高效的补救措施。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:27

# 用于回归的反事实残差数据增强
来源：https://arxiv.org/abs/2606.28460
查看PDF（https://arxiv.org/pdf/2606.28460）

> **摘要：**现实回归任务中的数据驱动建模常面临训练样本有限、采集成本高昂以及观测噪声大等问题。受数据增强在视觉和语言领域成功应用的启发，我们提出一种新颖的**反事实残差数据增强（CRDA）**技术，专门用于表格数据的回归任务。我们的核心洞察在于：一旦回归器建模了数据的系统成分，剩余噪声可被视为一种不变残差，该残差在精心挑选特征的微小扰动下保持稳定。我们利用这种残差不变性生成新的、且具有现实意义的训练样本，从而在不额外获取真实数据的情况下有效扩展数据集。我们的方法具有模型无关性，可轻松适用于各类回归器。在来自多个基准数据集库的实验结果表明，平均而言，CRDA使MLP回归器的均方误差（MSE）降低22.9%，使XGBoost回归器的MSE降低6.4%。与现有最先进的数据生成器和增强技术相比，CRDA在MSE降低方面持续表现更优。通过向训练数据中加入基于原则的反事实变体，我们的方法为噪声干扰严重、样本量小的回归场景提供了一种简单而高效的解决手段。

## 提交历史

来自：Hossein Mohebbi \[查看邮箱（https://arxiv.org/show-email/df812ac2/2606.28460）\] **\[v1\]** 2026年6月26日星期五 13:04:37 UTC（563 KB）

用于回归的反事实残差数据增强

相似文章

关注残差缺口：真实世界偏差下的概率降尺度

R2R2: 通过自预测学习中的冗余减少实现鲁棒表示，用于密集经验重用

从残差到推理：基于LLM的表格数据机制推断

REVES: REVES：修订与验证增强的测试时扩展训练

RAFT：缓解遗忘的领域微调中的数据优化与自适应蒸馏

提交意见反馈