无需数据清洗即可获得高质量预测(为何“垃圾进,垃圾出”有时是一种误区)
摘要
这篇arXiv预印本挑战了“垃圾进,垃圾出”的经验法则,认为在高维表格数据中,激进的手动数据清洗可能会通过减少三角测量潜在驱动因素所需的维度,从而限制预测性能。
**完整 arXiv 预印本:** [https://arxiv.org/abs/2603.12288](https://arxiv.org/abs/2603.12288) **论文模拟代码 GitHub:** [https://github.com/tjleestjohn/from-garbage-to-gold](https://github.com/tjleestjohn/from-garbage-to-gold)
你好,r/artificial 的各位,
对我们许多人来说,这是一个肮脏的小秘密……有时候,如果你直接将原始且易出错的数据表交给下游的 AI/ML 模型,而不是使用精心策划的特征集,这些模型的表现往往出奇地好。尽管如此,我们领域的绝大多数人仍然对“垃圾进,垃圾出”(GIGO,Garbage In, Garbage Out)的信条怀有强烈的忠诚。虽然自动化的 ETL 管道对于结构化数据至关重要,但我们的工作流仍然因无尽的清理和激进的插补而受到瓶颈限制,仅仅为了策划出完美无缺、零错误的数据表。
我和我的合著者最近在 arXiv 上发布了一篇预印本(*From Garbage to Gold*),论证将 GIGO 视为普遍法则有时可能是一个陷阱……特别是在大数据(多列)的背景下。我们认为,当潜在原因驱动系统行为时,由于手动数据清理造成的瓶颈实际上会降低我们模型的预测上限。
需要明确的是:我们**并不**反对 ETL。解析 JSON、处理模式演变以及标准化数据类型是不可商榷的。我们*真正*反对的是这样一种普遍假设:即在大数据预测性 AI/ML 建模中,“干净”的数据(通过手动数据清洗和激进插补获得)是不可商榷的前提。
以下是传统思维模式为何具有局限性的原因:
**1. 我们将两种不同类型的“噪声”混淆了(预测误差与结构性不确定性)。**
通常,我们将所有噪声都归入一个大类别。但如果你将这些噪声分为两个特定的类别,数学逻辑就会完全改变:
* **预测误差(Predictor Error):** 随机拼写错误、日志丢失或瞬态故障。
* **结构性不确定性(Structural Uncertainty):** 记录指标与它们所代表的复杂、隐藏现实之间固有的、无法解决的差距。
我们花费数月时间手动清洗数据,是因为数据错误的威胁显而易见,而结构性不确定性往往最多只是事后诸葛亮。然而,当潜在原因驱动系统时,手动清洗可以修复由错误引起的噪声,但它从根本上无法修复由结构性不确定性引起的噪声。另一方面,论文表明,在此背景下,如果你使用全面的高维数据架构,灵活模型实际上可以在数据错误存在的情况下可靠地三角定位隐藏驱动因素。通过保留大量杂乱、高度相关的变量(即使它们容易出错),冗余信号的巨大体积允许模型淹没单个错误(绕过清洗瓶颈),同时克服结构性不确定性。这重新定义了“数据质量”。它不仅仅关乎变量测量的准确性,还关乎变量组合如何全面且冗余地覆盖系统的潜在驱动因素。
**2. 手动清理是维度上的瓶颈(实际问题)。**
为了克服结构性不确定性,现代 AI/ML 模型希望找到系统底层的潜在驱动因素(想象一下表示学习,但是用于表格数据)。然而,为了做到这一点,它们需要一个包含*信息性共线性(Informative Collinearity)*的高维变量集,以便从数学上三角定位隐藏驱动因素。
一旦引入手动清理,就会造成人为瓶颈。因为我们无法手动清理 10,000 个变量,所以被迫丢弃其中的 9,900 个。通过人为限制预测空间以使其“足够干净以供建模”,我们可能会损害数据架构固有的三角定位那些潜在驱动因素的潜力。我们牺牲了模型的实际预测上限,仅仅是为了满足 GIGO 的经验法则。
最终,这表明我们应该主要关注使用自动化工具进行提取、加载和提高观测保真度,但在以潜在驱动因素为特征的环境中,我们应该停止让手动清理瓶颈限制我们 AI/ML 模型的规模。
**大家怎么看?**
你们是否遇到过这样的情况:数据科学团队通过绕过手动清洗的数据表,直接从原始 ELT 层提取高维数据,从而获得了更好的预测结果?我很想听听你们的经验或想法。欢迎讨论所有认真的评论或问题。
**完全披露:** 这篇预印本是一本 120 页的巨著。篇幅较长,因为它不仅通过定性论据提出核心理论,还对所有内容进行了完整的数学处理,这需要大量空间。我们还深入探讨了边缘情况、当诸如局部独立性之类的假设被违反时(例如,存在系统性错误)会发生什么、更广泛的影响(例如与良性过拟合以及使这种高维策略在有限计算资源下变得实用的有效特征选择策略之间的联系)、深度模拟、失败模式以及未来研究的巨大议程(因为我们不声称这篇论文是该问题的最终定论)。这是一个重大的前期投入,但长远来看可能会节省你的时间和金钱,同时提升表格 AI/ML 模型的预测上限。
相似文章
预测瓶颈无法发现因果结构(但它们实际上能做什么)
本文质疑了诸如 Mamba 等模型中的预测瓶颈能够恢复因果结构的说法,并通过一个新的基准测试证明,其性能提升主要归因于混杂因素和鲁棒性伪影,而非真正的因果发现。
你是否同意Judea的观点,即从数据中学习并非万能?[D]
Judea Pearl认为,仅从数据学习存在数学上的局限性,指出无法从相关性推断因果关系。本文引发讨论:纯粹的数据驱动学习是否足够。
重新思考大模型训练中的数据策展:在线重加权比离线方法具有更好的泛化能力
本文介绍了 ADAPT,这是一个用于大语言模型数据策展的在线重加权框架。该框架通过损失加权在训练过程中动态调整样本重要性,在跨基准测试的泛化能力方面优于离线筛选和混合方法。
还有人觉得AI基准测试在预测实际性能方面越来越没用了吗?
本文讨论了AI基准测试高分与实际真实表现之间日益扩大的差距,重点强调了诸如一致性、延迟和上下文处理等问题。
图自监督学习对现实世界噪声的鲁棒性:基于文本驱动生物医学图的案例研究
本文介绍了 NATD-GSSL 框架,用于评估图自监督学习在含噪声的文本驱动生物医学图上的鲁棒性。研究表明,尽管存在现实世界的噪声,某些 GNN 架构和 pretext tasks(辅助任务)仍能保持性能,为在不完美数据集上进行无监督学习提供了实用指导。