@BetaTomorrow: 标题：数据过滤的惨痛教训作者：Christopher Mohri, John Duchi, Tatsunori Hashimoto (@tatsu_hashimo…

X AI KOLs Following 2026/06/12 04:46 论文

data-filtering large-language-models generalization scaling-laws curation manifold-learning

摘要

本文认为，对于足够大的模型，未经过滤的数据可以通过提供弱扰动来提高泛化能力，这与通常认为只有高质量过滤数据才有益的假设相反。作者提醒，有害的条件偏移仍可能损害模型，但过度筛选可能会去除有用的扰动。

标题：数据过滤的惨痛教训作者：Christopher Mohri, John Duchi, Tatsunori Hashimoto (@tatsu_hashimoto) 当模型缺乏足够能力来分离流形区域时，过滤是有帮助的。但当模型足够大时，未过滤的数据会在更广泛的流形上提供弱随机扰动。这些扰动可以激活更多内在路径，稳定更多不动点盆地，并提高泛化能力。这里的“惨痛教训”不仅仅是规模胜过筛选，而是过度筛选可能移除高维非线性数据中构建不动点所需的扰动。需要警惕的是：这不应被夸大为“所有数据都是好的”。论文本身指出，有害的条件偏移仍可能损害模型，例如看起来像正常高质量文本的系统性错误陈述。Deep Manifold 也会这么说：有用的扰动推动流形；对抗性或错误的条件结构可能会锚定错误的不动点。** Dataualism ** https://x.com/BetaTomorrow/status/2048580677290070016… #DeepManifoldInterpretation

查看原文

查看缓存全文

缓存时间: 2026/06/13 14:17

标题：数据过滤的苦涩教训
作者：Christopher Mohri、John Duchi、Tatsunori Hashimoto（@tatsu_hashimoto）

当模型缺乏足够容量来分离流形区域时，过滤数据确实有帮助。但若模型规模足够大，未经过滤的数据反而能在更广阔的流形上提供微弱的随机扰动。这些扰动可以激活更多内在通路，稳定更多不动点盆地，从而提升泛化能力。这里的“苦涩教训”不只是“规模胜于筛选”——更在于过度筛选可能恰恰消除了高阶非线性数据中构建不动点所需的扰动。需注意：这不应被夸大为“所有数据都是好的”。论文本身指出，有害的条件偏移仍会损害模型，例如系统性伪造的、看似高质量文本的虚假陈述。Deep Manifold 的观点与之相同：有益的扰动会推动流形；而对抗性或错误的条件结构则可能锚定错误的不动点。

Dataualism
https://x.com/BetaTomorrow/status/2048580677290070016…
#DeepManifoldInterpretation

Turing Post（@TheTuringPost）：
哦，这很有趣……

@斯坦福的研究人员检验了一个常见假设：大型模型只需要“高质量”过滤后的训练数据。

如果最好的过滤器就是根本不用过滤器呢？

他们比较了完整的 Common Crawl 数据与其经过重度过滤的版本，结果……

@BetaTomorrow: 标题：数据过滤的惨痛教训作者：Christopher Mohri, John Duchi, Tatsunori Hashimoto (@tatsu_hashimo…

相似文章

大型语言模型中的深度诅咒

奇异学习理论：人工智能像冰融化一样学习

(Human) Attention Is (Still) All You Need: 人类监督使AI辅助的社会科学研究可靠

大型语言模型中的预填充意识

重新思考LLMs的心理测量学评估：自我报告何时以及为何能预测行为

提交意见反馈