@BetaTomorrow: 标题:数据过滤的惨痛教训 作者:Christopher Mohri, John Duchi, Tatsunori Hashimoto (@tatsu_hashimo…

X AI KOLs Following 论文

摘要

本文认为,对于足够大的模型,未经过滤的数据可以通过提供弱扰动来提高泛化能力,这与通常认为只有高质量过滤数据才有益的假设相反。作者提醒,有害的条件偏移仍可能损害模型,但过度筛选可能会去除有用的扰动。

标题:数据过滤的惨痛教训 作者:Christopher Mohri, John Duchi, Tatsunori Hashimoto (@tatsu_hashimoto) 当模型缺乏足够能力来分离流形区域时,过滤是有帮助的。但当模型足够大时,未过滤的数据会在更广泛的流形上提供弱随机扰动。这些扰动可以激活更多内在路径,稳定更多不动点盆地,并提高泛化能力。这里的“惨痛教训”不仅仅是规模胜过筛选,而是过度筛选可能移除高维非线性数据中构建不动点所需的扰动。需要警惕的是:这不应被夸大为“所有数据都是好的”。论文本身指出,有害的条件偏移仍可能损害模型,例如看起来像正常高质量文本的系统性错误陈述。Deep Manifold 也会这么说:有用的扰动推动流形;对抗性或错误的条件结构可能会锚定错误的不动点。** Dataualism ** https://x.com/BetaTomorrow/status/2048580677290070016… #DeepManifoldInterpretation
查看原文
查看缓存全文

缓存时间: 2026/06/13 14:17

标题:数据过滤的苦涩教训
作者:Christopher Mohri、John Duchi、Tatsunori Hashimoto(@tatsu_hashimoto)

当模型缺乏足够容量来分离流形区域时,过滤数据确实有帮助。但若模型规模足够大,未经过滤的数据反而能在更广阔的流形上提供微弱的随机扰动。这些扰动可以激活更多内在通路,稳定更多不动点盆地,从而提升泛化能力。这里的“苦涩教训”不只是“规模胜于筛选”——更在于过度筛选可能恰恰消除了高阶非线性数据中构建不动点所需的扰动。需注意:这不应被夸大为“所有数据都是好的”。论文本身指出,有害的条件偏移仍会损害模型,例如系统性伪造的、看似高质量文本的虚假陈述。Deep Manifold 的观点与之相同:有益的扰动会推动流形;而对抗性或错误的条件结构则可能锚定错误的不动点。

Dataualism
https://x.com/BetaTomorrow/status/2048580677290070016…
#DeepManifoldInterpretation

Turing Post(@TheTuringPost):
哦,这很有趣……

@斯坦福的研究人员检验了一个常见假设:大型模型只需要“高质量”过滤后的训练数据。

如果最好的过滤器就是根本不用过滤器呢?

他们比较了完整的 Common Crawl 数据与其经过重度过滤的版本,结果……

相似文章

大型语言模型中的深度诅咒

Lobsters Hottest

本文介绍了LLM中的深度诅咒问题,即由于Pre-Layer Normalization导致输出方差爆炸,深层网络变得无效。作者提出LayerNorm Scaling来缓解这一问题,并在高达7B参数规模的模型上展示了预训练和微调的一致性改进。

(Human) Attention Is (Still) All You Need: 人类监督使AI辅助的社会科学研究可靠

arXiv cs.AI

本文提出,AI辅助社会科学研究的可靠性取决于决策架构——即认知劳动在人类与机器之间的分工方式。通过一个预先指定的析因实验,作者表明,一个无约束的多智能体基线在72%的运行中失败,而采用三个架构承诺(限制LLM仅进行推理、确定性数据/估计、以及三个人类决策门控)的组织运行失败率仅为16%。

大型语言模型中的预填充意识

arXiv cs.AI

本文研究前沿语言模型能否检测其先前的助手消息被插入或编辑的情况(即预填充意识)。研究发现,像Claude Opus 4.5这样的模型表现出显著的预填充意识,能在不产生误报的情况下检测出高达35%的篡改预填充案例,这可能损害基于预填充的安全评估的有效性。