@BetaTomorrow: 标题:数据过滤的惨痛教训 作者:Christopher Mohri, John Duchi, Tatsunori Hashimoto (@tatsu_hashimo…
摘要
本文认为,对于足够大的模型,未经过滤的数据可以通过提供弱扰动来提高泛化能力,这与通常认为只有高质量过滤数据才有益的假设相反。作者提醒,有害的条件偏移仍可能损害模型,但过度筛选可能会去除有用的扰动。
查看缓存全文
缓存时间: 2026/06/13 14:17
标题:数据过滤的苦涩教训
作者:Christopher Mohri、John Duchi、Tatsunori Hashimoto(@tatsu_hashimoto)
当模型缺乏足够容量来分离流形区域时,过滤数据确实有帮助。但若模型规模足够大,未经过滤的数据反而能在更广阔的流形上提供微弱的随机扰动。这些扰动可以激活更多内在通路,稳定更多不动点盆地,从而提升泛化能力。这里的“苦涩教训”不只是“规模胜于筛选”——更在于过度筛选可能恰恰消除了高阶非线性数据中构建不动点所需的扰动。需注意:这不应被夸大为“所有数据都是好的”。论文本身指出,有害的条件偏移仍会损害模型,例如系统性伪造的、看似高质量文本的虚假陈述。Deep Manifold 的观点与之相同:有益的扰动会推动流形;而对抗性或错误的条件结构则可能锚定错误的不动点。
Dataualism
https://x.com/BetaTomorrow/status/2048580677290070016…
#DeepManifoldInterpretation
Turing Post(@TheTuringPost):
哦,这很有趣……@斯坦福的研究人员检验了一个常见假设:大型模型只需要“高质量”过滤后的训练数据。
如果最好的过滤器就是根本不用过滤器呢?
他们比较了完整的 Common Crawl 数据与其经过重度过滤的版本,结果……
相似文章
大型语言模型中的深度诅咒
本文介绍了LLM中的深度诅咒问题,即由于Pre-Layer Normalization导致输出方差爆炸,深层网络变得无效。作者提出LayerNorm Scaling来缓解这一问题,并在高达7B参数规模的模型上展示了预训练和微调的一致性改进。
奇异学习理论:人工智能像冰融化一样学习
奇异学习理论(SLT)使用代数几何来解释为什么神经网络尽管存在退化性却能很好地泛化,引入了实对数规范阈值(RLCT)作为模型复杂度的度量。
(Human) Attention Is (Still) All You Need: 人类监督使AI辅助的社会科学研究可靠
本文提出,AI辅助社会科学研究的可靠性取决于决策架构——即认知劳动在人类与机器之间的分工方式。通过一个预先指定的析因实验,作者表明,一个无约束的多智能体基线在72%的运行中失败,而采用三个架构承诺(限制LLM仅进行推理、确定性数据/估计、以及三个人类决策门控)的组织运行失败率仅为16%。
大型语言模型中的预填充意识
本文研究前沿语言模型能否检测其先前的助手消息被插入或编辑的情况(即预填充意识)。研究发现,像Claude Opus 4.5这样的模型表现出显著的预填充意识,能在不产生误报的情况下检测出高达35%的篡改预填充案例,这可能损害基于预填充的安全评估的有效性。
重新思考LLMs的心理测量学评估:自我报告何时以及为何能预测行为
本文研究了自我报告的心理测量指标何时以及为何能预测大型语言模型的实际行为,发现细粒度、行为特定的工具(计划行为理论)在同一对话中达到了人类水平的连贯性,而像大五人格这样的宽泛特质则不能。