AI正在实时退化

Reddit r/ArtificialInteligence 新闻

摘要

AI模型因使用递归生成的合成数据进行训练而不断退化,导致模型崩溃;多项研究强调了使用合成数据进行规模化训练的风险。

**来源与参考文献** Shumailov等人 — 《当AI模型使用递归生成的数据训练时会发生崩溃》。《自然》,2024年7月。 [https://www.nature.com/articles/s41586-024-07566-y](https://www.nature.com/articles/s41586-024-07566-y) Villalobos等人(Epoch AI) — 《我们会耗尽数据吗?基于人类生成数据的大语言模型规模化极限》。《国际机器学习大会》,2024年。 [https://arxiv.org/abs/2211.04325](https://arxiv.org/abs/2211.04325) OpenAI — o3和o4-mini系统卡(2025年4月)。PersonQA幻觉基准。 Gartner — 合成训练数据预测,预计到2024年将占训练语料库的60%。 杜克大学图书馆 — 生成式AI学生调查(2025年1月)。 DeepMind — AlphaZero(自对弈国际象棋/围棋);AlphaGeometry(基于合成数据的奥数级别几何问题)。 Ed Zitron — 《AI泡沫与软件衰退的真相》。《技术报告》访谈。 [https://www.wheresyoured.at/](https://www.wheresyoured.at/) Gary Marcus — 《AI反馈循环如何威胁破坏ChatGPT》。《技术报告》。 [https://garymarcus.substack.com/](https://garymarcus.substack.com/)
查看原文

相似文章

AI生成代码的质量

Reddit r/AI_Agents

这篇文章讨论了一个担忧:随着AI工具生成越来越多的代码,未来基于这些合成代码训练的模型可能会质量下降、原创性降低,并询问像OpenAI、Anthropic和GitHub这样的主要AI实验室计划如何应对这个问题。

AI 和计算

OpenAI Blog

OpenAI 发布分析表明,自 2012 年以来,最大规模 AI 训练运行所使用的计算量以 3.4 个月的倍增周期呈指数级增长,累计增长 30 万倍,远远超过摩尔定律的增长速度。该分析预测这一趋势可能会继续,并呼吁增加学术 AI 研究经费以应对不断上升的计算成本。