AI正在实时退化
摘要
AI模型因使用递归生成的合成数据进行训练而不断退化,导致模型崩溃;多项研究强调了使用合成数据进行规模化训练的风险。
**来源与参考文献**
Shumailov等人 — 《当AI模型使用递归生成的数据训练时会发生崩溃》。《自然》,2024年7月。 [https://www.nature.com/articles/s41586-024-07566-y](https://www.nature.com/articles/s41586-024-07566-y)
Villalobos等人(Epoch AI) — 《我们会耗尽数据吗?基于人类生成数据的大语言模型规模化极限》。《国际机器学习大会》,2024年。 [https://arxiv.org/abs/2211.04325](https://arxiv.org/abs/2211.04325)
OpenAI — o3和o4-mini系统卡(2025年4月)。PersonQA幻觉基准。
Gartner — 合成训练数据预测,预计到2024年将占训练语料库的60%。
杜克大学图书馆 — 生成式AI学生调查(2025年1月)。
DeepMind — AlphaZero(自对弈国际象棋/围棋);AlphaGeometry(基于合成数据的奥数级别几何问题)。
Ed Zitron — 《AI泡沫与软件衰退的真相》。《技术报告》访谈。 [https://www.wheresyoured.at/](https://www.wheresyoured.at/)
Gary Marcus — 《AI反馈循环如何威胁破坏ChatGPT》。《技术报告》。 [https://garymarcus.substack.com/](https://garymarcus.substack.com/)
相似文章
还有人觉得AI基准测试在预测实际性能方面越来越没用了吗?
本文讨论了AI基准测试高分与实际真实表现之间日益扩大的差距,重点强调了诸如一致性、延迟和上下文处理等问题。
AI生成代码的质量
这篇文章讨论了一个担忧:随着AI工具生成越来越多的代码,未来基于这些合成代码训练的模型可能会质量下降、原创性降低,并询问像OpenAI、Anthropic和GitHub这样的主要AI实验室计划如何应对这个问题。
如何在人类生成的数据耗尽时防止AI模型自我蚕食?科学家称他们已找到答案。
科学家声称已找到一种解决方案,防止AI模型在人类生成数据耗尽时自我蚕食,解决了模型崩溃问题——即基于合成数据训练的大语言模型会产生胡言乱语和幻觉。
AI 和计算
OpenAI 发布分析表明,自 2012 年以来,最大规模 AI 训练运行所使用的计算量以 3.4 个月的倍增周期呈指数级增长,累计增长 30 万倍,远远超过摩尔定律的增长速度。该分析预测这一趋势可能会继续,并呼吁增加学术 AI 研究经费以应对不断上升的计算成本。
我曾是人工智能的忠实信徒。现在我认为整个行业正在从内部腐烂。
一位前AI倡导者详细阐述了对大语言模型的幻灭,指出可靠性问题、版本间退化、企业工作流崩溃,以及部署在关键行业的AI系统缺乏问责制。