AI正在实时退化

Reddit r/ArtificialInteligence 2026/05/20 18:02 新闻

model-collapse synthetic-data training-data ai-degradation scaling-limits research

摘要

AI模型因使用递归生成的合成数据进行训练而不断退化，导致模型崩溃；多项研究强调了使用合成数据进行规模化训练的风险。

**来源与参考文献** Shumailov等人 — 《当AI模型使用递归生成的数据训练时会发生崩溃》。《自然》，2024年7月。 [https://www.nature.com/articles/s41586-024-07566-y](https://www.nature.com/articles/s41586-024-07566-y) Villalobos等人（Epoch AI） — 《我们会耗尽数据吗？基于人类生成数据的大语言模型规模化极限》。《国际机器学习大会》，2024年。 [https://arxiv.org/abs/2211.04325](https://arxiv.org/abs/2211.04325) OpenAI — o3和o4-mini系统卡（2025年4月）。PersonQA幻觉基准。 Gartner — 合成训练数据预测，预计到2024年将占训练语料库的60%。杜克大学图书馆 — 生成式AI学生调查（2025年1月）。 DeepMind — AlphaZero（自对弈国际象棋/围棋）；AlphaGeometry（基于合成数据的奥数级别几何问题）。 Ed Zitron — 《AI泡沫与软件衰退的真相》。《技术报告》访谈。 [https://www.wheresyoured.at/](https://www.wheresyoured.at/) Gary Marcus — 《AI反馈循环如何威胁破坏ChatGPT》。《技术报告》。 [https://garymarcus.substack.com/](https://garymarcus.substack.com/)

查看原文

AI正在实时退化

相似文章

还有人觉得AI基准测试在预测实际性能方面越来越没用了吗？

AI生成代码的质量

如何在人类生成的数据耗尽时防止AI模型自我蚕食？科学家称他们已找到答案。

AI 和计算

我曾是人工智能的忠实信徒。现在我认为整个行业正在从内部腐烂。

提交意见反馈