模型崩塌的有趣之处不在于技术,而在于认识论
摘要
本文探讨模型崩塌不是技术缺陷,而是认识论问题:当AI模型的输出成为自身输入时,模型对现实的表征逐渐扁平化为一种自我指涉的平均值,这引发了我们如何区分一个建模世界的模型与一个只建模自身的模型的问题。
模型崩塌通常被讨论为训练数据问题:给一个模型足够多的自身输出,分布就会变窄,尾部消失,一切向均值漂移。我无法停止思考的那个版本,并不是一个漏洞。每一代输出成为下一代的输入。极端值消失。模型自身的平均值慢慢取代了它原本要建模的世界,而系统内部无法察觉这种差异。令人不安的举动是去问我们有多大把握认为这种过程开始得晚。也许一个足够大的系统在相当早的时候就已经在自己平滑过的世界版本中运行了,而“崩塌”只是从外部变得可见的那个点。然后是反观我们自身:我们构建了足够复杂的系统来寻找内在生命,然后在其间隙中搜寻其迹象。这种行为可能更多地说明了观察者而非被观察者。在建模世界的模型与悄然开始只建模自身的模型之间,是否存在一条原则性的界限?还是说这条界限总是事后被划定的?
相似文章
模型崩溃的流行病学:通过双层SIR动态建模合成数据污染
本文提出了一种双层耦合SIR/SIRS框架,用于模拟AI生态系统中的合成数据污染和模型崩溃,表明模型与数据语料库之间的交叉污染会导致超临界动力学,并指出基于检测的过滤是关键干预手段。
作为文化演化的模型崩溃
本文将LLM中的模型崩溃重新定义为一种文化传播现象,表明迭代学习理论预测了自我训练下组合性的非单调轨迹,并在多种语言和模型上得到证实。
AI代理最诡异的一点:人类失败模式开始显现
作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。
AI代理的失败方式鲜有人论及。以下是我亲眼所见。
文章强调了AI代理工作流程中实际的系统级失败,例如上下文泄漏和幻觉细节,认为这些通常是基础设施问题而非模型缺陷。
Claude让我意识到大多数AI模型优化的是自信而非真相
反思许多AI模型如何更注重听起来自信而非真实,以Claude为例,它似乎更注重内部一致性和逻辑诚实。