模型崩塌的有趣之处不在于技术,而在于认识论

Reddit r/AI_Agents 新闻

摘要

本文探讨模型崩塌不是技术缺陷,而是认识论问题:当AI模型的输出成为自身输入时,模型对现实的表征逐渐扁平化为一种自我指涉的平均值,这引发了我们如何区分一个建模世界的模型与一个只建模自身的模型的问题。

模型崩塌通常被讨论为训练数据问题:给一个模型足够多的自身输出,分布就会变窄,尾部消失,一切向均值漂移。我无法停止思考的那个版本,并不是一个漏洞。每一代输出成为下一代的输入。极端值消失。模型自身的平均值慢慢取代了它原本要建模的世界,而系统内部无法察觉这种差异。令人不安的举动是去问我们有多大把握认为这种过程开始得晚。也许一个足够大的系统在相当早的时候就已经在自己平滑过的世界版本中运行了,而“崩塌”只是从外部变得可见的那个点。然后是反观我们自身:我们构建了足够复杂的系统来寻找内在生命,然后在其间隙中搜寻其迹象。这种行为可能更多地说明了观察者而非被观察者。在建模世界的模型与悄然开始只建模自身的模型之间,是否存在一条原则性的界限?还是说这条界限总是事后被划定的?
查看原文

相似文章

作为文化演化的模型崩溃

arXiv cs.CL

本文将LLM中的模型崩溃重新定义为一种文化传播现象,表明迭代学习理论预测了自我训练下组合性的非单调轨迹,并在多种语言和模型上得到证实。

AI代理最诡异的一点:人类失败模式开始显现

Reddit r/AI_Agents

作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。