标签
本文将LLM中的模型崩溃重新定义为一种文化传播现象,表明迭代学习理论预测了自我训练下组合性的非单调轨迹,并在多种语言和模型上得到证实。
本文提供的证据表明,对语言模型输出的自训练并不会均匀地使语言扁平化,而是对其进行重组,表层标记(话语连接词、模糊限制语、破折号)增加,而深层句法结构(被动语态、虚拟语气、插入语)崩溃,这被正式化为结构深度假说。
一位研究人员让小型语言模型在自己生成的编程错误和修正上进行训练,在HumanEval上达到80%,并在数学上超越GPT-3.5,展示了在极少资源下的有效自我改进。