@swyx: 同感。一个非常方便的思维框架,用于理解transformer当前擅长学习哪些类型,以及它为何会遇到限制…

X AI KOLs Following 新闻

摘要

文章讨论了一个理解transformer学习优势及其局限性的思维框架,认为相对于能够假设并寻求真相的方法,扩展当前范式可能效率低下,并提及了对对抗性世界模型和强化学习的需求。

同感。一个非常方便的思维框架,用于理解transformer当前擅长学习哪些类型,以及它为何会遇到限制。今年早些时候,@ankit2119和我撰文讨论对抗性世界模型的必要性时,我们描述了这些思维层级的功能,它们使我们越来越接近现实的科尔莫戈罗夫极限生成器。将更多参数、更多算力、更多一切投入到明显低效的范式中,将被能够假设并寻求真相的简单方案所超越,而不是事后修补一座纸牌屋——尽管惨痛的教训是,扩展更简单,而且我们可能无论如何都会达到AGI,因为人类智能并没有那么聪明或丰富。
查看原文
查看缓存全文

缓存时间: 2026/05/23 08:01

共同认可。一个非常便捷的心智框架,用来理解当前Transformer擅长哪些学习类型,以及为什么会遇到局限。今年早些时候,我和@ankit2119在论述对抗性世界模型的必要性时,描述的正是这些思考层级中的若干功能——它们让我们越来越接近现实世界的柯尔莫哥洛夫极限生成器。在一个明显效率低下的范式上投入更多参数、更多算力、更多一切,最终将被那种能够提出假设、寻求真相、而非事后拼凑纸牌屋的简单方案所超越——尽管惨痛的教训是,规模化本身更简单,而我们或许仍能实现AGI,因为人类智能本身并没有那么聪明,也没那么丰富。

Rishabh Agarwal (@agarwl_): 写得非常好的博客。我认为强化学习是从干预中学习,这从某种程度上解释了为什么它作为一种范式比监督学习更强大。

而关于从反事实中学习,我们历史上一直不太擅长,但也许世界建模+强化学习可以做到。

相似文章

基于强化学习的智能体Transformer可证明地学会搜索

arXiv cs.LG

本文从理论上研究了基于Transformer的策略如何从随机树环境中的强化学习训练动态中获得搜索能力。研究表明,一个双头Transformer可以实现深度优先搜索,并且在深度分阶段课程下,这种机制会自然地从稀疏奖励信号中涌现。

Transformer线性表示高度结构化的世界模型

arXiv cs.LG

本文证明,在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型,并识别出一个稀疏、单语义的电路,负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。