@swyx: 同感。一个非常方便的思维框架,用于理解transformer当前擅长学习哪些类型,以及它为何会遇到限制…
摘要
文章讨论了一个理解transformer学习优势及其局限性的思维框架,认为相对于能够假设并寻求真相的方法,扩展当前范式可能效率低下,并提及了对对抗性世界模型和强化学习的需求。
查看缓存全文
缓存时间: 2026/05/23 08:01
共同认可。一个非常便捷的心智框架,用来理解当前Transformer擅长哪些学习类型,以及为什么会遇到局限。今年早些时候,我和@ankit2119在论述对抗性世界模型的必要性时,描述的正是这些思考层级中的若干功能——它们让我们越来越接近现实世界的柯尔莫哥洛夫极限生成器。在一个明显效率低下的范式上投入更多参数、更多算力、更多一切,最终将被那种能够提出假设、寻求真相、而非事后拼凑纸牌屋的简单方案所超越——尽管惨痛的教训是,规模化本身更简单,而我们或许仍能实现AGI,因为人类智能本身并没有那么聪明,也没那么丰富。
Rishabh Agarwal (@agarwl_): 写得非常好的博客。我认为强化学习是从干预中学习,这从某种程度上解释了为什么它作为一种范式比监督学习更强大。
而关于从反事实中学习,我们历史上一直不太擅长,但也许世界建模+强化学习可以做到。
相似文章
基于强化学习的智能体Transformer可证明地学会搜索
本文从理论上研究了基于Transformer的策略如何从随机树环境中的强化学习训练动态中获得搜索能力。研究表明,一个双头Transformer可以实现深度优先搜索,并且在深度分阶段课程下,这种机制会自然地从稀疏奖励信号中涌现。
@juleslogs: 想理解现代AI?从这里开始:1. Transformers → Illustrated Transformer 2. LLMs → Build a Large Language Mo…
一条推文,整理了理解现代AI的基础资源,涵盖从Transformer到物理AI的主题,包括关键论文和模型。
@gordic_aleksa: 新深度博文时刻:Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨,我…
一篇深入探讨现代密集Transformer内部工作原理的博文,涵盖YaRN(位置信息)、混合注意力(实现160k上下文长度)、soft capping、QK归一化,以及Transformer数学(包括FLOPs/Token公式和集群规模估算)。
《Attention is All You Need》论文的一位作者刚刚主张我们应当超越它。Pathway的'后Transformer'辩论值得关注
《Attention is All You Need》这篇开创性论文的一位合著者主张,这个领域应该超越Transformer,而Pathway主办的一场辩论正在探讨这一话题。
Transformer线性表示高度结构化的世界模型
本文证明,在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型,并识别出一个稀疏、单语义的电路,负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。