Transformers 本质上是简洁的
摘要
本文认为 Transformer 架构本质上是简洁的,意味着它们比其他模型能更高效地表示某些函数。本文提供了理论分析和证明。
本文将在 ICLR 2026(顶级人工智能会议)上发表,并被选为三篇杰出论文之一。
查看缓存全文
缓存时间: 2026/06/05 20:09
无法翻译:输入内容为PDF二进制数据,不是Markdown文章。
相似文章
重新审视Padded Transformer的表达能力:哪些架构选择重要,哪些不重要
这篇理论论文分析了填充Transformer的表达能力,表明与数值精度和模型深度相比,注意力类型、宽度和均匀性的影响很小。它建立了Transformer变体与电路复杂性类(如AC0和TC0)之间的等价关系,提供了稳健的特征描述。
Transformer线性表示高度结构化的世界模型
本文证明,在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型,并识别出一个稀疏、单语义的电路,负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。
语法引导的稀疏注意力机制:实现高效可解释的Transformer
本文介绍了一种针对Transformer的语法引导稀疏注意力机制,旨在通过利用语言结构来提高效率和可解释性。
@swyx: 同感。一个非常方便的思维框架,用于理解transformer当前擅长学习哪些类型,以及它为何会遇到限制…
文章讨论了一个理解transformer学习优势及其局限性的思维框架,认为相对于能够假设并寻求真相的方法,扩展当前范式可能效率低下,并提及了对对抗性世界模型和强化学习的需求。
迈向可验证Transformer:求解器可验证的电路解释
本文介绍了可验证Transformer(Verifiable Transformers),这是一个将任务局部化的Transformer电路转换为有界的、求解器可验证的声明框架,从而能够对功能等价性、边必要性及鲁棒性等属性进行形式化验证。