Transformers 本质上是简洁的

Hacker News Top 论文

摘要

本文认为 Transformer 架构本质上是简洁的,意味着它们比其他模型能更高效地表示某些函数。本文提供了理论分析和证明。

本文将在 ICLR 2026(顶级人工智能会议)上发表,并被选为三篇杰出论文之一。
查看原文
查看缓存全文

缓存时间: 2026/06/05 20:09

无法翻译:输入内容为PDF二进制数据,不是Markdown文章。

相似文章

Transformer线性表示高度结构化的世界模型

arXiv cs.LG

本文证明,在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型,并识别出一个稀疏、单语义的电路,负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。

迈向可验证Transformer:求解器可验证的电路解释

arXiv cs.LG

本文介绍了可验证Transformer(Verifiable Transformers),这是一个将任务局部化的Transformer电路转换为有界的、求解器可验证的声明框架,从而能够对功能等价性、边必要性及鲁棒性等属性进行形式化验证。