Transformers 本质上是简洁的

Hacker News Top 2026/06/05 18:50 论文

transformers succinctness neural-networks ai-research theory interpretability

摘要

本文认为 Transformer 架构本质上是简洁的，意味着它们比其他模型能更高效地表示某些函数。本文提供了理论分析和证明。

本文将在 ICLR 2026（顶级人工智能会议）上发表，并被选为三篇杰出论文之一。

查看原文

查看缓存全文

缓存时间: 2026/06/05 20:09

无法翻译：输入内容为PDF二进制数据，不是Markdown文章。

相似文章

重新审视Padded Transformer的表达能力：哪些架构选择重要，哪些不重要

arXiv cs.LG

这篇理论论文分析了填充Transformer的表达能力，表明与数值精度和模型深度相比，注意力类型、宽度和均匀性的影响很小。它建立了Transformer变体与电路复杂性类（如AC0和TC0）之间的等价关系，提供了稳健的特征描述。

Transformer线性表示高度结构化的世界模型

arXiv cs.LG

本文证明，在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型，并识别出一个稀疏、单语义的电路，负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。

@techwith_ram：Brandon Sandhu 对 Transformer 架构的推导本文旨在从直觉和数学角度理解……

X AI KOLs Timeline

这篇由 Brandon Sandhu 撰写的论文提供了数学上严谨而又易于理解的 Transformer 架构推导，涵盖了分词、嵌入、注意力机制及其他核心组件，前提知识为线性代数、微积分、概率论和信息论。

语法引导的稀疏注意力机制：实现高效可解释的Transformer

arXiv cs.CL

本文介绍了一种针对Transformer的语法引导稀疏注意力机制，旨在通过利用语言结构来提高效率和可解释性。

@ZhihuFrontier: 半年前，一位知乎答主预测下一个Transformer将吸收循环、递归状态、稀疏路由……