@waterloo_intern: 在阅读了一些关于后Transformer时代的ML研究后,我感到沮丧,因为似乎它已经收敛到了超优…
摘要
这条推文讨论了由于硬件限制,ML研究如何收敛于基于注意力、优化矩阵乘法(matmul)的算法,借鉴了‘硬件彩票’概念,并指出OpenAI的9个月芯片流片是硬件-研究协同设计的潜在迹象。
查看缓存全文
缓存时间: 2026/06/29 22:32
在阅读了关于后transformer时代的机器学习研究后,我有点沮丧——这个领域似乎已经收敛到了对基于矩阵乘法的算法进行超优化上: (MHA、MQA、MLA、SWA、DSA、GQA、SWA-GQA、ABCDA——其中只有一个是编的)。
毫无疑问,一定存在某个非注意力机制的算法,正等着被发现。
研究者们只是太懒了
但这个结论很愚蠢。
你怎么能怪研究者呢?当他们训练时用的硬件本身就是为矩阵乘法优化的(张量核心/脉动阵列)。任何不是矩阵乘法的算法都注定要夭折,哪怕它比注意力机制好两倍。再加上计算资源的限制,如果不研究注意力方向,那简直是疯了。 (基本上就是 @sarahookr 的“硬件彩票“文章里说的)
我们总在讨论推理中的硬件-软件协同设计,但似乎要迎来研究上的下一次飞跃,我们需要的是硬件-科研协同设计。乍看之下这不太可能发生,因为芯片流片通常需要好几年。
但再看看 @OpenAI。9个月流片。更好的“训练“和服务。
如果自家芯片还是基于脉动阵列的,那干嘛还要自己造?直接买英伟达不就行了?
“但英伟达GPU太稀缺了”
那就买TPU/AMD/高通/Cerebras。软件生态确实不太好,但如果你是OpenAI,你可以雇一大群工程师来解锁全部能力。
要么他们放弃了注意力机制,找到了需要自家芯片才能训练的新算法(考虑到跟TPU供应商9个月流片意味着重用IP,这不太可能)……要么研究已经死了,我们永远摆脱不了注意力/矩阵乘法的算法。
相似文章
@Phoenixyin13: 我认为这是ICML 2026里的上乘工作。 传统 Transformer 的 Attention 机制,本质上是点对点匹配,把输入切成一堆 token,即离散点,然后算 Query 和 Key 的相似度,再加权 Value。 这在 NLP…
介绍ICML 2026论文Functional Attention,将函数作为第一公民,用结构化线性算子替代softmax点对点相似度,解决传统Transformer处理连续函数时离散化、分辨率敏感和计算复杂度高的问题,在PDE求解、3D分割等任务上达到或超过SOTA,并具良好OOD泛化能力。
@yoonholeee: https://x.com/yoonholeee/status/2064027464926716154
作者认为,文本优化(提示、上下文、记忆)是一种合理且样本高效的学习机制,机器学习社区应更认真地对待它,从而开启一个更新时计算的新扩展维度。
@cHHillee: 在现代机器学习加速器中,浮点运算能力(FLOPS)已呈现爆炸式增长。然而,瓶颈往往不在于 FLOPS,而在于内存带宽…
Thinky 将人机交互带宽视为一个日益严峻的瓶颈,其状况类似于机器学习加速器中的内存带宽问题,并提出了针对这一局限性的解决方案。
内存墙变得昂贵:KV缓存是你应该停止崇拜softmax注意力的原因
文章讨论DDR5内存价格上涨如何标志着AI领域更广泛的内存瓶颈,特别是LLM中softmax注意力的KV缓存,并强调了旨在减少内存使用的后Transformer架构,如线性注意力和状态空间模型。
@SemiAnalysis_: Transformer 的注意力机制已经取得了长足进步。我们感谢开源社区的研究人员和工程师们……
SemiAnalysis 的一条推文庆祝 Transformer 的注意力机制取得的进步,并感谢开源社区让 AI 变得易于使用,邀请大家贡献以完善注意力的开放历史。