@waterloo_intern: 在阅读了一些关于后Transformer时代的ML研究后,我感到沮丧,因为似乎它已经收敛到了超优…

X AI KOLs Timeline 新闻

摘要

这条推文讨论了由于硬件限制,ML研究如何收敛于基于注意力、优化矩阵乘法(matmul)的算法,借鉴了‘硬件彩票’概念,并指出OpenAI的9个月芯片流片是硬件-研究协同设计的潜在迹象。

在阅读了一些关于后Transformer时代的ML研究后,我感到沮丧,因为似乎它已经收敛于超优化基于矩阵乘法(matmul)的算法: (MHA, MQA, MLA, SWA, DSA, GQA, SWA-GQA, ABCDA [其中只有一个是虚构的])。 当然,一种不是基于注意力的算法正等着被发现。 > 研究者只是懒惰 但这是一个愚蠢的结论。 你怎么能责怪研究者呢?当他们训练用的硬件是为矩阵乘法(张量核心/脉动阵列)优化的。任何不是矩阵乘法的算法都注定要消亡,即使它比注意力好两倍。再加上计算资源的限制,你一定是疯了才会研究任何非注意力方向 (基本上是@sarahookr 的硬件彩票文章)。 我们谈论推理中的硬件-软件协同设计,但似乎要取得研究的下一飞跃,我们将需要硬件-研究协同设计。起初,考虑到典型的多年硬件流片周期,这似乎永远不会发生。 但再看看@OpenAI。9个月流片。更好的"训练"和推理服务。 如果自己的芯片也只是基于脉动阵列,为什么还要自己制造芯片?为什么不直接买Nvidia? > "但Nvidia GPU稀缺" 那就买TPUs/AMD/Qualcom/Cerebras。当然软件不太好,但如果你是OpenAI,你可以雇佣一大群工程师来解锁全部能力。 要么他们放弃了注意力,有了需要自己芯片训练的新算法(考虑到与TPU供应商9个月流片意味着重用IP,这不太可能)……要么研究已经死亡,我们永远无法摆脱注意力/基于矩阵乘法的算法。
查看原文
查看缓存全文

缓存时间: 2026/06/29 22:32

在阅读了关于后transformer时代的机器学习研究后,我有点沮丧——这个领域似乎已经收敛到了对基于矩阵乘法的算法进行超优化上: (MHA、MQA、MLA、SWA、DSA、GQA、SWA-GQA、ABCDA——其中只有一个是编的)。

毫无疑问,一定存在某个非注意力机制的算法,正等着被发现。

研究者们只是太懒了

但这个结论很愚蠢。

你怎么能怪研究者呢?当他们训练时用的硬件本身就是为矩阵乘法优化的(张量核心/脉动阵列)。任何不是矩阵乘法的算法都注定要夭折,哪怕它比注意力机制好两倍。再加上计算资源的限制,如果不研究注意力方向,那简直是疯了。 (基本上就是 @sarahookr 的“硬件彩票“文章里说的)

我们总在讨论推理中的硬件-软件协同设计,但似乎要迎来研究上的下一次飞跃,我们需要的是硬件-科研协同设计。乍看之下这不太可能发生,因为芯片流片通常需要好几年。

但再看看 @OpenAI。9个月流片。更好的“训练“和服务。

如果自家芯片还是基于脉动阵列的,那干嘛还要自己造?直接买英伟达不就行了?

“但英伟达GPU太稀缺了”

那就买TPU/AMD/高通/Cerebras。软件生态确实不太好,但如果你是OpenAI,你可以雇一大群工程师来解锁全部能力。

要么他们放弃了注意力机制,找到了需要自家芯片才能训练的新算法(考虑到跟TPU供应商9个月流片意味着重用IP,这不太可能)……要么研究已经死了,我们永远摆脱不了注意力/矩阵乘法的算法。

相似文章

@Phoenixyin13: 我认为这是ICML 2026里的上乘工作。 传统 Transformer 的 Attention 机制,本质上是点对点匹配,把输入切成一堆 token,即离散点,然后算 Query 和 Key 的相似度,再加权 Value。 这在 NLP…

X AI KOLs Timeline

介绍ICML 2026论文Functional Attention,将函数作为第一公民,用结构化线性算子替代softmax点对点相似度,解决传统Transformer处理连续函数时离散化、分辨率敏感和计算复杂度高的问题,在PDE求解、3D分割等任务上达到或超过SOTA,并具良好OOD泛化能力。