@waterloo_intern: 在阅读了一些关于后Transformer时代的ML研究后，我感到沮丧，因为似乎它已经收敛到了超优…

X AI KOLs Timeline 2026/06/29 03:35 新闻

ml-research transformers attention-mechanism hardware-software-co-design matmul openai custom-chip research-direction

摘要

这条推文讨论了由于硬件限制，ML研究如何收敛于基于注意力、优化矩阵乘法（matmul）的算法，借鉴了‘硬件彩票’概念，并指出OpenAI的9个月芯片流片是硬件-研究协同设计的潜在迹象。

在阅读了一些关于后Transformer时代的ML研究后，我感到沮丧，因为似乎它已经收敛于超优化基于矩阵乘法（matmul）的算法：（MHA, MQA, MLA, SWA, DSA, GQA, SWA-GQA, ABCDA [其中只有一个是虚构的]）。当然，一种不是基于注意力的算法正等着被发现。 > 研究者只是懒惰但这是一个愚蠢的结论。你怎么能责怪研究者呢？当他们训练用的硬件是为矩阵乘法（张量核心/脉动阵列）优化的。任何不是矩阵乘法的算法都注定要消亡，即使它比注意力好两倍。再加上计算资源的限制，你一定是疯了才会研究任何非注意力方向（基本上是@sarahookr 的硬件彩票文章）。我们谈论推理中的硬件-软件协同设计，但似乎要取得研究的下一飞跃，我们将需要硬件-研究协同设计。起初，考虑到典型的多年硬件流片周期，这似乎永远不会发生。但再看看@OpenAI。9个月流片。更好的"训练"和推理服务。如果自己的芯片也只是基于脉动阵列，为什么还要自己制造芯片？为什么不直接买Nvidia？ > "但Nvidia GPU稀缺" 那就买TPUs/AMD/Qualcom/Cerebras。当然软件不太好，但如果你是OpenAI，你可以雇佣一大群工程师来解锁全部能力。要么他们放弃了注意力，有了需要自己芯片训练的新算法（考虑到与TPU供应商9个月流片意味着重用IP，这不太可能）……要么研究已经死亡，我们永远无法摆脱注意力/基于矩阵乘法的算法。

查看原文

查看缓存全文

缓存时间: 2026/06/29 22:32

在阅读了关于后transformer时代的机器学习研究后，我有点沮丧——这个领域似乎已经收敛到了对基于矩阵乘法的算法进行超优化上：（MHA、MQA、MLA、SWA、DSA、GQA、SWA-GQA、ABCDA——其中只有一个是编的）。

毫无疑问，一定存在某个非注意力机制的算法，正等着被发现。

研究者们只是太懒了

但这个结论很愚蠢。

你怎么能怪研究者呢？当他们训练时用的硬件本身就是为矩阵乘法优化的（张量核心/脉动阵列）。任何不是矩阵乘法的算法都注定要夭折，哪怕它比注意力机制好两倍。再加上计算资源的限制，如果不研究注意力方向，那简直是疯了。（基本上就是 @sarahookr 的“硬件彩票“文章里说的）

我们总在讨论推理中的硬件-软件协同设计，但似乎要迎来研究上的下一次飞跃，我们需要的是硬件-科研协同设计。乍看之下这不太可能发生，因为芯片流片通常需要好几年。

但再看看 @OpenAI。9个月流片。更好的“训练“和服务。

如果自家芯片还是基于脉动阵列的，那干嘛还要自己造？直接买英伟达不就行了？

“但英伟达GPU太稀缺了”

那就买TPU/AMD/高通/Cerebras。软件生态确实不太好，但如果你是OpenAI，你可以雇一大群工程师来解锁全部能力。

要么他们放弃了注意力机制，找到了需要自家芯片才能训练的新算法（考虑到跟TPU供应商9个月流片意味着重用IP，这不太可能）……要么研究已经死了，我们永远摆脱不了注意力/矩阵乘法的算法。

相似文章

@Phoenixyin13: 我认为这是ICML 2026里的上乘工作。传统 Transformer 的 Attention 机制，本质上是点对点匹配，把输入切成一堆 token，即离散点，然后算 Query 和 Key 的相似度，再加权 Value。这在 NLP…

X AI KOLs Timeline

介绍ICML 2026论文Functional Attention，将函数作为第一公民，用结构化线性算子替代softmax点对点相似度，解决传统Transformer处理连续函数时离散化、分辨率敏感和计算复杂度高的问题，在PDE求解、3D分割等任务上达到或超过SOTA，并具良好OOD泛化能力。

@waterloo_intern: 在阅读了一些关于后Transformer时代的ML研究后，我感到沮丧，因为似乎它已经收敛到了超优…

相似文章

@Phoenixyin13: 我认为这是ICML 2026里的上乘工作。传统 Transformer 的 Attention 机制，本质上是点对点匹配，把输入切成一堆 token，即离散点，然后算 Query 和 Key 的相似度，再加权 Value。这在 NLP…

@yoonholeee: https://x.com/yoonholeee/status/2064027464926716154

@cHHillee: 在现代机器学习加速器中，浮点运算能力（FLOPS）已呈现爆炸式增长。然而，瓶颈往往不在于 FLOPS，而在于内存带宽…

内存墙变得昂贵：KV缓存是你应该停止崇拜softmax注意力的原因

@SemiAnalysis_: Transformer 的注意力机制已经取得了长足进步。我们感谢开源社区的研究人员和工程师们……

提交意见反馈

相似文章

@Phoenixyin13: 我认为这是ICML 2026里的上乘工作。 传统 Transformer 的 Attention 机制，本质上是点对点匹配，把输入切成一堆 token，即离散点，然后算 Query 和 Key 的相似度，再加权 Value。 这在 NLP…

@yoonholeee: https://x.com/yoonholeee/status/2064027464926716154

@cHHillee: 在现代机器学习加速器中，浮点运算能力（FLOPS）已呈现爆炸式增长。然而，瓶颈往往不在于 FLOPS，而在于内存带宽…

内存墙变得昂贵：KV缓存是你应该停止崇拜softmax注意力的原因

@SemiAnalysis_: Transformer 的注意力机制已经取得了长足进步。我们感谢开源社区的研究人员和工程师们……

提交意见反馈

@Phoenixyin13: 我认为这是ICML 2026里的上乘工作。传统 Transformer 的 Attention 机制，本质上是点对点匹配，把输入切成一堆 token，即离散点，然后算 Query 和 Key 的相似度，再加权 Value。这在 NLP…