@zhaoran_wang: 对我来说，最酷的发现是你可以连接/插值所有 softmax/线性变体，并给出一个有前途的方向……

X AI KOLs Timeline 2026/05/30 00:09 论文

attention softmax linear-attention muon-optimizer parallax research

摘要

讨论了这样一个发现：所有 softmax/线性注意力变体都可以被插值，并且 Muon 优化器对于 Parallax 超越 Softmax Attention 至关重要。包含论文和代码链接。

对我来说，最酷的发现是你可以连接/插值所有 softmax/线性变体，并给出一个有前途的方向——affine-linear : )

查看原文

查看缓存全文

缓存时间: 2026/05/30 10:33

对我来说，最酷的发现是你可以连接/插值所有 softmax/线性变体，并给出一个有前景的方向——仿射线性 : )

易飞·左 (@YifeiZuoX): 对我来说，最酷的发现是 Muon 优化器对于 Parallax 超越 Softmax 注意力至关重要。

教训——别只用 AdamW 评估新架构，你会错过那些好的。

论文：https://t.co/fMY17lRQtn 代码：https://t.co/LVBjxCiVVW

对于起源……

相似文章

@maximelabonne: Parallax 是一种参数化的局部线性注意力形式，它摒弃了数值求解器，在解码性能上媲美 FA 2/3……

X AI KOLs Following

Parallax 是一种新的参数化局部线性注意力形式，去除了数值求解器，在解码方面与 FlashAttention 2/3 相匹配。其有效性取决于优化器，与 Muon 配合有效，但与 AdamW 配合无效，这凸显了优化器几何形状的作用。

Parallax: 参数化局部线性注意力机制用于语言建模

Hugging Face Daily Papers

介绍Parallax，一种参数化局部线性注意力机制，结合硬件感知优化，提升LLM预训练效率和性能，在0.6B和1.7B规模实现帕累托改进。

@Phoenixyin13: 我认为这是ICML 2026里的上乘工作。传统 Transformer 的 Attention 机制，本质上是点对点匹配，把输入切成一堆 token，即离散点，然后算 Query 和 Key 的相似度，再加权 Value。这在 NLP…

X AI KOLs Timeline

介绍ICML 2026论文Functional Attention，将函数作为第一公民，用结构化线性算子替代softmax点对点相似度，解决传统Transformer处理连续函数时离散化、分辨率敏感和计算复杂度高的问题，在PDE求解、3D分割等任务上达到或超过SOTA，并具良好OOD泛化能力。

线性注意力架构：机制、权衡与跨层路由

arXiv cs.LG

本文对比了softmax注意力与四种线性注意力架构（DeltaNet、Gated DeltaNet、Kimi Delta Attention、Gated DeltaNet-2），并介绍了跨层路由机制。在350M参数规模的实验表明，使用Muon优化器的Kimi Delta Attention取得了最低的验证损失，而使用AdamW的纯Gated DeltaNet吞吐量最高。

@thtrkim: FlashAttention 的手动可视化深入讲解（使用 Excalidraw 绘制）https://winterrykim.github.io/blog/2026/training-lm-…