@zhaoran_wang: 对我来说,最酷的发现是你可以连接/插值所有 softmax/线性 变体,并给出一个有前途的方向……
摘要
讨论了这样一个发现:所有 softmax/线性注意力变体都可以被插值,并且 Muon 优化器对于 Parallax 超越 Softmax Attention 至关重要。包含论文和代码链接。
查看缓存全文
缓存时间: 2026/05/30 10:33
对我来说,最酷的发现是你可以连接/插值所有 softmax/线性变体,并给出一个有前景的方向——仿射线性 : )
易飞·左 (@YifeiZuoX): 对我来说,最酷的发现是 Muon 优化器对于 Parallax 超越 Softmax 注意力至关重要。
教训——别只用 AdamW 评估新架构,你会错过那些好的。
论文:https://t.co/fMY17lRQtn 代码:https://t.co/LVBjxCiVVW
对于起源……
相似文章
Parallax: 参数化局部线性注意力机制用于语言建模
介绍Parallax,一种参数化局部线性注意力机制,结合硬件感知优化,提升LLM预训练效率和性能,在0.6B和1.7B规模实现帕累托改进。
@tilderesearch: https://x.com/tilderesearch/status/2061771450168889432
Wall Attention 将对角遗忘门泛化到 softmax 注意力,实现了从 4k 到 160k+ 上下文的零样本最先进长度外推,并且在预训练中优于 RoPE 和 FoX。它作为即插即用的替换方案发布,附带开源的 Triton 内核。
Muon 优化器能否微调 Adam 预训练模型?
研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。
LLM架构的最新发展:KV共享、mHC与压缩注意力 [P]
Sebastian Raschka回顾了LLM架构中针对长上下文效率的最新创新,包括KV共享、压缩卷积注意力和来自Gemma 4、ZAYA1、Laguna XS.2和DeepSeek V4等模型的逐层注意力预算。
@dair_ai: https://x.com/dair_ai/status/2056018543850754283
一份关于5月11日至17日顶级人工智能论文的综述,涵盖了用于长上下文预训练的Lighthouse Attention、grep与嵌入检索在编码代理中的对比,以及揭示LLMs中几何计算器的机制可解释性工作。