@zhaoran_wang: 对我来说,最酷的发现是你可以连接/插值所有 softmax/线性 变体,并给出一个有前途的方向……

X AI KOLs Timeline 论文

摘要

讨论了这样一个发现:所有 softmax/线性注意力变体都可以被插值,并且 Muon 优化器对于 Parallax 超越 Softmax Attention 至关重要。包含论文和代码链接。

对我来说,最酷的发现是你可以连接/插值所有 softmax/线性 变体,并给出一个有前途的方向——affine-linear : )
查看原文
查看缓存全文

缓存时间: 2026/05/30 10:33

对我来说,最酷的发现是你可以连接/插值所有 softmax/线性变体,并给出一个有前景的方向——仿射线性 : )

易飞·左 (@YifeiZuoX): 对我来说,最酷的发现是 Muon 优化器对于 Parallax 超越 Softmax 注意力至关重要。

教训——别只用 AdamW 评估新架构,你会错过那些好的。

论文:https://t.co/fMY17lRQtn 代码:https://t.co/LVBjxCiVVW

对于起源……

相似文章

Muon 优化器能否微调 Adam 预训练模型?

Hugging Face Daily Papers

研究论文探究了在微调预训练模型时用 Muon 优化器替代 Adam 所导致的性能下降,证明像 LoRA 这样的参数高效方法能有效缓解语言和视觉任务中的这种优化器不匹配问题。

@dair_ai: https://x.com/dair_ai/status/2056018543850754283

X AI KOLs Following

一份关于5月11日至17日顶级人工智能论文的综述,涵盖了用于长上下文预训练的Lighthouse Attention、grep与嵌入检索在编码代理中的对比,以及揭示LLMs中几何计算器的机制可解释性工作。