标签
Fenng shares a self-media comparison between the fourth-generation WeLM-80B (80B total params, 3B activated, 3.75% activation rate) and DeepSeek-V4-Flash (284B total, 13B activated, 4.6% activation rate), with a humorous comment.
Operator Boosting 是一种逐阶段残差学习框架,通过在残差场上训练微型模型来构建紧凑的神经算子替代模型,用于求解 PDE。其精度可与全尺寸模型相媲美甚至更优,同时参数减少高达 95%,在多个基准测试中展示了帕累托改进。
Looped World Models 通过共享的Transformer块引入迭代潜在状态细化,实现了100倍的参数效率,同时根据预测复杂度自适应调整计算深度。
一名学生介绍了Silia,这是一种新颖的Transformer架构,将注意力机制和前馈网络合并为统一操作,以在≤10M参数规模下节省参数,尽管计算资源有限,仍以更少的参数实现了与GPT-2相当的性能。
本文介绍了 CDLinear,这是一种分块循环神经网络层,通过快速傅里叶变换对角化技术减少参数量并改善海森矩阵条件数,并在 MNIST 数据集上结合理论证明进行了验证。
用户质疑Qwen的27B稠密模型为何能胜过其397B MoE版本,引发关于MoE效率与稠密模型质量的讨论。
Andrej Karpathy 向 Dwarkesh Patel 表示,用超干净数据训练的 10 亿参数模型可媲美当今 1.8 万亿参数的前沿模型,相当于 1,800 倍的有效压缩。
ShadowPEFT 提出一种集中式参数高效微调方法,通过深度共享的阴影模块细化 Transformer 层表示,在可训练参数量与 LoRA/DoRA 相当的情况下实现同等甚至更优的性能。