parameter-efficiency

#parameter-efficiency

恕我无知，但27B模型怎么会比397B更强？

Reddit r/LocalLLaMA ↗ · 2026-04-22

用户质疑Qwen的27B稠密模型为何能胜过其397B MoE版本，引发关于MoE效率与稠密模型质量的讨论。

0 人收藏 0 人点赞

#parameter-efficiency

X AI KOLs Timeline ↗ · 2026-04-22 缓存

Andrej Karpathy 向 Dwarkesh Patel 表示，用超干净数据训练的 10 亿参数模型可媲美当今 1.8 万亿参数的前沿模型，相当于 1,800 倍的有效压缩。

0 人收藏 0 人点赞

#parameter-efficiency

arXiv cs.CL ↗ · 2026-04-22 缓存

ShadowPEFT 提出一种集中式参数高效微调方法，通过深度共享的阴影模块细化 Transformer 层表示，在可训练参数量与 LoRA/DoRA 相当的情况下实现同等甚至更优的性能。

0 人收藏 0 人点赞