parameter-efficiency

标签

Cards List
#parameter-efficiency

恕我无知,但27B模型怎么会比397B更强?

Reddit r/LocalLLaMA · 2026-04-22

用户质疑Qwen的27B稠密模型为何能胜过其397B MoE版本,引发关于MoE效率与稠密模型质量的讨论。

0 人收藏 0 人点赞
#parameter-efficiency

@aakashgupta:Karpathy 对 Dwarkesh 说,只要数据足够干净,10 亿参数的模型就能达到今天 1.8 万亿参数前沿模型的智能水平

X AI KOLs Timeline · 2026-04-22 缓存

Andrej Karpathy 向 Dwarkesh Patel 表示,用超干净数据训练的 10 亿参数模型可媲美当今 1.8 万亿参数的前沿模型,相当于 1,800 倍的有效压缩。

0 人收藏 0 人点赞
#parameter-efficiency

ShadowPEFT:面向参数高效微调的阴影网络

arXiv cs.CL · 2026-04-22 缓存

ShadowPEFT 提出一种集中式参数高效微调方法,通过深度共享的阴影模块细化 Transformer 层表示,在可训练参数量与 LoRA/DoRA 相当的情况下实现同等甚至更优的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈