parameter-efficiency

标签

Cards List
#parameter-efficiency

@Fenng: 看到自媒体写的这么一段儿「最新的第四代 WeLM-80B,总参数已经只有 800 亿了,激活 30 亿,激活率只有 3.75%。作为对比——国内极致成本性能的代表 DeepSeek-V4-Flash,总参数 2840 亿、激活 130 亿…

X AI KOLs Timeline · 昨天 缓存

Fenng shares a self-media comparison between the fourth-generation WeLM-80B (80B total params, 3B activated, 3.75% activation rate) and DeepSeek-V4-Flash (284B total, 13B activated, 4.6% activation rate), with a humorous comment.

0 人收藏 0 人点赞
#parameter-efficiency

Operator Boosting 生成帕累托高效的 PDE 替代模型

arXiv cs.LG · 2026-06-17 缓存

Operator Boosting 是一种逐阶段残差学习框架,通过在残差场上训练微型模型来构建紧凑的神经算子替代模型,用于求解 PDE。其精度可与全尺寸模型相媲美甚至更优,同时参数减少高达 95%,在多个基准测试中展示了帕累托改进。

0 人收藏 0 人点赞
#parameter-efficiency

Looped World Models

Hugging Face Daily Papers · 2026-06-16 缓存

Looped World Models 通过共享的Transformer块引入迭代潜在状态细化,实现了100倍的参数效率,同时根据预测复杂度自适应调整计算深度。

0 人收藏 0 人点赞
#parameter-efficiency

我仅能腾出小规模来摆弄Transformer

Reddit r/LocalLLaMA · 2026-06-11

一名学生介绍了Silia,这是一种新颖的Transformer架构,将注意力机制和前馈网络合并为统一操作,以在≤10M参数规模下节省参数,尽管计算资源有限,仍以更少的参数实现了与GPT-2相当的性能。

0 人收藏 0 人点赞
#parameter-efficiency

通信动力学神经网络:通过快速傅里叶变换对角化层减少参数数量并改善海森矩阵条件数

arXiv cs.LG · 2026-05-12 缓存

本文介绍了 CDLinear,这是一种分块循环神经网络层,通过快速傅里叶变换对角化技术减少参数量并改善海森矩阵条件数,并在 MNIST 数据集上结合理论证明进行了验证。

0 人收藏 0 人点赞
#parameter-efficiency

恕我无知,但27B模型怎么会比397B更强?

Reddit r/LocalLLaMA · 2026-04-22

用户质疑Qwen的27B稠密模型为何能胜过其397B MoE版本,引发关于MoE效率与稠密模型质量的讨论。

0 人收藏 0 人点赞
#parameter-efficiency

@aakashgupta:Karpathy 对 Dwarkesh 说,只要数据足够干净,10 亿参数的模型就能达到今天 1.8 万亿参数前沿模型的智能水平

X AI KOLs Timeline · 2026-04-22 缓存

Andrej Karpathy 向 Dwarkesh Patel 表示,用超干净数据训练的 10 亿参数模型可媲美当今 1.8 万亿参数的前沿模型,相当于 1,800 倍的有效压缩。

0 人收藏 0 人点赞
#parameter-efficiency

ShadowPEFT:面向参数高效微调的阴影网络

arXiv cs.CL · 2026-04-22 缓存

ShadowPEFT 提出一种集中式参数高效微调方法,通过深度共享的阴影模块细化 Transformer 层表示,在可训练参数量与 LoRA/DoRA 相当的情况下实现同等甚至更优的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈