model-efficiency

标签

Cards List
#model-efficiency

Transformer 真的需要三个投影矩阵吗?QKV 变体的系统性研究

Hacker News Top · 2026-06-04 缓存

本文系统研究了 Transformer 中 QKV 投影共享的各种变体,发现共享键和值投影(Q-K=V)可在仅造成 3.1% 困惑度下降的情况下实现 50% 的 KV 缓存压缩,结合 GQA/MQA 最高可达 96.9% 的缓存压缩率——以极小的质量损失实现实用的端侧推理。

0 人收藏 0 人点赞
#model-efficiency

Complexity-Balanced Diffusion Splitting

Hugging Face Daily Papers · 2026-06-04 缓存

Complexity-Balanced Splitting (CBS) 使用局部复杂度度量将扩散时间线划分为近似负担相等的段,在不增加推理成本的情况下,将合成质量(FID)提升约35%。

0 人收藏 0 人点赞
#model-efficiency

@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…

X AI KOLs Timeline · 2026-05-24 缓存

一种名为Zero-Expert Self-Distillation Adaptation (ZEDA)的新方法,允许像Qwen3和GLM这样的MoE模型在简单token上跳过一半的专家计算,而精度损失极小,通过添加输出为空的虚拟专家,实现约20%的推理加速。

0 人收藏 0 人点赞
#model-efficiency

Q-ARVD:量化自回归视频扩散模型

Hugging Face Daily Papers · 2026-05-20 缓存

Q-ARVD是一种新颖的量化框架,通过解决帧级量化敏感度失衡和权重异常值模式,降低自回归视频扩散模型的推理成本。

0 人收藏 0 人点赞
#model-efficiency

通过自蒸馏,后训练MoE可跳过一半专家

Hugging Face Daily Papers · 2026-05-18 缓存

ZEDA是一种低成本框架,通过注入零输出专家并使用自蒸馏,将后训练的静态MoE模型转换为动态模型,在基准测试中实现了超过50%的专家FLOP减少,且精度损失极小。

0 人收藏 0 人点赞
#model-efficiency

学会预见:揭示 On-Policy 蒸馏效率的解锁机制

arXiv cs.CL · 2026-05-13 缓存

本文研究了大型语言模型中 On-Policy 蒸馏(OPD)效率背后的参数级机制,将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD,一种即插即用方法,可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。

0 人收藏 0 人点赞
#model-efficiency

SlimSpec: 用于加速推测解码的低秩 Draft LM-Head

Hugging Face Daily Papers · 2026-05-11 缓存

SlimSpec 为 drafter LM-head 引入了低秩参数化方法,以加速 LLMs 中的推测解码,在保持完整词表支持的同时实现了 4-5 倍加速。

0 人收藏 0 人点赞
#model-efficiency

大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI · 2026-05-08 缓存

这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈