model-efficiency

#model-efficiency

Transformer 真的需要三个投影矩阵吗？QKV 变体的系统性研究

Hacker News Top ↗ · 2026-06-04 缓存

本文系统研究了 Transformer 中 QKV 投影共享的各种变体，发现共享键和值投影（Q-K=V）可在仅造成 3.1% 困惑度下降的情况下实现 50% 的 KV 缓存压缩，结合 GQA/MQA 最高可达 96.9% 的缓存压缩率——以极小的质量损失实现实用的端侧推理。

0 人收藏 0 人点赞

#model-efficiency

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

Complexity-Balanced Splitting (CBS) 使用局部复杂度度量将扩散时间线划分为近似负担相等的段，在不增加推理成本的情况下，将合成质量（FID）提升约35%。

0 人收藏 0 人点赞

#model-efficiency

X AI KOLs Timeline ↗ · 2026-05-24 缓存

一种名为Zero-Expert Self-Distillation Adaptation (ZEDA)的新方法，允许像Qwen3和GLM这样的MoE模型在简单token上跳过一半的专家计算，而精度损失极小，通过添加输出为空的虚拟专家，实现约20%的推理加速。

0 人收藏 0 人点赞

#model-efficiency

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

Q-ARVD是一种新颖的量化框架，通过解决帧级量化敏感度失衡和权重异常值模式，降低自回归视频扩散模型的推理成本。

0 人收藏 0 人点赞

#model-efficiency

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

ZEDA是一种低成本框架，通过注入零输出专家并使用自蒸馏，将后训练的静态MoE模型转换为动态模型，在基准测试中实现了超过50%的专家FLOP减少，且精度损失极小。

0 人收藏 0 人点赞

#model-efficiency

arXiv cs.CL ↗ · 2026-05-13 缓存

本文研究了大型语言模型中 On-Policy 蒸馏（OPD）效率背后的参数级机制，将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD，一种即插即用方法，可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。

0 人收藏 0 人点赞

#model-efficiency

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

SlimSpec 为 drafter LM-head 引入了低秩参数化方法，以加速 LLMs 中的推测解码，在保持完整词表支持的同时实现了 4-5 倍加速。

0 人收藏 0 人点赞

#model-efficiency

arXiv cs.AI ↗ · 2026-05-08 缓存

这篇研究论文利用信息论分析了大型视觉-语言模型（LVLM）的内部机制，揭示了注意力机制可能存在冗余，而前馈网络才是推动语义创新的关键。作者证明，将学习到的注意力权重替换为随机值仍可获得相当的性能，这表明当前模型“在注意力中迷失”。

0 人收藏 0 人点赞