model-efficiency

#model-efficiency

@che_shr_cat: 1/ 参数规模是一种蛮力拐杖。如果一个35B模型仅通过扩展其搜索…就能击败1,000B模型呢？

X AI KOLs Timeline ↗ · 3天前缓存

探讨一个35B参数模型是否能够通过在测试时扩展其搜索视界来超越1000B模型，使用结构化过程反馈而非蛮力参数扩展。

0 人收藏 0 人点赞

#model-efficiency

同时更智能且更廉价：字节精确的KV缓存嫁接将冻结的小模型转变为验证知识飞轮

Hugging Face Daily Papers ↗ · 2026-07-15 缓存

本文介绍了字节精确的KV缓存嫁接，一种通过将验证知识作为字节精确的状态工件存储并在推理过程中恢复，从而使冻结的小型语言模型既更强大又更廉价的技术，在不改变权重的情况下实现了显著的token和能耗降低。

0 人收藏 0 人点赞

#model-efficiency

[研究/模型] Flint：无损压缩推理过程

Reddit r/LocalLLaMA ↗ · 2026-07-13

本研究引入了针对推理轨迹的章节感知压缩，训练模型舍弃填充性叙述，同时保留计算和验证片段，在比原始推理少用2-3倍词元的情况下，达到或超越原始准确率。

0 人收藏 0 人点赞

#model-efficiency

全模态密集视频字幕生成的并行自回归解码

Hugging Face Daily Papers ↗ · 2026-07-03 缓存

本文介绍了PadCaptioner，一个3B参数的全模态密集视频字幕模型，采用并行自回归解码实现高效率和高品质，性能超越7B参数模型。通过利用事件间的弱局部依赖关系，潜在规划机制实现了无损并行生成。

0 人收藏 0 人点赞

#model-efficiency

@nathanrs: 新帖子！扩散LLM的一个缺点是双向注意力机制导致键值跨步骤漂移，破…

X AI KOLs Timeline ↗ · 2026-06-28 缓存

一篇新帖子强调了扩散LLM的一个缺点：双向注意力机制导致键值跨步骤漂移，破坏了KV缓存。不过，生成质量对轻微的KV漂移具有鲁棒性，研究重点已放在最大化陈旧KV重用而不导致质量下降上。

0 人收藏 0 人点赞

#model-efficiency

Transformer 真的需要三个投影矩阵吗？QKV 变体的系统性研究

Hacker News Top ↗ · 2026-06-04 缓存

本文系统研究了 Transformer 中 QKV 投影共享的各种变体，发现共享键和值投影（Q-K=V）可在仅造成 3.1% 困惑度下降的情况下实现 50% 的 KV 缓存压缩，结合 GQA/MQA 最高可达 96.9% 的缓存压缩率——以极小的质量损失实现实用的端侧推理。

0 人收藏 0 人点赞

#model-efficiency

Complexity-Balanced Diffusion Splitting

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

Complexity-Balanced Splitting (CBS) 使用局部复杂度度量将扩散时间线划分为近似负担相等的段，在不增加推理成本的情况下，将合成质量（FID）提升约35%。

0 人收藏 0 人点赞

#model-efficiency

@rohanpaul_ai: 大型MoE模型可能浪费了一半的专家计算资源在几乎不需要专家帮助的token上。本文中50%的e…

X AI KOLs Timeline ↗ · 2026-05-24 缓存

一种名为Zero-Expert Self-Distillation Adaptation (ZEDA)的新方法，允许像Qwen3和GLM这样的MoE模型在简单token上跳过一半的专家计算，而精度损失极小，通过添加输出为空的虚拟专家，实现约20%的推理加速。

0 人收藏 0 人点赞

#model-efficiency

Q-ARVD：量化自回归视频扩散模型

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

Q-ARVD是一种新颖的量化框架，通过解决帧级量化敏感度失衡和权重异常值模式，降低自回归视频扩散模型的推理成本。

0 人收藏 0 人点赞

#model-efficiency

通过自蒸馏，后训练MoE可跳过一半专家

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

ZEDA是一种低成本框架，通过注入零输出专家并使用自蒸馏，将后训练的静态MoE模型转换为动态模型，在基准测试中实现了超过50%的专家FLOP减少，且精度损失极小。

0 人收藏 0 人点赞

#model-efficiency

学会预见：揭示 On-Policy 蒸馏效率的解锁机制

arXiv cs.CL ↗ · 2026-05-13 缓存

本文研究了大型语言模型中 On-Policy 蒸馏（OPD）效率背后的参数级机制，将其归因于模块分配和更新方向上的早期“预见性”。本文提出了 EffOPD，一种即插即用方法，可在不损害最终性能的情况下将 OPD 训练速度提高 3 倍。

0 人收藏 0 人点赞

#model-efficiency

SlimSpec: 用于加速推测解码的低秩 Draft LM-Head

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

SlimSpec 为 drafter LM-head 引入了低秩参数化方法，以加速 LLMs 中的推测解码，在保持完整词表支持的同时实现了 4-5 倍加速。

0 人收藏 0 人点赞

#model-efficiency

大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI ↗ · 2026-05-08 缓存

这篇研究论文利用信息论分析了大型视觉-语言模型（LVLM）的内部机制，揭示了注意力机制可能存在冗余，而前馈网络才是推动语义创新的关键。作者证明，将学习到的注意力权重替换为随机值仍可获得相当的性能，这表明当前模型“在注意力中迷失”。

0 人收藏 0 人点赞

model-efficiency

提交意见反馈