标签
开发者将Gemma 4 E4B在Google LiteRT引擎上的表现与Q4 GGUF量化版本进行对比,发现由于多令牌预测(MTP),文本生成速度提升约2.4倍,但图像描述仅提升1.1倍。文章提供了一个面向OpenAI兼容端点的Python封装,但存在确定输出、单会话引擎等限制。
Atomic Chat 的 MTP 技术利用推测解码,在双 RTX 5090 上将 Qwen 稠密模型的速度提升 2.5 倍,MoE 模型提升 25%,同时保持零精度损失,仅增加约 1 GB 显存,通过一次前向传播草拟并验证多个 token。
llama.cpp的一个分支修复了量化KV缓存中的--split-mode tensor问题,在双GPU配置上实现高达40%的速度提升,且无质量损失。
NousResearch发布Lighthouse Attention,一种基于选择的分层注意力机制,在98K上下文下实现1.4-1.7倍实际时间加速,在单个B200上的512K上下文下,其前向/后向传播比标准注意力快约17倍,并在530M参数的Llama-3模型上跨50B tokens进行了验证。