llm-acceleration

#llm-acceleration

利用冻结的多令牌预测在Pixel上加速Gemini Nano模型（10分钟阅读）

TLDR AI ↗ · 3天前缓存

谷歌研究院推出了一种新架构，使用冻结的Multi-Token Prediction在Pixel设备上加速Gemini Nano模型，显著提升了设备端AI特性的速度和能效。

0 人收藏 0 人点赞

#llm-acceleration

arXiv cs.CL ↗ · 2026-06-18 缓存

JetFlow是一个推测解码框架，通过结合单次前向草稿效率与分支级因果条件，打破了缩放天花板，在数学基准上实现了高达9.64倍的加速，并在密集型和MoE Qwen3模型上优于先前方法。

0 人收藏 0 人点赞