llm-acceleration

标签

Cards List
#llm-acceleration

利用冻结的多令牌预测在Pixel上加速Gemini Nano模型(10分钟阅读)

TLDR AI · 3天前 缓存

谷歌研究院推出了一种新架构,使用冻结的Multi-Token Prediction在Pixel设备上加速Gemini Nano模型,显著提升了设备端AI特性的速度和能效。

0 人收藏 0 人点赞
#llm-acceleration

JetFlow:通过并行树草稿打破推测解码的缩放天花板

arXiv cs.CL · 2026-06-18 缓存

JetFlow是一个推测解码框架,通过结合单次前向草稿效率与分支级因果条件,打破了缩放天花板,在数学基准上实现了高达9.64倍的加速,并在密集型和MoE Qwen3模型上优于先前方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈