标签
谷歌研究院推出了一种新架构,使用冻结的Multi-Token Prediction在Pixel设备上加速Gemini Nano模型,显著提升了设备端AI特性的速度和能效。
JetFlow是一个推测解码框架,通过结合单次前向草稿效率与分支级因果条件,打破了缩放天花板,在数学基准上实现了高达9.64倍的加速,并在密集型和MoE Qwen3模型上优于先前方法。