attention-module

标签

Cards List
#attention-module

Orthrus-Qwen3-8B:在Qwen3-8B上实现高达7.8倍每前向传播token数,冻结主干网络,可证明输出分布一致

Reddit r/LocalLLaMA · 10小时前

介绍Orthrus,一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法,在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速,且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练,并避免了外部草稿模型带来的TTFT惩罚。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈