attention-module

#attention-module

Orthrus-Qwen3-8B：在Qwen3-8B上实现高达7.8倍每前向传播token数，冻结主干网络，可证明输出分布一致

Reddit r/LocalLLaMA ↗ · 10小时前

介绍Orthrus，一种在冻结的自回归Transformer中注入可训练的扩散注意力模块的方法，在MATH-500上实现高达7.8倍每前向传播token数和约6倍实际时间加速，且输出分布与基础Qwen3-8B模型可证明一致。该方法仅需极少的额外参数和训练，并避免了外部草稿模型带来的TTFT惩罚。

0 人收藏 0 人点赞