标签
本文介绍了Rotary GPU,一种探索性的执行方法,能够在有限显存的消费级硬件上运行大型混合专家(MoE)模型,在配备8GB显存的RTX 4060上达到21 tokens/s的速度。该方法关注部署的可行性而非架构改进。