rotary-gpu

标签

Cards List
#rotary-gpu

Rotary GPU:在有限显存下探索大型MoE模型的本地执行

Hacker News Top · 5天前 缓存

本文介绍了Rotary GPU,一种探索性的执行方法,能够在有限显存的消费级硬件上运行大型混合专家(MoE)模型,在配备8GB显存的RTX 4060上达到21 tokens/s的速度。该方法关注部署的可行性而非架构改进。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈