8gb-vram

#8gb-vram

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

Reddit r/LocalLLaMA ↗ · 15小时前

一位开发者展示了如何使用llama.cpp，通过MoE卸载和TurboQuant KV缓存量化技术，在老款GTX 1080（8GB显存）上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型，达到24+ tok/s的推理速度，并揭示了针对Gemma MTP投机解码的优化技巧。

0 人收藏 0 人点赞

8gb-vram

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

提交意见反馈