标签
Gemma 4 12B QAT(密集)使用TurboQuant在8GB RTX 4060上实现超过1000 tokens/秒的预填充速度,支持120k上下文,实现完整的GPU层卸载。相比之前的方法,预填充速度提升了42%。
用户在8GB显存的游戏本上,使用llama.cpp配合MTP推测解码,以约3 tokens/s的速度运行了Gemma 4 31B稠密模型,展示了在消费级硬件上运行31B稠密模型的可行性,并提出了智能体工作流程:快速MoE模型将困难任务路由给这个较慢的稠密模型。
介绍使用 Gemma 4 26B 模型与 Hermes Desktop 工具在 8GB 显存入门笔记本上运行完全自主的 AI Agent,实现本地文件操作、代码修改、网页浏览等功能,显著降低了本地 Agent 的门槛。
构建了一个仓库,用于在8GB显存上从零训练一个微型语言模型(25M参数),支持MTP,但指出mHC和BitNet的局限性。
一位开发者展示了如何使用llama.cpp,通过MoE卸载和TurboQuant KV缓存量化技术,在老款GTX 1080(8GB显存)上以128k上下文运行Qwen 3.6 35B-A3B和Gemma 4 26B-A4B等MoE模型,达到24+ tok/s的推理速度,并揭示了针对Gemma MTP投机解码的优化技巧。