@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行,拥有 248K Token 上下文窗口,每秒 20 个 Token,上下文窗口大得可以……
摘要
Gemma 4 26B 在 RTX 4060 上运行,通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度,从而在消费级硬件上本地处理整个代码库。
查看缓存全文
缓存时间: 2026/06/10 19:56
GEMMA 4 26B 在 RTX 4060 上运行,支持 248K Token 上下文窗口
每秒 20 个 token,上下文窗口大到足以在单个提示中喂入整个代码库、书籍和研究论文
这不是云端 API,也不是服务器机架,而是一块普通消费级 GPU 本地运行,搭配 llama.cpp 与 q4_k_xl 量化
在仅有 8GB 显存的显卡上实现 248K 上下文原本被认为不可能,而现在它就在某人的桌面上运行着
下面这篇文章详细介绍了在 2026 年实现此类配置所需的具体工具和设置 ↓
相似文章
Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE,支持250k上下文。如果你有8GB显存显卡,停下你正在做的事……
Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志,在8GB显存上运行Gemma 4 26B MoE,实现了250k上下文下20 token/秒的速度,这标志着廉价本地AI的一个重要里程碑。
@leopardracer: 同一GPU、同一模型、同一上下文,速度翻倍!RTX 4060,Gemma 4 12B,48k上下文,仅切换量化方式从 q4_k_m 到 q4_k_xl…
在 llama.cpp 中,将量化从 q4_k_m 切换为 q4_k_xl,可在相同 GPU(RTX 4060)上使推理速度翻倍,无需更换硬件或驱动,如 Gemma 4 12B 所示。
Qwen3.6-35B 与 Gemma4-26B 在 7900 XTX 上的对比
一项详细的基准测试对比了 Radeon 7900 XTX 上的 Qwen3.6-35B 和 Gemma4-26B,结果显示尽管 Gemma 的 token 生成速度较慢,但端到端快了约 20%,原因是 Qwen 因内部推理生成了约两倍的 token。文章建议:在吞吐量受限的批量任务中使用 Qwen,在延迟敏感的单次请求中使用 Gemma。
昨天在我的3090上跑了gemma 4 12b,我觉得本地模型领域已经变了
一位用户报告称,通过GGUF量化在单张RTX 3090上本地运行了谷歌的Gemma 4 12B模型,发现其性能强劲,包括真实的256k上下文、多模态能力以及函数调用功能,在编码任务上甚至优于更大的70B模型。