@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行,拥有 248K Token 上下文窗口,每秒 20 个 Token,上下文窗口大得可以……

X AI KOLs Timeline 模型

摘要

Gemma 4 26B 在 RTX 4060 上运行,通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度,从而在消费级硬件上本地处理整个代码库。

GEMMA 4 26B 在 RTX 4060 上,拥有 248K Token 上下文窗口 每秒 20 个 Token,上下文窗口大到可以一次性输入整个代码库、书籍和研究论文 这不是云 API,也不是服务器机架,而是一块普通的消费级 GPU,本地运行,使用 llama.cpp 和 q4_k_xl 量化 在 8GB 显存的显卡上实现 248K 上下文原本被认为是不可能的,但现在它就在某人的桌面上运行 下面的文章将详细介绍 2026 年哪些工具和配置能让这样的设置正常工作 ↓
查看原文
查看缓存全文

缓存时间: 2026/06/10 19:56

GEMMA 4 26B 在 RTX 4060 上运行,支持 248K Token 上下文窗口

每秒 20 个 token,上下文窗口大到足以在单个提示中喂入整个代码库、书籍和研究论文

这不是云端 API,也不是服务器机架,而是一块普通消费级 GPU 本地运行,搭配 llama.cpp 与 q4_k_xl 量化

在仅有 8GB 显存的显卡上实现 248K 上下文原本被认为不可能,而现在它就在某人的桌面上运行着

下面这篇文章详细介绍了在 2026 年实现此类配置所需的具体工具和设置 ↓

相似文章

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA

一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。

Qwen3.6-35B 与 Gemma4-26B 在 7900 XTX 上的对比

Reddit r/LocalLLaMA

一项详细的基准测试对比了 Radeon 7900 XTX 上的 Qwen3.6-35B 和 Gemma4-26B,结果显示尽管 Gemma 的 token 生成速度较慢,但端到端快了约 20%,原因是 Qwen 因内部推理生成了约两倍的 token。文章建议:在吞吐量受限的批量任务中使用 Qwen,在延迟敏感的单次请求中使用 Gemma。