@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行，拥有 248K Token 上下文窗口，每秒 20 个 Token，上下文窗口大得可以……

X AI KOLs Timeline 2026/06/10 12:55 模型

local-ai gemma-4 quantization llama-cpp consumer-gpu 248k-context

摘要

Gemma 4 26B 在 RTX 4060 上运行，通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度，从而在消费级硬件上本地处理整个代码库。

GEMMA 4 26B 在 RTX 4060 上，拥有 248K Token 上下文窗口每秒 20 个 Token，上下文窗口大到可以一次性输入整个代码库、书籍和研究论文这不是云 API，也不是服务器机架，而是一块普通的消费级 GPU，本地运行，使用 llama.cpp 和 q4_k_xl 量化在 8GB 显存的显卡上实现 248K 上下文原本被认为是不可能的，但现在它就在某人的桌面上运行下面的文章将详细介绍 2026 年哪些工具和配置能让这样的设置正常工作 ↓

查看原文

查看缓存全文

缓存时间: 2026/06/10 19:56

GEMMA 4 26B 在 RTX 4060 上运行，支持 248K Token 上下文窗口

每秒 20 个 token，上下文窗口大到足以在单个提示中喂入整个代码库、书籍和研究论文

这不是云端 API，也不是服务器机架，而是一块普通消费级 GPU 本地运行，搭配 llama.cpp 与 q4_k_xl 量化

在仅有 8GB 显存的显卡上实现 248K 上下文原本被认为不可能，而现在它就在某人的桌面上运行着

下面这篇文章详细介绍了在 2026 年实现此类配置所需的具体工具和设置 ↓

@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行，拥有 248K Token 上下文窗口，每秒 20 个 Token，上下文窗口大得可以……

相似文章

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

@DogukanUrker: 单张RTX 3060上运行Gemma 4 12B：完整262,144上下文，速度约100 tok/s。（配置如下）密集模型 -> MTP推测…

@analogalok: Gemma 4 12B QAT（密集）在8GB显存和120k上下文下实现超过1000 tokens/秒的预填充速度 Gemma 4 12B QAT（密集），TurboQ…

@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE，支持250k上下文。如果你有8GB显存显卡，停下你正在做的事……

在13年历史的Xeon无GPU服务器上以每秒5个token运行Gemma 4 26B

提交意见反馈