运行 gemma-4-26B-A4B 不需要 GPU

Reddit r/LocalLLaMA 2026/06/07 07:24 模型

cpu-inference gemma llm open-source efficient koboldcpp no-gpu

摘要

作者展示了在仅使用 CPU 的系统上，通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型，在一台旧台式机上达到了每秒 7 个 token 的速度，这表明运行本地大语言模型推理可能并不需要强大的 GPU。

我已经在我的旧 i5-8500 土豆机（32GB 内存，\*没有 GPU\*）上运行了一段时间的 LLM，最高能跑 12B 的密集模型，虽然慢但还能用。但这款 Gemma-4-26B-A4B 在这台只有 CPU 的 Linux 机器上跑 Koboldcpp 简直是飞一样快。没错，一台花 150 美元买的旧二手台式机，就能跑出约 7 T/s 的最新一代 LLM。嘿，尽管嘲笑吧。你可以吹嘘你那比二手车还贵的超级主机，但我吹嘘的是我从 eBay 上买来的一台破旧台式机，花不到一个晚上出去玩的钱，就能跑同样的东西。我一直在考虑买块 GPU，但现在看来似乎没这个必要了。这些较小的模型在没有 GPU 的情况下表现惊人。

查看原文

运行 gemma-4-26B-A4B 不需要 GPU

相似文章

在13年历史的Xeon无GPU服务器上以每秒5个token运行Gemma 4 26B

Gemma 4 E2B 在浏览器中运行，使用Fable 5编写的WebGPU内核，速度达255 tok/s

一台10年前的Xeon就够了

@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE，支持250k上下文。如果你有8GB显存显卡，停下你正在做的事……

@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF，每秒 21 个 token…

提交意见反馈