Gemma4 26b a4b Apex 量化版本表现相当不错

Reddit r/LocalLLaMA 2026/05/23 07:44 模型

gemma4 apex-quant quantization llama.cpp vulkan gpu-benchmark open-source

摘要

用户对 Gemma4 26B A4B 模型的 APEX 量化版本在 AMD RX 9060 XT 上进行了基准测试，在 90k 上下文下实现了 38 tps，没有质量下降，发现它优于之前的量化版本。

我尝试了 mudler 为 gemma4 26b a4b 制作的 apex 量化版本，效果惊人！在 90k 上下文下获得了 38 tps，没有循环，而且令人惊讶的是没有质量下降。我使用了 mudler/gemma-4-26B-A4B-it-APEX-GGUF / APEX-I-Compact (15gb) 搭配我的 RX 9060 XT 16 GB 和 llama.cpp Vulkan。作为对比，我之前的 gemma4 26b a4b unsloth ud-q5kxl 量化版本 (21.2gb) 在类似的长上下文测试中，在 50k 上下文时就出现了循环。我并非声称这是一个普遍更好的量化版本，但值得一试。

查看原文

相似文章

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生，做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上，两款模型运行速度相当。测试环境为 Windows 下的 LM Studio，采用推荐推理设置。使用的模型：unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗？**更新：** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

昨天在我的3090上跑了gemma 4 12b，我觉得本地模型领域已经变了

Reddit r/artificial

一位用户报告称，通过GGUF量化在单张RTX 3090上本地运行了谷歌的Gemma 4 12B模型，发现其性能强劲，包括真实的256k上下文、多模态能力以及函数调用功能，在编码任务上甚至优于更大的70B模型。

Gemma 4 QAT 基准测试结果（AMD 7900 XTX）：速度更快，显存占用更少，质量无损

Reddit r/LocalLLaMA

一位用户在 AMD 7900 XTX 上对 Google 的 Gemma 4 QAT 模型进行了基准测试，报告显示生成速度提升高达 45%，吞吐量提高 83%，显存占用大幅减少（例如 12B QAT 模型节省 5.7GB），且与标准权重相比质量无损。

RTX5090, gemma-4-31B-it-Q6_K.gguf。上下文：之前 - 35k，之后 - 80k！

Reddit r/LocalLLaMA

在RTX 5090上运行量化后的Gemma-4-31B模型，上下文长度从35k增加到80k，展示了显著的性能提升。

Gemma 4 26B-A4B GGUF 基准测试

Reddit r/LocalLLaMA

嘿，r/LocalLLaMA 社区，我们为不同提供方的 Gemma 4 26B-A4B GGUF 进行了 KL 散度（KL Divergence）基准测试，以帮助大家挑选最佳的量化版本。* 平均 KL 散度结果使几乎所有 **Unsloth GGUF 都位于帕累托前沿** * KLD 用于衡量量化模型与原始 BF16 输出分布的匹配程度，从而反映模型保留的精度。* 这使得 Unsloth 在 21/22 种尺寸中**表现最佳。**99.9% KLD 及其他指标也呈现相似趋势。* 我们还更新了我们的 Q6_K 量化版本以提高动态性。此前，它们...

相似文章

通俗版对比：Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

昨天在我的3090上跑了gemma 4 12b，我觉得本地模型领域已经变了

Gemma 4 QAT 基准测试结果（AMD 7900 XTX）：速度更快，显存占用更少，质量无损

RTX5090, gemma-4-31B-it-Q6_K.gguf。上下文：之前 - 35k，之后 - 80k！

Gemma 4 26B-A4B GGUF 基准测试

提交意见反馈