Gemma4 26b a4b Apex 量化版本表现相当不错

Reddit r/LocalLLaMA 模型

摘要

用户对 Gemma4 26B A4B 模型的 APEX 量化版本在 AMD RX 9060 XT 上进行了基准测试,在 90k 上下文下实现了 38 tps,没有质量下降,发现它优于之前的量化版本。

我尝试了 mudler 为 gemma4 26b a4b 制作的 apex 量化版本,效果惊人!在 90k 上下文下获得了 38 tps,没有循环,而且令人惊讶的是没有质量下降。我使用了 mudler/gemma-4-26B-A4B-it-APEX-GGUF / APEX-I-Compact (15gb) 搭配我的 RX 9060 XT 16 GB 和 llama.cpp Vulkan。作为对比,我之前的 gemma4 26b a4b unsloth ud-q5kxl 量化版本 (21.2gb) 在类似的长上下文测试中,在 50k 上下文时就出现了循环。我并非声称这是一个普遍更好的量化版本,但值得一试。
查看原文

相似文章

通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

Gemma 4 26B-A4B GGUF 基准测试

Reddit r/LocalLLaMA

嘿,r/LocalLLaMA 社区,我们为不同提供方的 Gemma 4 26B-A4B GGUF 进行了 KL 散度(KL Divergence)基准测试,以帮助大家挑选最佳的量化版本。* 平均 KL 散度结果使几乎所有 **Unsloth GGUF 都位于帕累托前沿** * KLD 用于衡量量化模型与原始 BF16 输出分布的匹配程度,从而反映模型保留的精度。* 这使得 Unsloth 在 21/22 种尺寸中**表现最佳。**99.9% KLD 及其他指标也呈现相似趋势。* 我们还更新了我们的 Q6_K 量化版本以提高动态性。此前,它们...

Qwen3.6-35B 与 Gemma4-26B 在 7900 XTX 上的对比

Reddit r/LocalLLaMA

一项详细的基准测试对比了 Radeon 7900 XTX 上的 Qwen3.6-35B 和 Gemma4-26B,结果显示尽管 Gemma 的 token 生成速度较慢,但端到端快了约 20%,原因是 Qwen 因内部推理生成了约两倍的 token。文章建议:在吞吐量受限的批量任务中使用 Qwen,在延迟敏感的单次请求中使用 Gemma。