Gemma 4 26B-A4B GGUF 基准测试

Reddit r/LocalLLaMA 模型

摘要

嘿,r/LocalLLaMA 社区,我们为不同提供方的 Gemma 4 26B-A4B GGUF 进行了 KL 散度(KL Divergence)基准测试,以帮助大家挑选最佳的量化版本。* 平均 KL 散度结果使几乎所有 **Unsloth GGUF 都位于帕累托前沿** * KLD 用于衡量量化模型与原始 BF16 输出分布的匹配程度,从而反映模型保留的精度。* 这使得 Unsloth 在 21/22 种尺寸中**表现最佳。**99.9% KLD 及其他指标也呈现相似趋势。* 我们还更新了我们的 Q6_K 量化版本以提高动态性。此前,它们...

嘿,r/LocalLLaMA 社区,我们为不同提供方的 Gemma 4 26B-A4B GGUF 进行了 KL 散度基准测试,以帮助大家挑选最合适的量化版本。 * 平均 KL 散度结果表明,几乎所有 **Unsloth GGUF 都落在了帕累托最优前沿上** * KLD 用于衡量量化模型与原始 BF16 输出分布的匹配程度,从而反映精度的保留情况。 * 这使 Unsloth 在 21/22 种尺寸配置中**表现最佳。**99.9% KLD 及其他指标也呈现出相同趋势。 * 我们还对 Q6_K 量化版本进行了更新,使其更具动态适应性。之前的版本虽然已经优化过,但新版本稍有提升——无需重新下载,您可以自行决定是否获取这个略优的版本。旧版完全够用,新版体积略微大一些。Qwen3.6 也进行了相同的更新。 * 此外,我们推出了一种新的 UD-IQ4_NL_XL 量化格式,可适配 16GB 显存。UD-IQ4_NL_XL(14.6GB)的大小介于 UD-IQ4_XS(13.4GB)与 UD-Q4_K_S(16.4GB)之间。Qwen3.6 同样推出了该规格。 如需查看高清图表(Reddit 移动端会自动压缩原图),请参阅:[Gemma 4 Benchmarks](https://unsloth.ai/docs/models/gemma-4#unsloth-gguf-benchmarks) 与 [Qwen3.6 Benchmarks](https://unsloth.ai/docs/models/qwen3.6#unsloth-gguf-benchmarks) 我们还更新了 MLX 量化版本,引入了更优的动态层级选择策略(受限于 MLX 本身特性):[查看详情](https://unsloth.ai/docs/models/qwen3.6#mlx-dynamic-quants) |MLX 性能指标|**UD-4bit (旧版)**|**UD-4bit (新版)**|**MLX 4.4bit MSQ**| |:-|:-|:-|:-| |困惑度 (Perplexity)|4.772|**4.766**|4.864| |Mean KLD|0.0177|**0.0163**|0.0878| |99.9% KLD|0.8901|**0.8398**|2.9597| |磁盘占用|21.4 GB|21.6 GB|21.2 GB| Gemma 4 GGUFs: [https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) Qwen3.6 GGUFs: [https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF)
查看原文

相似文章

unsloth/gemma-4-26B-A4B-it-GGUF

Hugging Face Models Trending

# unsloth/gemma-4-26B-A4B-it-GGUF · Hugging Face 来源:[https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) ## [https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF#read-our-how-to-run-gemma-4-guide](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF#read-our-how-to-run-gemma-4-guide)阅读我们的[如何运行 Gemma 4 指南](https://docs.unsloth.ai/models/gemma-4)! *请参阅[Unsloth Dynamic 2.0 GGUFs](https://unsloth.ai/docs/basics/unslot

通俗版对比:Qwen3.6 35b-a3b 与 Gemma4-26b-a4b-it

Reddit r/LocalLLaMA

Gemma 4-26b-a4b-it 基本是个基础扎实、能稳妥完成任务的 B 等生。Qwen3.6-35b-a3b 则是考出 A+ 的优等生,做完任务后还有余力搞点锦上添花的发挥。在我的 16GB 显存显卡上,两款模型运行速度相当。测试环境为 Windows 下的 LM Studio,采用推荐推理设置。使用的模型:unsloth/gemma-4-26B-A4B-it-UD-Q4_K_S 与 AesSedai/Qwen3.6-35B-A3B IQ4_XS。大家有不同意见吗?**更新:** 看来我之前用 Gemma 4 的方式不太对。[Sadman782 的评论](https://www.redd

Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2

Hugging Face Models Trending

SuperGemma4-26B-Uncensored-MLX-4bit-v2 是 Google Gemma 4 26B 的微调量化版本,专为 Apple Silicon 优化,在代码、推理和工具使用任务上性能提升,同时保持比原版基线更快的推理速度。

Jiunsong/supergemma4-26b-uncensored-gguf-v2

Hugging Face Models Trending

SuperGemma4-26B-Uncensored-Fast GGUF v2 是 Google Gemma-4-26B 模型的量化、本地可运行变体,针对 Apple Silicon 进行了优化,提供更快的推理速度和较少审查的聊天行为,同时在通用任务上保持实用性能。