gemma-4

#gemma-4

Unsloth Gemma 4 QAT MTP 辅助模型现已可用

Reddit r/LocalLLaMA ↗ · 2026-06-09

Unsloth 发布了 Gemma 4 QAT MTP 辅助模型，以 GGUF 文件形式在 Hugging Face 上提供，支持 q8_0 及更大量化格式。

0 人收藏 0 人点赞

#gemma-4

推出 Gemma 4 12B：一个统一的、无编码器的多模态模型

Google DeepMind Blog ↗ · 2026-06-09 缓存

Google DeepMind 宣布推出 Gemma 4 12B，一种新颖的无编码器多模态 AI 模型，将视觉和音频直接集成到 LLM 主干中，在配备 16GB RAM 的笔记本电脑上提供高级推理和代理能力，以 Apache 2.0 许可证发布。

0 人收藏 0 人点赞

#gemma-4

google/diffusiongemma-26B-A4B-it

Hugging Face Models Trending ↗ · 2026-06-09 缓存

Google DeepMind 发布了 DiffusionGemma，这是一个 26B 参数的 Mixture-of-Experts 模型，使用离散扩散实现更快的文本生成，支持多模态输入和 256K token 上下文。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 31B 的能力让我惊讶

Reddit r/LocalLLaMA ↗ · 2026-06-09

一位用户分享了轶事发现：Gemma 4 31B 在理解和重构杂乱的学术代码方面优于 Qwen 3.6 模型，并与 Opus 4.7 能力相当，还突出了一个 Gemma 擅长的基准测试（SciCode）。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 26B A4B IT QAT 对比

Reddit r/LocalLLaMA ↗ · 2026-06-09

一位用户在MMLU_PRO和HumanEval上对Gemma 4 26B IT的三个量化版本（4位、6位和8位QAT）进行了基准测试，发现QAT 8位模型在HumanEval上的表现不如6位量化版本，且并未明显优于4位版本，从而质疑QAT对此模型的优越性。

0 人收藏 0 人点赞

#gemma-4

@elder_plinius: 消灭警报谷歌：被击溃 GEMMA-4-12B：被消灭 ‍ 0.0%拒绝率——无能力损失！https://huggingface…

X AI KOLs Following ↗ · 2026-06-08 缓存

一种新颖的两步消融技术（ASPA）应用于Gemma-4-12B，实现了零拒绝率和零能力损失，通过源锚定恢复基准性能。

0 人收藏 0 人点赞

#gemma-4

@_philschmid: 权重：https://huggingface.co/collections/google/gemma-4-qat-q4-0… 博客：https://blog.google/innovation-and-ai/techno…

X AI KOLs Following ↗ · 2026-06-08 缓存

Google 发布了 Gemma 4 模型，采用量化感知训练 (QAT) 并以 Q4_0 精度托管在 Hugging Face 上，提供从 5B 到 33B 参数的高效变体。

0 人收藏 0 人点赞

#gemma-4

@_philschmid: 更多 Gemma 4！新的 QAT Gemma 4 检查点，性能相似，内存使用减少约 4 倍！它附带了一种新的移动…

X AI KOLs Following ↗ · 2026-06-08 缓存

新的 QAT Gemma 4 检查点提供相似的性能，内存使用减少约 4 倍，通过一种新的移动端量化格式，使 Gemma 4 E2B 的内存占用仅需 1GB。

0 人收藏 0 人点赞

#gemma-4

[3090] Gemma4 QAT + MTP 快速TPS数据 [TLDR 提升1.2-1.8倍]

Reddit r/LocalLLaMA ↗ · 2026-06-08

基准测试结果显示，在24GB RTX 3090 GPU上使用QAT和MTP，Gemma 4模型（12B和26B）的每秒token速度提升了1.2-1.8倍。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 Chat Template 现在支持保留思考

Reddit r/LocalLLaMA ↗ · 2026-06-08 缓存

Google 的 Gemma 4 31B IT 模型现在更新了聊天模板，支持保留思考过程，并改进了空值处理、推理保留和输入验证。

0 人收藏 0 人点赞

#gemma-4

@leopardracer: 同一GPU、同一模型、同一上下文，速度翻倍！RTX 4060，Gemma 4 12B，48k上下文，仅切换量化方式从 q4_k_m 到 q4_k_xl…

X AI KOLs Timeline ↗ · 2026-06-08 缓存

在 llama.cpp 中，将量化从 q4_k_m 切换为 q4_k_xl，可在相同 GPU（RTX 4060）上使推理速度翻倍，无需更换硬件或驱动，如 Gemma 4 12B 所示。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 12b QAT 对于我的用例来说是一种倒退，尽管热议纷纷.. 不是我的主要推荐

Reddit r/LocalLLaMA ↗ · 2026-06-08

作者报告称，与标准 Q5_K_L 版本相比，Gemma 4 12b QAT 模型由于控制令牌配置错误导致的 bug，在工具调用和编码任务上出现了倒退。尽管令牌速度很高，但模型输出不一致，使其不适合代理工作流。

0 人收藏 0 人点赞

#gemma-4

Google的QATs Q4_0比Unsloth的Q4_K_XL具有更高的精度（至少部分如此）

Reddit r/LocalLLaMA ↗ · 2026-06-08

技术对比显示，Google的Q4_0量化Gemma-4模型比Unsloth的Q4_K_XL版本具有更高的精度和更多的高精度张量，从而导致文件体积更大。

0 人收藏 0 人点赞

#gemma-4

@VincentLogic: 一台 8GB 显存的入门笔记本现在可以跑一个完全自主的 AI Agent 方法：Gemma 4 26B + Hermes Desktop 本地跑 26B 模型，8GB 显存 + 16GB 内存就够接上 Hermes 之后它能做什么： …

X AI KOLs Timeline ↗ · 2026-06-08 缓存

介绍使用 Gemma 4 26B 模型与 Hermes Desktop 工具在 8GB 显存入门笔记本上运行完全自主的 AI Agent，实现本地文件操作、代码修改、网页浏览等功能，显著降低了本地 Agent 的门槛。

0 人收藏 0 人点赞

#gemma-4

@osanseviero: Gemma 4 MTP 现已正式合并到 llama.cpp，这意味着你可以使用 Gemma 4 QAT + MTP 来实现轻量级且超快的…

X AI KOLs Following ↗ · 2026-06-07 缓存

Gemma 4 MTP 已合并到 llama.cpp，通过 Gemma 4 QAT 和 MTP 实现轻量且快速的推理。

0 人收藏 0 人点赞

#gemma-4

@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE，支持250k上下文。如果你有8GB显存显卡，停下你正在做的事……

X AI KOLs Timeline ↗ · 2026-06-07 缓存

Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志，在8GB显存上运行Gemma 4 26B MoE，实现了250k上下文下20 token/秒的速度，这标志着廉价本地AI的一个重要里程碑。

0 人收藏 0 人点赞

#gemma-4

@SpaceTimeViking: 我有一个版本保持BF16注意力层，另一个混合精度量化使用NVFP4权重和FP8 At…

X AI KOLs Following ↗ · 2026-06-06 缓存

对Google的Gemma-4-12B-it模型进行混合精度量化，使用NVFP4用于MLP权重，FP8用于注意力层，实现了25%更小的存储占用和更快的吞吐量，同时保持质量。

0 人收藏 0 人点赞

#gemma-4

在12GB显存上使用Gemma 4 12B QAT MTP实现120 tok/s

Reddit r/LocalLLaMA ↗ · 2026-06-06

Google的Gemma 4 12B QAT模型通过llama.cpp的多令牌预测（MTP）在12GB GPU上达到120 tok/s。本文提供分步指南以及无MTP的基准对比，显示速度提升2倍。

0 人收藏 0 人点赞

#gemma-4

huihui-ai/Huihui-gemma-4-12B-it-abliterated

Hugging Face Models Trending ↗ · 2026-06-06 缓存

该模型是Google Gemma 4 12B it模型的未经审查版本，通过abliteration技术移除拒绝回答。可在Hugging Face和Ollama上获取，需注意敏感输出警告。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 QAT 基准测试结果（AMD 7900 XTX）：速度更快，显存占用更少，质量无损

Reddit r/LocalLLaMA ↗ · 2026-06-05

一位用户在 AMD 7900 XTX 上对 Google 的 Gemma 4 QAT 模型进行了基准测试，报告显示生成速度提升高达 45%，吞吐量提高 83%，显存占用大幅减少（例如 12B QAT 模型节省 5.7GB），且与标准权重相比质量无损。

0 人收藏 0 人点赞

gemma-4

提交意见反馈