gemma4

#gemma4

我绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图

Reddit r/LocalLLaMA ↗ · 11小时前

作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。

0 人收藏 0 人点赞

#gemma4

Gemma4-12B-QAT Uncensored Balanced 现已发布，支持 MTP（约 60% 速度提升）！

Reddit r/LocalLLaMA ↗ · 昨天

Gemma4-12B-QAT Uncensored Balanced 发布，这是一个经过微调的无审查模型，配备多 token 预测草案头，可实现约 60% 更快的推测解码，针对 llama.cpp 优化，并支持视觉功能。

0 人收藏 0 人点赞

#gemma4

@webbigdata: 如何使用 Colab-CLI 在 MacBook Air 或性能不足的 Linux 机器上运行 Gemma4 12B —— 不知不觉间，我们已……

X AI KOLs Timeline ↗ · 2026-06-15

本文介绍如何使用 Colab-CLI 在 MacBook Air 或 Linux 计算机等性能不足的机器上运行 Gemma4 12B 模型，利用 Google Colab 的免费版本。

0 人收藏 0 人点赞

#gemma4

围观智能体竞速：在单个A10G上加速Gemma 4 E4B推理的实时挑战

Reddit r/LocalLLaMA ↗ · 2026-06-09 缓存

一项实时挑战正在进行，旨在在单个A10G GPU上加速Gemma 4 E4B模型的推理，Hugging Face上的仪表板跟踪智能体的提交情况。

0 人收藏 0 人点赞

#gemma4

你对Gemma4 QAT的体验如何？

Reddit r/LocalLLaMA ↗ · 2026-06-08

用户分享了使用Gemma4 QAT模型的积极体验，提到质量提升和MTP带来的速度增益，并询问其他人的体验。

0 人收藏 0 人点赞

#gemma4

MTP 和 QTA 有什么关系？

Reddit r/LocalLLaMA ↗ · 2026-06-07

一位用户寻求澄清 llama.cpp 中 MTP（多 token 预测）与 QAT（量化感知训练）之间的关系，特别是关于 Gemma4 模型的 GGUF 兼容性以及文件名中新增的 QAT 字符串。

0 人收藏 0 人点赞

#gemma4

Gemma4 26B A4B的QAT变体对我来说表现不佳

Reddit r/LocalLLaMA ↗ · 2026-06-07

有用户报告称，Gemma4 26B A4B的QAT量化变体在棋盘SVG测试中性能比非QAT版本更差，尽管使用了建议设置，棋子绘制仍不稳定。

0 人收藏 0 人点赞

#gemma4

@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF，每秒 21 个 token…

X AI KOLs Timeline ↗ · 2026-06-03 缓存

Google 新推出的 Gemma 4 12B 是一个纯解码器 transformer，采用无编码器的多模态输入，在达到强大基准性能的同时，尺寸足够小，可以在廉价 GPU 上本地运行。它采用 Apache 2.0 许可证发布。

0 人收藏 0 人点赞

#gemma4

直接在PC上运行Chrome的小型Gemma4（即Gemini Nano），无需GPU

Reddit r/LocalLLaMA ↗ · 2026-05-23

一位开发者创建了一个名为Dobby的Chrome扩展程序，可以在PC上本地运行谷歌的Gemma4（Gemini Nano），无需GPU，只需Chrome和16GB内存。该扩展提供了一个简单的界面，用于与模型交互，完成拼写检查或摘要等任务。

0 人收藏 0 人点赞

#gemma4

Gemma4 26b a4b Apex 量化版本表现相当不错

Reddit r/LocalLLaMA ↗ · 2026-05-23

用户对 Gemma4 26B A4B 模型的 APEX 量化版本在 AMD RX 9060 XT 上进行了基准测试，在 90k 上下文下实现了 38 tps，没有质量下降，发现它优于之前的量化版本。

0 人收藏 0 人点赞

#gemma4

实验性“Preserve Thinking” Jinja 模板，用于 llama.cpp 中的 Gemma4 31B

Reddit r/LocalLLaMA ↗ · 2026-05-23

这是一个实验性 Jinja 模板，用于 llama.cpp 中的 Gemma4 31B，通过修复常见的 thinking tag 问题来提升多轮工具调用的稳定性。欢迎社区反馈，但 Google 不推荐使用。

0 人收藏 0 人点赞

#gemma4

@MervinPraison: 你现在可以100%免费且完全本地运行OpenAI Codex应用 @ollama刚刚添加了原生Codex支持安装ollama → 拉取…

X AI KOLs Timeline ↗ · 2026-05-15 缓存

Ollama现在原生支持Codex，让你可以完全免费且本地运行OpenAI Codex应用，无需订阅、无需API密钥、数据不离开你的笔记本电脑。

0 人收藏 0 人点赞

#gemma4

HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced

Hugging Face Models Trending ↗ · 2026-05-14 缓存

HauhauCS 发布了 Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced，这是 Gemma4 的无损无审查变体，经过一个多月的开发，拒绝次数为 0/465，提供 GGUF 格式。

0 人收藏 0 人点赞

#gemma4

MTP 关键在于接受率

Reddit r/LocalLLaMA ↗ · 2026-05-08

一位用户在 M4 Max Studio 上使用 mlx-vlm 对 Gemma 4 进行了 MTP（多令牌预测）基准测试，发现它在代码生成方面表现出色（速度快 1.53 倍，接受率 66%），但对 JSON 输出不利（速度慢 50%，接受率仅 8%），对长篇散文则影响中性，表明当令牌接受率低于 50% 时，MTP 的优势便荡然无存。

1 人收藏 1 人点赞

#gemma4

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

Reddit r/LocalLLaMA ↗ · 2026-04-23

在 RTX 5090 上，让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务，结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。

1 人收藏 1 人点赞

gemma4

提交意见反馈