gemma4

标签

Cards List
#gemma4

我绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图

Reddit r/LocalLLaMA · 11小时前

作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。

0 人收藏 0 人点赞
#gemma4

Gemma4-12B-QAT Uncensored Balanced 现已发布,支持 MTP(约 60% 速度提升)!

Reddit r/LocalLLaMA · 昨天

Gemma4-12B-QAT Uncensored Balanced 发布,这是一个经过微调的无审查模型,配备多 token 预测草案头,可实现约 60% 更快的推测解码,针对 llama.cpp 优化,并支持视觉功能。

0 人收藏 0 人点赞
#gemma4

@webbigdata: 如何使用 Colab-CLI 在 MacBook Air 或性能不足的 Linux 机器上运行 Gemma4 12B —— 不知不觉间,我们已……

X AI KOLs Timeline · 2026-06-15

本文介绍如何使用 Colab-CLI 在 MacBook Air 或 Linux 计算机等性能不足的机器上运行 Gemma4 12B 模型,利用 Google Colab 的免费版本。

0 人收藏 0 人点赞
#gemma4

围观智能体竞速:在单个A10G上加速Gemma 4 E4B推理的实时挑战

Reddit r/LocalLLaMA · 2026-06-09 缓存

一项实时挑战正在进行,旨在在单个A10G GPU上加速Gemma 4 E4B模型的推理,Hugging Face上的仪表板跟踪智能体的提交情况。

0 人收藏 0 人点赞
#gemma4

你对Gemma4 QAT的体验如何?

Reddit r/LocalLLaMA · 2026-06-08

用户分享了使用Gemma4 QAT模型的积极体验,提到质量提升和MTP带来的速度增益,并询问其他人的体验。

0 人收藏 0 人点赞
#gemma4

MTP 和 QTA 有什么关系?

Reddit r/LocalLLaMA · 2026-06-07

一位用户寻求澄清 llama.cpp 中 MTP(多 token 预测)与 QAT(量化感知训练)之间的关系,特别是关于 Gemma4 模型的 GGUF 兼容性以及文件名中新增的 QAT 字符串。

0 人收藏 0 人点赞
#gemma4

Gemma4 26B A4B的QAT变体对我来说表现不佳

Reddit r/LocalLLaMA · 2026-06-07

有用户报告称,Gemma4 26B A4B的QAT量化变体在棋盘SVG测试中性能比非QAT版本更差,尽管使用了建议设置,棋子绘制仍不稳定。

0 人收藏 0 人点赞
#gemma4

@analogalok: 我刚刚在我的 RTX 4060 上用 llama.cpp + CUDA 13.2 跑了 Google 全新的 Unsloth Gemma4 12B 密集 GGUF,每秒 21 个 token…

X AI KOLs Timeline · 2026-06-03 缓存

Google 新推出的 Gemma 4 12B 是一个纯解码器 transformer,采用无编码器的多模态输入,在达到强大基准性能的同时,尺寸足够小,可以在廉价 GPU 上本地运行。它采用 Apache 2.0 许可证发布。

0 人收藏 0 人点赞
#gemma4

直接在PC上运行Chrome的小型Gemma4(即Gemini Nano),无需GPU

Reddit r/LocalLLaMA · 2026-05-23

一位开发者创建了一个名为Dobby的Chrome扩展程序,可以在PC上本地运行谷歌的Gemma4(Gemini Nano),无需GPU,只需Chrome和16GB内存。该扩展提供了一个简单的界面,用于与模型交互,完成拼写检查或摘要等任务。

0 人收藏 0 人点赞
#gemma4

Gemma4 26b a4b Apex 量化版本表现相当不错

Reddit r/LocalLLaMA · 2026-05-23

用户对 Gemma4 26B A4B 模型的 APEX 量化版本在 AMD RX 9060 XT 上进行了基准测试,在 90k 上下文下实现了 38 tps,没有质量下降,发现它优于之前的量化版本。

0 人收藏 0 人点赞
#gemma4

实验性“Preserve Thinking” Jinja 模板,用于 llama.cpp 中的 Gemma4 31B

Reddit r/LocalLLaMA · 2026-05-23

这是一个实验性 Jinja 模板,用于 llama.cpp 中的 Gemma4 31B,通过修复常见的 thinking tag 问题来提升多轮工具调用的稳定性。欢迎社区反馈,但 Google 不推荐使用。

0 人收藏 0 人点赞
#gemma4

@MervinPraison: 你现在可以100%免费且完全本地运行OpenAI Codex应用 @ollama刚刚添加了原生Codex支持 安装ollama → 拉取…

X AI KOLs Timeline · 2026-05-15 缓存

Ollama现在原生支持Codex,让你可以完全免费且本地运行OpenAI Codex应用,无需订阅、无需API密钥、数据不离开你的笔记本电脑。

0 人收藏 0 人点赞
#gemma4

HauhauCS/Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced

Hugging Face Models Trending · 2026-05-14 缓存

HauhauCS 发布了 Gemma4-26B-A4B-Uncensored-HauhauCS-Balanced,这是 Gemma4 的无损无审查变体,经过一个多月的开发,拒绝次数为 0/465,提供 GGUF 格式。

0 人收藏 0 人点赞
#gemma4

MTP 关键在于接受率

Reddit r/LocalLLaMA · 2026-05-08

一位用户在 M4 Max Studio 上使用 mlx-vlm 对 Gemma 4 进行了 MTP(多令牌预测)基准测试,发现它在代码生成方面表现出色(速度快 1.53 倍,接受率 66%),但对 JSON 输出不利(速度慢 50%,接受率仅 8%),对长篇散文则影响中性,表明当令牌接受率低于 50% 时,MTP 的优势便荡然无存。

1 人收藏 1 人点赞
#gemma4

我在 RTX 5090 上用同一真实架构写作任务实测 Qwen3.6-27B、Qwen3.6-35B-A3B、Qwen3.5-27B 与 Gemma 4

Reddit r/LocalLLaMA · 2026-04-23

在 RTX 5090 上,让四款本地大模型——Qwen3.6-27B、Qwen3.6-35B、Qwen3.5-27B 与 Gemma 4——完成 2 万 token 架构写作任务,结果显示 Qwen3.6-27B 在清晰度、完整性与实用性上取得最佳综合平衡。

1 人收藏 1 人点赞
← 返回首页

提交意见反馈