gemma-4

#gemma-4

@Tono_Ken3: 为gemma-4-12B-coder-fable5-composer2.5-GGUF添加了Q3系列。你可能可以在编码中尝试Fable5（作为教师角色）的精髓……

X AI KOLs Timeline ↗ · 2026-06-16 缓存

新的Q3量化版本已添加到gemma-4-12B-coder-fable5-composer2.5 GGUF模型中，通过重要性矩阵量化版本，使得这一专注于编码的微调模型能够在大约6GB显存的GPU上运行。

0 人收藏 0 人点赞

#gemma-4

@zhixianio: 试完了，感觉还挺大跌眼镜的，不知道是不是我打开的方式不对，欢迎大家给出反例。接下来是我测的结果：在 M5 Max 上，拿这个社区微调版 gemma-4-12B-coder （llama.cpp）对打我日常在用的 Qwen3.6-35B-…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

用户测试了社区微调版 gemma-4-12B-coder 与 Qwen3.6-35B-A3B MoE 在三个编程任务上的表现，发现 gemma 在复杂有状态程序上表现不佳，而 Qwen 35B 依然稳健。

0 人收藏 0 人点赞

#gemma-4

编辑单个神经元能否修复LLMs中的重复循环？

arXiv cs.LG ↗ · 2026-06-15 缓存

本文研究了通过编辑单个神经元能否修复Gemma 4模型在长序列事实列举任务中的重复循环问题。研究发现，对少量MLP神经元进行有针对性的权重编辑可以显著减少循环故障，但无法完全消除较大模型中的末日循环（doom looping）。

0 人收藏 0 人点赞

#gemma-4

@Tono_Ken3: 我注意到可能有另一个人也意识到，在实际工作中 gemma-4-12b 能够与 qwen3.6-35b 相媲美。是的……

X AI KOLs Timeline ↗ · 2026-06-14 缓存

一条推文指出，经过 abliterated 处理、NVFP4 量化的 Gemma-4-12B 模型（7.7 GB）在实际任务中能够与 Qwen 3.6-35B 相媲美，同时在 Blackwell GPU 上运行快速，展现了显著的效率提升。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 12B 原生无编码器语音输入利用建议？

Reddit r/LocalLLaMA ↗ · 2026-06-14

讨论利用 Gemma 4 12B 的无编码器架构实现原生语音输入，寻找现成的低延迟流式音频摄入解决方案。

0 人收藏 0 人点赞

#gemma-4

Diffusion Gemma 速度快4倍，但错误多6倍！

Reddit r/LocalLLaMA ↗ · 2026-06-12

一项基准测试显示，Diffusion Gemma 比 Gemma4 速度快4倍，但事实性错误多6倍，尤其是在冷门话题上，为了生成流畅文本而牺牲了事实准确性。

0 人收藏 0 人点赞

#gemma-4

如何在macOS上设置本地编码代理

Hacker News Top ↗ · 2026-06-12 缓存

一份关于在macOS上使用Gemma 4与MTP草稿模型及llama.cpp设置本地编码代理的详细教程，通过投机解码实现了约24%的速度提升。

0 人收藏 0 人点赞

#gemma-4

@AndreasPSteiner: 上周发布，仅在HuggingFace上就已超过400万次下载。这使得Gemma 4 12B成为最受欢迎的无编码器VLM…

X AI KOLs Timeline ↗ · 2026-06-12 缓存

谷歌的Gemma 4 12B模型于上周发布，在HuggingFace上已超过400万次下载，使其成为最受欢迎的无编码器视觉语言模型（VLM），也是首个支持无编码器音频输入的通用大语言模型。该模型在大小和性能之间取得平衡，可在本地笔记本电脑上运行，支持多步推理和智能体工作流。

0 人收藏 0 人点赞

#gemma-4

Open Dungeon：本地角色扮演，使用Gemma 4 QAT + 内嵌Uncen-FLUX图像，在8GB内存下运行完整256K上下文（OS）

Reddit r/LocalLLaMA ↗ · 2026-06-12

一款开源的本地AI地牢应用，使用Gemma 4和FLUX进行文本和图像生成，完全私密，运行内存低于8GB。

0 人收藏 0 人点赞

#gemma-4

@googlegemma：实时社交机器人，从云端到您的本地设备。观看我们 DevX 团队的 Ian 使用 Gemini Live 进行无缝…

X AI KOLs Following ↗ · 2026-06-12 缓存

Google Gemma 团队演示了在 Reachy Mini 机器人上使用 Gemini Live 的实时社交机器人技术，展示了使用 Gemma 4 进行云端和本地推理的能力。

0 人收藏 0 人点赞

#gemma-4

并非所有 MTP 辅助模型都生而平等

Reddit r/LocalLLaMA ↗ · 2026-06-12

关于 llama.cpp 中结合 Gemma 4 模型的 MTP 投机解码的详细技术探索，表明辅助模型的选择和量化对加速效果有显著影响，且并非所有“同名”的辅助模型表现相同。

0 人收藏 0 人点赞

#gemma-4

@amitiitbhu: Gemma 4 现在使用 MTP GGUFs 速度提升2倍！仅需6GB内存即可本地运行。新文章：GGUF如何工作？阅读：htt…

X AI KOLs Timeline ↗ · 2026-06-12 缓存

Gemma 4 现在使用 MTP GGUF 格式速度快2倍，且仅需6GB内存即可本地运行。相关文章解释了GGUF的工作原理，包括量化和内存映射。

0 人收藏 0 人点赞

#gemma-4

@Freerunnering: 这实际上使得Gemma 4 26B-4A在我的MacBook Pro M1 Max上以72tk/s的速度可用于编码代理。这个视频是实时的，…

X AI KOLs Timeline ↗ · 2026-06-12 缓存

Unsloth AI宣布，Gemma 4在MTP GGUFs上运行速度快了2倍，使得在如MacBook Pro M1 Max这样的硬件上以72 tokens/s的速度运行本地编码代理成为可能。

0 人收藏 0 人点赞

#gemma-4

@VincentLogic: 4.66 GB 的模型，居然在本地跑出了麦肯锡咨询顾问的水平？ Unsloth 最新的 2-bit Gemma 4 12B，效果真的炸裂。这不仅仅是聊天，它直接化身“超级 Agent”自主干活：自主联网搜索引用 15+ 信源深度区分…

X AI KOLs Timeline ↗ · 2026-06-12 缓存

Unsloth 推出 2-bit 量化的 Gemma 4 12B 模型，仅 4.66GB 可在本地运行，具备自主联网搜索、深度分析等类麦肯锡咨询能力。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 四重发布：12B、12B QAT、26B-A4B QAT 和 31B QAT 无审查异端版

Reddit r/LocalLLaMA ↗ · 2026-06-11 缓存

llmfan46 在 Hugging Face 上发布了一组四重未经审查、微调并量化的 Gemma-4 模型，包括 12B、26B-A4B 和 31B 变体，提供 QAT 和 GGUF 格式。

0 人收藏 0 人点赞

#gemma-4

@mervenoyann: DiffusionGemma 已发布，它受计算限制，因此相比其他 Gemma-4 模型快 4 倍（H100 上 1k tok/s），在……方面也很出色

X AI KOLs Following ↗ · 2026-06-10 缓存

DiffusionGemma 已发布；它受计算限制，比其它 Gemma-4 模型快 4 倍（H100 上 1k tok/s），擅长编码任务，包括 3D 生成和前端开发。

0 人收藏 0 人点赞

#gemma-4

@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行，拥有 248K Token 上下文窗口，每秒 20 个 Token，上下文窗口大得可以……

X AI KOLs Timeline ↗ · 2026-06-10 缓存

Gemma 4 26B 在 RTX 4060 上运行，通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度，从而在消费级硬件上本地处理整个代码库。

0 人收藏 0 人点赞

#gemma-4

yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF

Hugging Face Models Trending ↗ · 2026-06-10 缓存

针对代码任务的 Gemma 4 12B 专注微调版本，从思维链数据（Composer 2.5 和 Fable 5）中蒸馏而来，并量化为 GGUF 格式，以在本地离线使用，仅需极低 VRAM 要求

0 人收藏 0 人点赞

#gemma-4

有没有人成功让 Gemma 4 12B（统一音频）在带有大型系统提示时真正关注语音？

Reddit r/LocalLLaMA ↗ · 2026-06-10

用户报告称，当系统提示较大（约 21k 个 token）时，Gemma 4 12B 统一音频模型会停止关注语音，并请求变通方法或解释，指出该问题在 vLLM、llama.cpp 和 LiteRT-LM 后端中均存在。

0 人收藏 0 人点赞

gemma-4

@Tono_Ken3: 为gemma-4-12B-coder-fable5-composer2.5-GGUF添加了Q3系列。你可能可以在编码中尝试Fable5（作为教师角色）的精髓……

@zhixianio: 试完了，感觉还挺大跌眼镜的，不知道是不是我打开的方式不对，欢迎大家给出反例。接下来是我测的结果：在 M5 Max 上，拿这个社区微调版 gemma-4-12B-coder （llama.cpp）对打我日常在用的 Qwen3.6-35B-…

更多QAT内容以及毛茸茸的tick

编辑单个神经元能否修复LLMs中的重复循环？

@Tono_Ken3: 我注意到可能有另一个人也意识到，在实际工作中 gemma-4-12b 能够与 qwen3.6-35b 相媲美。是的……

Gemma 4 12B 原生无编码器语音输入利用建议？

Diffusion Gemma 速度快4倍，但错误多6倍！

如何在macOS上设置本地编码代理

@AndreasPSteiner: 上周发布，仅在HuggingFace上就已超过400万次下载。这使得Gemma 4 12B成为最受欢迎的无编码器VLM…

Open Dungeon：本地角色扮演，使用Gemma 4 QAT + 内嵌Uncen-FLUX图像，在8GB内存下运行完整256K上下文（OS）

@googlegemma：实时社交机器人，从云端到您的本地设备。观看我们 DevX 团队的 Ian 使用 Gemini Live 进行无缝…

并非所有 MTP 辅助模型都生而平等

@amitiitbhu: Gemma 4 现在使用 MTP GGUFs 速度提升2倍！仅需6GB内存即可本地运行。新文章：GGUF如何工作？阅读：htt…

@Freerunnering: 这实际上使得Gemma 4 26B-4A在我的MacBook Pro M1 Max上以72tk/s的速度可用于编码代理。这个视频是实时的，…

@VincentLogic: 4.66 GB 的模型，居然在本地跑出了麦肯锡咨询顾问的水平？ Unsloth 最新的 2-bit Gemma 4 12B，效果真的炸裂。这不仅仅是聊天，它直接化身“超级 Agent”自主干活：自主联网搜索引用 15+ 信源深度区分…

Gemma 4 四重发布：12B、12B QAT、26B-A4B QAT 和 31B QAT 无审查异端版

@mervenoyann: DiffusionGemma 已发布，它受计算限制，因此相比其他 Gemma-4 模型快 4 倍（H100 上 1k tok/s），在……方面也很出色

@leopardracer: GEMMA 4 26B 在 RTX 4060 上运行，拥有 248K Token 上下文窗口，每秒 20 个 Token，上下文窗口大得可以……

yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF

有没有人成功让 Gemma 4 12B（统一音频）在带有大型系统提示时真正关注语音？

提交意见反馈