gemma-4

#gemma-4

@analogalok：我刚刚在8GB RTX 4060上完全本地运行了Gemma 4 26B A4B MoE模型，搭配Hermes智能体，现在它正在回测交易策略……

X AI KOLs Following ↗ · 7小时前缓存

一位开发者展示了在8GB RTX 4060上本地运行Gemma 4 26B MoE模型，结合Hermes智能体，完全自动化回测交易策略，凸显了本地LLM作为自主智能体的日益增强的能力。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 26b 为何不受关注？

Reddit r/LocalLLaMA ↗ · 16小时前

一位用户询问为什么 Gemma 4 26b 相比 Qwen 模型关注度较低，并分享了他们在 3090 上使用这些模型构建个人助手项目的经验。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 有一天会成为下一个 Mistral（或 Qwen3.6）吗？关于微调不足的问题。

Reddit r/LocalLLaMA ↗ · 23小时前

一篇分析文章，探讨为何 Gemma 4 尽管具备 QAT 与视觉支持等优势，却相比 Mistral 缺乏社区微调，以及社区惯性是否会最终发生转变。

0 人收藏 0 人点赞

#gemma-4

Qt Creator 20 与本地 AI

Reddit r/LocalLLaMA ↗ · 昨天缓存

Qt Creator 20 现在通过 Agent Client Protocol 支持本地 AI 编码助手，可以集成在消费级硬件上运行的开源权重模型（如 GPT-OSS 和 Gemma 4）。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 QAT 31B 对 KV 缓存量化的响应也更好

Reddit r/LocalLLaMA ↗ · 昨天

Gemma 4 QAT 31B 模型在 KV 缓存量化时表现出更好的行为，表明推理效率得到提升。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 31B Q6 在双 9060 XT 上运行

Reddit r/LocalLLaMA ↗ · 昨天

讨论了在双 9060 XT GPU 配置上运行 Gemma 4 31B 模型的 Q6 量化版本，很可能是用于本地推理。

0 人收藏 0 人点赞

#gemma-4

@analogalok: gemma-4-12B-agentic-fable5-composer2.5 V2 已发布。对基于 Fable 5 推理训练的模型进行了智能体升级。运行…

X AI KOLs Timeline ↗ · 2天前缓存

Gemma 4 12B 的一个新微调版本，基于 Fable 5 的推理进行训练，在智能体编码基准测试中实现了显著提升（从15%到55%），并且可以使用 llama.cpp 的自定义分支在 8GB VRAM GPU 上本地运行。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 26b a4b 确实是我尝试过的最适合语言学习和科学查询的模型！

Reddit r/LocalLLaMA ↗ · 3天前

用户报告称，Gemma 4 26b 在语言学习和科学查询方面优于 Qwen 3.5/3.6，尽管在编码任务上稍显逊色，并邀请大家讨论小型 MoE 模型在编码以外的其他用例。

0 人收藏 0 人点赞

#gemma-4

我写了一个免费的15部分系列文章，讲解LLM内部原理——真实的数学、真实的张量形状、真实的硬件限制。全部基于Gemma 4 12B的实际配置。

Reddit r/LocalLLaMA ↗ · 3天前

一个涵盖LLM内部原理的全面15部分系列，从分词到服务部署，基于Gemma 4 12B的实际配置。

0 人收藏 0 人点赞

#gemma-4

yuxinlu1/gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2-GGUF

Hugging Face Models Trending ↗ · 4天前缓存

Gemma-4-12B 的微调版本，针对本地编码和智能体任务进行了优化，在 tau2-bench 电信基准测试上相较基础模型实现了约 3.5 倍的性能提升。

0 人收藏 0 人点赞

#gemma-4

@analogalok: Gemma 4 12B QAT（密集）在8GB显存和120k上下文下实现超过1000 tokens/秒的预填充速度 Gemma 4 12B QAT（密集），TurboQ…

X AI KOLs Following ↗ · 5天前缓存

Gemma 4 12B QAT（密集）使用TurboQuant在8GB RTX 4060上实现超过1000 tokens/秒的预填充速度，支持120k上下文，实现完整的GPU层卸载。相比之前的方法，预填充速度提升了42%。

0 人收藏 0 人点赞

#gemma-4

@MiaAI_lab：我使用Fable-5风格推理和助手轨迹对Gemma 4 12B进行了微调，并将其发布为Gemmable 4 12b。**可用…

X AI KOLs Timeline ↗ · 5天前缓存

Mia-AiLab发布了Gemmable 4 12B，这是Google Gemma 4 12B模型的微调版本，使用了Fable-5风格推理和助手轨迹，提供GGUF和MLX格式用于本地推理。

0 人收藏 0 人点赞

#gemma-4

@andimarafioti：没有视觉编码器，VLM也能‘看见’吗？我们受Gemma 4 12B启发，花100美元训练了一个。在M3 Pro MacBook上的延迟：…

X AI KOLs Timeline ↗ · 5天前缓存

研究人员受Gemma 4 12B启发，仅花费100美元训练了一个无需视觉编码器的视觉语言模型，在M3 Pro MacBook上实现了端到端延迟降低30%。

0 人收藏 0 人点赞

#gemma-4

@onusoz: 16路并行 Gemma-4-26B-A4B-NVFP4 运行，每路18输出 token/s，合计300 tok/s 🫪 一台配备128GB统一内存的DGX Spark…

X AI KOLs Timeline ↗ · 5天前缓存

@onusoz 展示了在单一 DGX Spark（128GB统一内存）上运行16个并行实例的 NVIDIA 量化版 Gemma-4-26B-A4B-NVFP4 模型，合计达到300 tok/s，展示高并发能力且未使用 flashinfer。

0 人收藏 0 人点赞

#gemma-4

@QingQ77: 在本地用 Gemma 4 自动分析屏幕截图，构建可搜索、可对话的 AI 记忆库，100% 本地运行、零云依赖，是 Microsoft Recall 的开源隐私替代方案。 https://github.com/ayushh0110/Scre…

X AI KOLs Timeline ↗ · 5天前缓存

ScreenMind 是一个开源工具，使用 Gemma 4 在本地分析屏幕截图，构建可搜索和对话的 AI 记忆库，作为 Microsoft Recall 的隐私替代方案。

0 人收藏 0 人点赞

#gemma-4

@googledevs: Autonomous AI in action. Check out how the new Gemma 4 31B model operates as an ADK Agent, exploring, planning, and run…

X AI KOLs Following ↗ · 5天前缓存

Google DeepMind 发布 Gemma 4 系列开放权重模型，覆盖 2B 到 31B 四种规模，支持 128K–256K 上下文、推理与函数调用，采用 Apache 2.0 许可证，并配备 ADK 框架实现自主智能体能力。

0 人收藏 0 人点赞

#gemma-4

Gemma 4 E2B 在浏览器中运行，使用Fable 5编写的WebGPU内核，速度达255 tok/s

Reddit r/LocalLLaMA ↗ · 6天前

Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行，使用Fable 5生成的内核，展示了高效的设备端推理。

0 人收藏 0 人点赞

#gemma-4

@_philschmid："但借助 Google 最新发布的 Gemma 4 系列，我终于能够在本地进行自主编码，并且循环的准确率/速度达到前沿模型的约 75%，这太不可思议了。"

X AI KOLs Following ↗ · 6天前缓存

Phil Schmid 指出，Google 的 Gemma 4 模型支持本地自主编码，准确率/速度约为前沿模型的 75%，并引用了 Vicki Boykis 的文章。

0 人收藏 0 人点赞

#gemma-4

@analogalok：我的8GB显存游戏本肯定会恨我这么做，但我还是做了。跑了一个31B稠密模型（Gemma 4…

X AI KOLs Timeline ↗ · 6天前缓存

用户在8GB显存的游戏本上，使用llama.cpp配合MTP推测解码，以约3 tokens/s的速度运行了Gemma 4 31B稠密模型，展示了在消费级硬件上运行31B稠密模型的可行性，并提出了智能体工作流程：快速MoE模型将困难任务路由给这个较慢的稠密模型。

0 人收藏 0 人点赞

#gemma-4

@googlegemma: Gemma 4 E2B 在英特尔AI PC上运行速度超快，得益于OpenVINO上的LiteRT NPU支持！预填充性能提升1.3倍……

X AI KOLs Timeline ↗ · 2026-06-16 缓存

Gemma 4 E2B 在采用OpenVINO与LiteRT NPU支持的英特尔AI PC上，实现了预填充速度提升1.3倍、每瓦性能提升2.8倍，从而能够高效运行后台LLM任务。

0 人收藏 0 人点赞

gemma-4

提交意见反馈