标签
一位开发者展示了在8GB RTX 4060上本地运行Gemma 4 26B MoE模型,结合Hermes智能体,完全自动化回测交易策略,凸显了本地LLM作为自主智能体的日益增强的能力。
一位用户询问为什么 Gemma 4 26b 相比 Qwen 模型关注度较低,并分享了他们在 3090 上使用这些模型构建个人助手项目的经验。
一篇分析文章,探讨为何 Gemma 4 尽管具备 QAT 与视觉支持等优势,却相比 Mistral 缺乏社区微调,以及社区惯性是否会最终发生转变。
Qt Creator 20 现在通过 Agent Client Protocol 支持本地 AI 编码助手,可以集成在消费级硬件上运行的开源权重模型(如 GPT-OSS 和 Gemma 4)。
Gemma 4 QAT 31B 模型在 KV 缓存量化时表现出更好的行为,表明推理效率得到提升。
讨论了在双 9060 XT GPU 配置上运行 Gemma 4 31B 模型的 Q6 量化版本,很可能是用于本地推理。
Gemma 4 12B 的一个新微调版本,基于 Fable 5 的推理进行训练,在智能体编码基准测试中实现了显著提升(从15%到55%),并且可以使用 llama.cpp 的自定义分支在 8GB VRAM GPU 上本地运行。
用户报告称,Gemma 4 26b 在语言学习和科学查询方面优于 Qwen 3.5/3.6,尽管在编码任务上稍显逊色,并邀请大家讨论小型 MoE 模型在编码以外的其他用例。
一个涵盖LLM内部原理的全面15部分系列,从分词到服务部署,基于Gemma 4 12B的实际配置。
Gemma-4-12B 的微调版本,针对本地编码和智能体任务进行了优化,在 tau2-bench 电信基准测试上相较基础模型实现了约 3.5 倍的性能提升。
Gemma 4 12B QAT(密集)使用TurboQuant在8GB RTX 4060上实现超过1000 tokens/秒的预填充速度,支持120k上下文,实现完整的GPU层卸载。相比之前的方法,预填充速度提升了42%。
Mia-AiLab发布了Gemmable 4 12B,这是Google Gemma 4 12B模型的微调版本,使用了Fable-5风格推理和助手轨迹,提供GGUF和MLX格式用于本地推理。
研究人员受Gemma 4 12B启发,仅花费100美元训练了一个无需视觉编码器的视觉语言模型,在M3 Pro MacBook上实现了端到端延迟降低30%。
@onusoz 展示了在单一 DGX Spark(128GB统一内存)上运行16个并行实例的 NVIDIA 量化版 Gemma-4-26B-A4B-NVFP4 模型,合计达到300 tok/s,展示高并发能力且未使用 flashinfer。
ScreenMind 是一个开源工具,使用 Gemma 4 在本地分析屏幕截图,构建可搜索和对话的 AI 记忆库,作为 Microsoft Recall 的隐私替代方案。
Google DeepMind 发布 Gemma 4 系列开放权重模型,覆盖 2B 到 31B 四种规模,支持 128K–256K 上下文、推理与函数调用,采用 Apache 2.0 许可证,并配备 ADK 框架实现自主智能体能力。
Gemma 4被演示在浏览器中通过WebGPU以每秒255个token的速度运行,使用Fable 5生成的内核,展示了高效的设备端推理。
Phil Schmid 指出,Google 的 Gemma 4 模型支持本地自主编码,准确率/速度约为前沿模型的 75%,并引用了 Vicki Boykis 的文章。
用户在8GB显存的游戏本上,使用llama.cpp配合MTP推测解码,以约3 tokens/s的速度运行了Gemma 4 31B稠密模型,展示了在消费级硬件上运行31B稠密模型的可行性,并提出了智能体工作流程:快速MoE模型将困难任务路由给这个较慢的稠密模型。
Gemma 4 E2B 在采用OpenVINO与LiteRT NPU支持的英特尔AI PC上,实现了预填充速度提升1.3倍、每瓦性能提升2.8倍,从而能够高效运行后台LLM任务。