Gemma 4 12B 在4080 Super上的首次编程代理测试

Reddit r/LocalLLaMA 工具

摘要

一位用户使用Pi Agent扩展在VSCodium中将Gemma 4 12B作为编程代理进行了测试,成功执行了一项任务:创建一个读取日志并输出JSON的Python脚本。该模型自主处理工具使用,零错误。

我刚刚将新的Gemma 4 12B放入VSCodium中,配合Pi Agent扩展,测试它如何处理工具,它第一次就完美通过了测试。我给它一个提示,要求编写一个Python脚本,逐行读取日志,提取错误模块,并将计数输出到JSON文件。我还告诉它生成自己的模拟日志数据,并运行实时终端测试来验证结果。代理并没有只是吐出一段代码让我复制粘贴,而是真正开始工作。它创建了脚本,用混合随机日志填充了一个虚拟的app.log文件,打开终端Shell运行代码,并验证了输出,零错误或路径错误。 * **模型:** Gemma 4 12B (Unsloth UD-Q4\\_K\\_XL) * **上下文:** 32K (`--ctx-size 32768`) * **KV缓存:** 8-bit (`--cache-type-k q8_0 --cache-type-v q8_0`) * **层:** \\-1 (完全卸载到GPU) * **采样器:** Flash Attention 开启, `--temp 1.0`, `--top-p 0.95`, `--top-k 64`, `--min-p 0.05`, `--repeat-penalty 1.15` * `llama.cpp + cuda`
查看原文

相似文章

Gemma 4 12B 是我的新主力

Reddit r/LocalLLaMA

作者分享了从 Qwen 3.6 切换到 Gemma 4 12B(Unsloth Q5_K_XL)进行本地编程的体验,称赞其即插即用的设置、更好的语法准确性以及可控的 VRAM 使用,尽管在速度上略有取舍。

google/gemma-4-26B-A4B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4 MTP 草稿模型(drafter),适用于 Gemma 4 系列模型,通过推测解码(speculative decoding)实现显著的解码加速,同时保持完全一致的生成质量,适用于低延迟应用场景。

google/gemma-4-E4B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4 E4B 指令微调助手模型,该模型具备多模态能力、推理改进以及针对低延迟端侧应用优化的投机解码功能。

Gemma 4 VLA 在 Jetson Orin Nano Super 上的演示

Hugging Face Blog

NVIDIA 与 Hugging Face 发布实操演示,展示 Gemma 4 作为视觉-语言-动作模型在 Jetson Orin Nano Super 上完整运行,使用本地语音转文字/文字转语音及网络摄像头输入。