Gemma 4 12B 在4080 Super上的首次编程代理测试
摘要
一位用户使用Pi Agent扩展在VSCodium中将Gemma 4 12B作为编程代理进行了测试,成功执行了一项任务:创建一个读取日志并输出JSON的Python脚本。该模型自主处理工具使用,零错误。
我刚刚将新的Gemma 4 12B放入VSCodium中,配合Pi Agent扩展,测试它如何处理工具,它第一次就完美通过了测试。我给它一个提示,要求编写一个Python脚本,逐行读取日志,提取错误模块,并将计数输出到JSON文件。我还告诉它生成自己的模拟日志数据,并运行实时终端测试来验证结果。代理并没有只是吐出一段代码让我复制粘贴,而是真正开始工作。它创建了脚本,用混合随机日志填充了一个虚拟的app.log文件,打开终端Shell运行代码,并验证了输出,零错误或路径错误。
* **模型:** Gemma 4 12B (Unsloth UD-Q4\\_K\\_XL)
* **上下文:** 32K (`--ctx-size 32768`)
* **KV缓存:** 8-bit (`--cache-type-k q8_0 --cache-type-v q8_0`)
* **层:** \\-1 (完全卸载到GPU)
* **采样器:** Flash Attention 开启, `--temp 1.0`, `--top-p 0.95`, `--top-k 64`, `--min-p 0.05`, `--repeat-penalty 1.15`
* `llama.cpp + cuda`
相似文章
Gemma 4 2B 通过 Spring AI / LM Studio 正确处理结构化 JSON 输出、工具调用和推理轨迹——包括在代码审查中识别出一个真实的 Java 错误
用户测试了 Gemma 4 2B 在本地通过 LM Studio 和 Spring AI 运行,用于结构化 JSON 输出、工具调用和推理轨迹,发现它正确识别了代码审查中的 Java 错误,并且性能与更大的模型相当。
Gemma 4 12B 是我的新主力
作者分享了从 Qwen 3.6 切换到 Gemma 4 12B(Unsloth Q5_K_XL)进行本地编程的体验,称赞其即插即用的设置、更好的语法准确性以及可控的 VRAM 使用,尽管在速度上略有取舍。
google/gemma-4-26B-A4B-it-assistant
Google DeepMind 发布了 Gemma 4 MTP 草稿模型(drafter),适用于 Gemma 4 系列模型,通过推测解码(speculative decoding)实现显著的解码加速,同时保持完全一致的生成质量,适用于低延迟应用场景。
google/gemma-4-E4B-it-assistant
Google DeepMind 发布了 Gemma 4 E4B 指令微调助手模型,该模型具备多模态能力、推理改进以及针对低延迟端侧应用优化的投机解码功能。
Gemma 4 VLA 在 Jetson Orin Nano Super 上的演示
NVIDIA 与 Hugging Face 发布实操演示,展示 Gemma 4 作为视觉-语言-动作模型在 Jetson Orin Nano Super 上完整运行,使用本地语音转文字/文字转语音及网络摄像头输入。