实验性“Preserve Thinking” Jinja 模板,用于 llama.cpp 中的 Gemma4 31B
摘要
这是一个实验性 Jinja 模板,用于 llama.cpp 中的 Gemma4 31B,通过修复常见的 thinking tag 问题来提升多轮工具调用的稳定性。欢迎社区反馈,但 Google 不推荐使用。
[https://huggingface.co/stevelikesrhino/gemma-4-31B-it-nvfp4-GGUF/blob/main/gemma4-improved.jinja](https://huggingface.co/stevelikesrhino/gemma-4-31B-it-nvfp4-GGUF/blob/main/gemma4-improved.jinja) 欢迎各位尝试并提供反馈。在我自己的 Pi-coding-agent 测试中,我不再遇到“忘记关闭 thinking tag”、“忘记开启 thinking”、“过早关闭 thinking”的问题。在多轮提示内的多轮工具调用中更加稳定。免责声明:Google 不推荐使用。
相似文章
Gemma 4 Chat Template 现在支持保留思考
Google 的 Gemma 4 31B IT 模型现在更新了聊天模板,支持保留思考过程,并改进了空值处理、推理保留和输入验证。
PSA:Gemma 4 12B 在编程和工具调用方面并非完全不可用,你需要特殊的聊天模板
Gemma 4 12B 在工具调用和编程方面存在已知问题,但在 llama.cpp 中使用自定义聊天模板可以解决这些错误。用户应在评估模型的编程能力之前,从源码编译 llama.cpp 并应用此修复。
[WIP] Gemma 4 MTP
llama.cpp 是一个开源 C/C++ 库,用于在各种硬件上高效进行 LLM 推理,支持多种量化格式和 GPU 后端。本篇 README 详细介绍了其功能、安装方法以及近期更新,包括 Hugging Face 缓存迁移和多模态支持。
Gemma 4 2B 通过 Spring AI / LM Studio 正确处理结构化 JSON 输出、工具调用和推理轨迹——包括在代码审查中识别出一个真实的 Java 错误
用户测试了 Gemma 4 2B 在本地通过 LM Studio 和 Spring AI 运行,用于结构化 JSON 输出、工具调用和推理轨迹,发现它正确识别了代码审查中的 Java 错误,并且性能与更大的模型相当。
google/gemma-4-26B-A4B-it-assistant
Google DeepMind 发布了 Gemma 4 MTP 草稿模型(drafter),适用于 Gemma 4 系列模型,通过推测解码(speculative decoding)实现显著的解码加速,同时保持完全一致的生成质量,适用于低延迟应用场景。