实验性“Preserve Thinking” Jinja 模板,用于 llama.cpp 中的 Gemma4 31B

Reddit r/LocalLLaMA 工具

摘要

这是一个实验性 Jinja 模板,用于 llama.cpp 中的 Gemma4 31B,通过修复常见的 thinking tag 问题来提升多轮工具调用的稳定性。欢迎社区反馈,但 Google 不推荐使用。

[https://huggingface.co/stevelikesrhino/gemma-4-31B-it-nvfp4-GGUF/blob/main/gemma4-improved.jinja](https://huggingface.co/stevelikesrhino/gemma-4-31B-it-nvfp4-GGUF/blob/main/gemma4-improved.jinja) 欢迎各位尝试并提供反馈。在我自己的 Pi-coding-agent 测试中,我不再遇到“忘记关闭 thinking tag”、“忘记开启 thinking”、“过早关闭 thinking”的问题。在多轮提示内的多轮工具调用中更加稳定。免责声明:Google 不推荐使用。
查看原文

相似文章

[WIP] Gemma 4 MTP

Reddit r/LocalLLaMA

llama.cpp 是一个开源 C/C++ 库,用于在各种硬件上高效进行 LLM 推理,支持多种量化格式和 GPU 后端。本篇 README 详细介绍了其功能、安装方法以及近期更新,包括 Hugging Face 缓存迁移和多模态支持。

google/gemma-4-26B-A4B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4 MTP 草稿模型(drafter),适用于 Gemma 4 系列模型,通过推测解码(speculative decoding)实现显著的解码加速,同时保持完全一致的生成质量,适用于低延迟应用场景。