标签
新的Q3量化版本已添加到gemma-4-12B-coder-fable5-composer2.5 GGUF模型中,通过重要性矩阵量化版本,使得这一专注于编码的微调模型能够在大约6GB显存的GPU上运行。
用户测试了社区微调版 gemma-4-12B-coder 与 Qwen3.6-35B-A3B MoE 在三个编程任务上的表现,发现 gemma 在复杂有状态程序上表现不佳,而 Qwen 35B 依然稳健。
作者发布了Gemma 4模型(12B和31B)改进后的GGUF量化版本,采用了更精确的量化感知训练过程,相比原版量化实现了更低的KLD和更高的同top百分比。
本文研究了通过编辑单个神经元能否修复Gemma 4模型在长序列事实列举任务中的重复循环问题。研究发现,对少量MLP神经元进行有针对性的权重编辑可以显著减少循环故障,但无法完全消除较大模型中的末日循环(doom looping)。
一条推文指出,经过 abliterated 处理、NVFP4 量化的 Gemma-4-12B 模型(7.7 GB)在实际任务中能够与 Qwen 3.6-35B 相媲美,同时在 Blackwell GPU 上运行快速,展现了显著的效率提升。
讨论利用 Gemma 4 12B 的无编码器架构实现原生语音输入,寻找现成的低延迟流式音频摄入解决方案。
一项基准测试显示,Diffusion Gemma 比 Gemma4 速度快4倍,但事实性错误多6倍,尤其是在冷门话题上,为了生成流畅文本而牺牲了事实准确性。
一份关于在macOS上使用Gemma 4与MTP草稿模型及llama.cpp设置本地编码代理的详细教程,通过投机解码实现了约24%的速度提升。
谷歌的Gemma 4 12B模型于上周发布,在HuggingFace上已超过400万次下载,使其成为最受欢迎的无编码器视觉语言模型(VLM),也是首个支持无编码器音频输入的通用大语言模型。该模型在大小和性能之间取得平衡,可在本地笔记本电脑上运行,支持多步推理和智能体工作流。
一款开源的本地AI地牢应用,使用Gemma 4和FLUX进行文本和图像生成,完全私密,运行内存低于8GB。
Google Gemma 团队演示了在 Reachy Mini 机器人上使用 Gemini Live 的实时社交机器人技术,展示了使用 Gemma 4 进行云端和本地推理的能力。
关于 llama.cpp 中结合 Gemma 4 模型的 MTP 投机解码的详细技术探索,表明辅助模型的选择和量化对加速效果有显著影响,且并非所有“同名”的辅助模型表现相同。
Gemma 4 现在使用 MTP GGUF 格式速度快2倍,且仅需6GB内存即可本地运行。相关文章解释了GGUF的工作原理,包括量化和内存映射。
Unsloth AI宣布,Gemma 4在MTP GGUFs上运行速度快了2倍,使得在如MacBook Pro M1 Max这样的硬件上以72 tokens/s的速度运行本地编码代理成为可能。
Unsloth 推出 2-bit 量化的 Gemma 4 12B 模型,仅 4.66GB 可在本地运行,具备自主联网搜索、深度分析等类麦肯锡咨询能力。
llmfan46 在 Hugging Face 上发布了一组四重未经审查、微调并量化的 Gemma-4 模型,包括 12B、26B-A4B 和 31B 变体,提供 QAT 和 GGUF 格式。
DiffusionGemma 已发布;它受计算限制,比其它 Gemma-4 模型快 4 倍(H100 上 1k tok/s),擅长编码任务,包括 3D 生成和前端开发。
Gemma 4 26B 在 RTX 4060 上运行,通过 llama.cpp 和 Q4_K_XL 量化实现 248K Token 上下文和每秒 20 Token 的速度,从而在消费级硬件上本地处理整个代码库。
针对代码任务的 Gemma 4 12B 专注微调版本,从思维链数据(Composer 2.5 和 Fable 5)中蒸馏而来,并量化为 GGUF 格式,以在本地离线使用,仅需极低 VRAM 要求
用户报告称,当系统提示较大(约 21k 个 token)时,Gemma 4 12B 统一音频模型会停止关注语音,并请求变通方法或解释,指出该问题在 vLLM、llama.cpp 和 LiteRT-LM 后端中均存在。