标签
Google 在 HuggingFace 上发布了经过量化感知训练的 Gemma 4 检查点,针对移动设备推理进行了优化,并提供 QAT Mobile 和 Q4_0 两种变体。
Google 发布了 Gemma 4 12B,这是一款基于 Apache 2.0 开源协议的多模态模型,支持文本、视觉和音频处理,上下文窗口达 256K。本文提供了一份指南,介绍如何在 Mac 上使用 Ollama、LM Studio 或 llama.cpp 本地运行该模型。
一位 Google Gemma 团队成员证实,Gemma 4 QAT(量化感知训练)模型即将发布,建议用户等待后再测试自己的量化版本。
一位用户报告称,通过GGUF量化在单张RTX 3090上本地运行了谷歌的Gemma 4 12B模型,发现其性能强劲,包括真实的256k上下文、多模态能力以及函数调用功能,在编码任务上甚至优于更大的70B模型。
Google发布Gemma 4 12B,一款原生支持音频、无编码器的多模态模型,专为在笔记本电脑上本地运行而优化,采用Apache 2.0许可证。
谷歌推出一款免费AI语音听写应用,由Gemma 4驱动,支持iOS和Mac,完全本地运行,无需订阅。
一名开发者在五年前的笔记本电脑上使用 Gemma 4 31B 处理并索引了一整年的原始视频,使其完全可搜索,展示了本地优先 AI 工具的潜力。
Google 发布了 gemma-skills,这是一款帮助开发者使用 Gemma 模型构建智能体的工具,支持通过 MTP 提升速度,并能灵活选择模型尺寸。
一份逐步指南,介绍如何通过Unsloth和llama.cpp在Qwen3.6和Gemma 4等本地LLM中使用MCP服务器,从而利用工具、文件及API实现私有的自动化工作流。
一个使用Google Gemma模型的技能已被创建,可通过npx安装。
一项详细的基准测试对比了 Radeon 7900 XTX 上的 Qwen3.6-35B 和 Gemma4-26B,结果显示尽管 Gemma 的 token 生成速度较慢,但端到端快了约 20%,原因是 Qwen 因内部推理生成了约两倍的 token。文章建议:在吞吐量受限的批量任务中使用 Qwen,在延迟敏感的单次请求中使用 Gemma。
本文证明,LLMs可以在保持对齐输出的同时,在连贯上下文中进入可测量的不同内部潜在状态,揭示了当前仅监控表面token的对齐方法存在盲点。Gemma-3-12B-IT实验显示出强大的残差流几何偏移,现有安全框架无法检测,这对智能体AI部署具有重要影响。
Cactus Hybrid Router是一个65k参数的模型,它动态地在本地边缘模型(如Gemma4-2B)和前沿云模型(如Gemini-3.1-Flash-Lite)之间路由任务,以优化成本和性能,具有可调节的边缘-云比例,并支持文本、视觉和音频提示。
本文提出了一种以功能为中心的框架,利用转码器追踪视觉语言模型中的计算路径,展示了更强的视觉定位归因能力,并通过基于图的特征预测幻觉现象。
一条推文称,通过AtomicChat在MacBook本地运行的开源模型Gemma 4 31B,能够与云端Gemini 3.5 Flash相媲美,成功生成了一个可玩的HTML/Canvas版马里奥游戏,这表明云端护城河正在缩减。
作者提出一种方法,将E4B音频编码器添加到更大的模型中,通过提取编码器、创建线性投影层,并仅使用文本-音频对微调该层,类似于参考论文中的方法,但使用Gemma而非Whisper。
用户分享了一份详细的本地编码性能对比,指出 Qwen3.6-27B 仅用一次尝试就修复了 CSS 错误,而 Gemma4-26B 则陷入了递归错误循环。该帖子强调了在 Apple Silicon 硬件上密集模型(Dense models)与混合专家模型(MoE)之间的权衡。
讨论强调了 Gemma-4-26b-a4b 模型通过单次提示(one-shot prompting)生成 Three.js 代码以创建生成艺术演示的能力。