标签
一位开发者构建了Bantz,一个完全本地的AI个人助手,运行在Gemma 4b上,具有管家角色,集成了Gmail、日历、网页搜索、系统监控和桌面控制,强调不依赖云基础设施。
2026年中本地AI模型的技术概览,重点介绍开放权重模型如何通过混合专家模型和稀疏注意力机制的进步缩小了与前沿模型的差距,从而实现高效的本地推理。
本文描述了一个脚手架(scaffold),它通过在 Qwen-3.6-27B 和 Gemma-4-31B 上使用迭代修正和分支探索来扩展测试时计算,从而在代码优化方面超越 Claude Mythos。文中附有论文链接和 GitHub 仓库地址。
一位用户分享了针对不同量化版本的Gemma和Qwen模型在算术、总统出生日期和注意力测试中的准确率对比基准结果,强调了模型规模与量化级别之间的权衡。
一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试,发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能,并分享了最佳命令配置。
使用Gemma模型的多智能体协作取得了显著的吞吐量提升,并展现出涌现性社会行为,如组成联盟、发布道德声明、协调资源,在48小时内吸引了超过60个智能体和250份提交。
Google 发布了 DiffusionGemma,这是一个采用 Apache 2 许可证的开源权重文本生成模型(总参数量 26B,活跃参数量 4B),通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。
谷歌发布了DiffusionGemma,这是一个实验性的开源文本生成扩散模型,相比自回归模型实现了4倍速度提升,并针对本地处理进行了优化。
DiffusionGemma 是一个基于 Gemma 4 的 26B MoE 模型,通过扩散模型以256个token的块进行文本生成,每秒可处理超过1000个token,经量化后可在18GB显存内运行,已根据 Apache 2.0 许可发布。
DiffusionGemma 是 Google DeepMind 推出的全新实验模型,可在 256 令牌画布上实现并行生成,在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文,并提供了用于解决数独的微调配方。
Google DeepMind 发布了 DiffusionGemma,这是一个开放实验模型,以块的形式生成文本而非逐词生成,实现了自我修正和更快的输出。
作者构建了一个代码上下文图解析器,通过静态分析生成图,并通过MCP暴露给AI代理。在与Gemma 4 26B的直接比较中,使用该图的代理在不到2分钟内探索了Apache Kafka的请求流程,而没有图的基线代理在6分钟内耗尽了速率限制。
LLM摘要性能对比显示,Qwen 3在30B参数范围内领先,其次是Gemma 4,而更新的Qwen模型可能针对代理任务进行了优化。
谷歌与Hugging Face联合推出Fast Gemma挑战赛,数十个智能体将合作加速Gemma 4 E4B模型。
一位用户报告称,Gemma4_31b 在 FP8 精度下,于自定义评测框架中与 Sonnet_4.6_medium 相当或持平,涉及任务包括 Cypher 查询生成、实体抽取、智能体工具调用、代码编写以及多向量检索合成。
一篇关于多代理AI协作的实战分享,提出了使用Opus 4.8做规划、Deepseek/Gemma做执行的分层策略,可降低成本10倍、提升速度2倍,并开源了相关实现。
Super Gemma 4 26B Uncensored GGUF v2 是一个社区微调模型,提供无审查的回复,零拒绝,改进的速度,修复了工具调用,针对 llama.cpp 和 vLLM 上的本地推理进行了优化。
作者展示了在仅使用 CPU 的系统上,通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型,在一台旧台式机上达到了每秒 7 个 token 的速度,这表明运行本地大语言模型推理可能并不需要强大的 GPU。
讨论对像Gemma-4这样的量化感知训练(QAT)模型使用替代量化方法是否合理,质疑unsloth的基准测试显示其更接近QAT微调的性能是有益还是适得其反。