gemma

#gemma

打造了一个本地AI助手，因为我一直知道这一天会到来，而昨天让它变得无比真实

Reddit r/LocalLLaMA ↗ · 2026-06-14

一位开发者构建了Bantz，一个完全本地的AI个人助手，运行在Gemma 4b上，具有管家角色，集成了Gmail、日历、网页搜索、系统监控和桌面控制，强调不依赖云基础设施。

0 人收藏 0 人点赞

#gemma

2026年中本地模型

Reddit r/LocalLLaMA ↗ · 2026-06-14 缓存

2026年中本地AI模型的技术概览，重点介绍开放权重模型如何通过混合专家模型和稀疏注意力机制的进步缩小了与前沿模型的差距，从而实现高效的本地推理。

0 人收藏 0 人点赞

#gemma

我将测试时计算扩展到 Qwen-3.6-27B 和 Gemma-4-31B，以在代码优化和加速方面超越 Claude Mythos。

Reddit r/LocalLLaMA ↗ · 2026-06-12

本文描述了一个脚手架（scaffold），它通过在 Qwen-3.6-27B 和 Gemma-4-31B 上使用迭代修正和分支探索来扩展测试时计算，从而在代码优化方面超越 Claude Mythos。文中附有论文链接和 GitHub 仓库地址。

0 人收藏 0 人点赞

#gemma

一些测试不同Gemma和Qwen量化版本准确性的对比实验

Reddit r/LocalLLaMA ↗ · 2026-06-12

一位用户分享了针对不同量化版本的Gemma和Qwen模型在算术、总统出生日期和注意力测试中的准确率对比基准结果，强调了模型规模与量化级别之间的权衡。

0 人收藏 0 人点赞

#gemma

PSA：测试你在 llama.cpp 中的“线程”参数（我的情况提升了 80% 的性能）

Reddit r/LocalLLaMA ↗ · 2026-06-12

一位用户使用 Gemma 4 在 llama.cpp 中针对混合 CPU-GPU 推理进行了线程数基准测试，发现在混合核心 CPU 上使用 16 个线程而非 6 个可提升 80% 的性能，并分享了最佳命令配置。

0 人收藏 0 人点赞

#gemma

@lvwerra：Gemma智能体协作始于48小时前，现已引爆：> 吞吐量提升近4倍（约100→387 tok/s）> 60多个智能体…

X AI KOLs Following ↗ · 2026-06-11 缓存

使用Gemma模型的多智能体协作取得了显著的吞吐量提升，并展现出涌现性社会行为，如组成联盟、发布道德声明、协调资源，在48小时内吸引了超过60个智能体和250份提交。

0 人收藏 0 人点赞

#gemma

DiffusionGemma

Simon Willison's Blog ↗ · 2026-06-10 缓存

Google 发布了 DiffusionGemma，这是一个采用 Apache 2 许可证的开源权重文本生成模型（总参数量 26B，活跃参数量 4B），通过 NVIDIA 的 NIM 云 API 展示了极高的推理速度。

0 人收藏 0 人点赞

#gemma

谷歌最新DiffusionGemma开源AI模型速度提升4倍

Ars Technica ↗ · 2026-06-10 缓存

谷歌发布了DiffusionGemma，这是一个实验性的开源文本生成扩散模型，相比自回归模型实现了4倍速度提升，并针对本地处理进行了优化。

0 人收藏 0 人点赞

#gemma

@_philschmid: Gemma 迎来扩散模型！DiffusionGemma 每秒可处理高达1000+个token！ - 基于Gemma 4构建，为26B MoE模型。 - 3.8B…

X AI KOLs Following ↗ · 2026-06-10 缓存

DiffusionGemma 是一个基于 Gemma 4 的 26B MoE 模型，通过扩散模型以256个token的块进行文本生成，每秒可处理超过1000个token，经量化后可在18GB显存内运行，已根据 Apache 2.0 许可发布。

0 人收藏 0 人点赞

#gemma

DiffusionGemma：开发者指南 - Google Developers Blog

Reddit r/LocalLLaMA ↗ · 2026-06-10 缓存

DiffusionGemma 是 Google DeepMind 推出的全新实验模型，可在 256 令牌画布上实现并行生成，在 GPU 上令牌生成速度提升高达 4 倍。本开发者指南阐述了其架构、双向上下文，并提供了用于解决数独的微调配方。

0 人收藏 0 人点赞

#gemma

@omarsar0: 太棒了！我最近花了很多时间在研究扩散LLM上，所以这真是完美的时机。我觉得有……

X AI KOLs Following ↗ · 2026-06-10 缓存

Google DeepMind 发布了 DiffusionGemma，这是一个开放实验模型，以块的形式生成文本而非逐词生成，实现了自我修正和更快的输出。

0 人收藏 0 人点赞

#gemma

我为智能编码构建了一个代码上下文图

Reddit r/ArtificialInteligence ↗ · 2026-06-10

作者构建了一个代码上下文图解析器，通过静态分析生成图，并通过MCP暴露给AI代理。在与Gemma 4 26B的直接比较中，使用该图的代理在不到2分钟内探索了Apache Kafka的请求流程，而没有图的基线代理在6分钟内耗尽了速率限制。

0 人收藏 0 人点赞

#gemma

更新的Qwen模型在摘要生成方面表现更差？

Reddit r/LocalLLaMA ↗ · 2026-06-09

LLM摘要性能对比显示，Qwen 3在30B参数范围内领先，其次是Gemma 4，而更新的Qwen模型可能针对代理任务进行了优化。

0 人收藏 0 人点赞

#gemma

@googlegemma：推出与Hugging Face合作的Fast Gemma挑战赛。未来几天，数十个智能体将协作，以...

X AI KOLs Following ↗ · 2026-06-09 缓存

谷歌与Hugging Face联合推出Fast Gemma挑战赛，数十个智能体将合作加速Gemma 4 E4B模型。

0 人收藏 0 人点赞

#gemma

关于Gemma4 12b与26a4b的思考，哪个更好？

Reddit r/LocalLLaMA ↗ · 2026-06-08

讨论Gemma4 12b和26a4b变体的比较，重点放在写作和聊天等创意任务上。

0 人收藏 0 人点赞

#gemma

Gemma4_31b_fp8 在我自己的评测框架中与 Sonnet_4.6_medium 持平。

Reddit r/LocalLLaMA ↗ · 2026-06-08

一位用户报告称，Gemma4_31b 在 FP8 精度下，于自定义评测框架中与 Sonnet_4.6_medium 相当或持平，涉及任务包括 Cypher 查询生成、实体抽取、智能体工具调用、代码编写以及多向量检索合成。

0 人收藏 0 人点赞

#gemma

@GoSailGlobal: 多代理AI协作实战数据来了：用Opus 4.8做规划、Deepseek/Gemma做执行，成本降10倍，速度快2倍。秘诀不是用最贵的模型，是让便宜模型干重活、贵模型只做决策。这跟公司管理一个道理：CEO不该写代码，实习生不该定战略。A…

X AI KOLs Timeline ↗ · 2026-06-08 缓存

一篇关于多代理AI协作的实战分享，提出了使用Opus 4.8做规划、Deepseek/Gemma做执行的分层策略，可降低成本10倍、提升速度2倍，并开源了相关实现。

0 人收藏 0 人点赞

#gemma

@0x0SojalSec: SUPER GEMMA 4 26B UNCENSORED GGUF v2 太强了 - 0/100 次拒绝（实际上无审查） - 修复了所有工具调用和令牌化…

X AI KOLs Following ↗ · 2026-06-07 缓存

Super Gemma 4 26B Uncensored GGUF v2 是一个社区微调模型，提供无审查的回复，零拒绝，改进的速度，修复了工具调用，针对 llama.cpp 和 vLLM 上的本地推理进行了优化。

0 人收藏 0 人点赞

#gemma

运行 gemma-4-26B-A4B 不需要 GPU

Reddit r/LocalLLaMA ↗ · 2026-06-07

作者展示了在仅使用 CPU 的系统上，通过 Koboldcpp 高效运行 Gemma-4-26B-A4B 模型，在一台旧台式机上达到了每秒 7 个 token 的速度，这表明运行本地大语言模型推理可能并不需要强大的 GPU。

0 人收藏 0 人点赞

#gemma

对QAT模型使用替代量化有意义吗？[D]

Reddit r/MachineLearning ↗ · 2026-06-06

讨论对像Gemma-4这样的量化感知训练(QAT)模型使用替代量化方法是否合理，质疑unsloth的基准测试显示其更接近QAT微调的性能是有益还是适得其反。

0 人收藏 0 人点赞

gemma

提交意见反馈