@rohanpaul_ai: atomic[.]chat 分享了一次揭示性的对比,展示了在自有硬件上运行本地开源权重LLM的情况。他们测试了…
摘要
在单个H100(FP8)上对本地开源权重LLM进行的基准测试比较显示,DiffusionGemma速度提升4倍,但错误数量比Gemma4 26B A4B多6倍,突显了扩散模型与自回归模型在速度和准确性之间的权衡。
查看缓存全文
缓存时间: 2026/06/12 02:50
atomic[.]chat 分享了一个揭示性的对比:在自有硬件上运行本地开源权重 LLM 的结果。
他们在单个 H100(FP8)上对新模型 DiffusionGemma(扩散文本模型)与 Gemma4 26B A4B(自回归模型)进行了基准测试。
DiffusionGemma 的 4 倍速度改变了错误的形态。
- 自回归模型从左到右逐 token 生成,速度较慢,但每个新词都依赖于已生成的准确文本。
- 扩散模型一次性写入多个 token,然后通过多轮迭代修正整块内容,因此模型无需等待 token 1 完成即可开始 token 2,从而带来更快的感受。
atomic[.]chat,一款用于本地运行 LLM 的桌面应用
atomic.chat (@atomic_chat_hq): Diffusion Gemma 速度快 4 倍,但错误多 6 倍!
我们在单个 H100(FP8)上对这款新的扩散 LLM 与其自回归孪生模型进行了基准测试。我们为每个模型分配了相同的三个任务:写一篇史蒂夫·乔布斯的传记、俄罗斯方块的历史以及 BeOS 的故事——每个下一个主题
相似文章
@rohanpaul_ai: atomic[.]chat(一款本地运行大语言模型的桌面应用)在 MacBook 上进行了一场极具揭示性的本地 AI 智能体对比测试……
Liquid 的 LFM2.5-8B-A1B 在 MacBook Pro 上本地运行工具调用基准测试时,击败了 OpenAI 的 gpt-oss-20b,不仅完成了所有工具调用,耗时还缩短了一半以上,且内存占用更少。
@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快,在 MacBook Pr… 上的 token 生成速度提升约 40%
atomic.chat 优化了 Gemma 4 26B 在 LLaMA.cpp 中的推理性能,在 MacBook Pro M5 Max 上通过多 token 预测(MTP)推测解码实现了约 40% 的 token 生成提速。这对运行桌面应用、编程智能体和本地私有助手的本地 AI 用户来说是一个重大利好。
@rohanpaul_ai: 来自atomic[.]chat的又一个本地LLM好消息,它可以在你的电脑上100%离线运行。他们刚刚展示了MTP(多…
atomic.chat的MTP技术通过草拟多个令牌并一起验证它们来加速本地LLM推理,在Qwen 27B密集模型上实现了高达137%的加速,且准确率零损失。
@mervenoyann: DiffusionGemma 已发布,它受计算限制,因此相比其他 Gemma-4 模型快 4 倍(H100 上 1k tok/s),在……方面也很出色
DiffusionGemma 已发布;它受计算限制,比其它 Gemma-4 模型快 4 倍(H100 上 1k tok/s),擅长编码任务,包括 3D 生成和前端开发。
在实际工作负载下,DiffusionGemma 与基准演示的表现截然不同
DiffusionGemma 的内部测试显示,在实际工作负载下,H100 与 A100 GPU 之间存在显著的性能差异;H100 在并发下的扩展性更好,且效率因工作负载类型而异,这引发了对基准测试可靠性的质疑。